设计一个新的基于AI的聊天机器人

聊天机器人是一名数字化员工,可以自主回答客户的问题。开发一个聊天机器人帮助爱立信服务工程师全天候回复他们的查询是Sudipta Bose的最后一个学期项目,他是来自印度丹佛的IIT(ISM)印度理工学院的计算机科学专业的学生,​​在爱立信实习期间钦奈的研究。在这篇博文中,Sudipta解释了聊天机器人的基础知识以及她用来构建聊天机器人的方法和技术。

该项目是根据我的个人资料分配给我的,因为我之前对印度语言(孟加拉语)中的名词(去除屈折形式)有所了解,并对自然语言处理(NLP)和机器学习感兴趣算法。
不同域中的Chatbot应用程序如下所示。

聊天机器人只有两类:基于规则的聊天机器人和基于人工智能(AI)的聊天机器人。基于规则的聊天机器人依赖于规则和启发式数据库。这些聊天机器人最适合旅行社,营销行业等行业。基于规则的聊天机器人的规则的生成需要深入了解域,并且还需要相当多的人力。另一方面,基于AI的聊天机器人使AI算法能够理解用户查询的上下文并生成适合它们的答案。因此,我们开发了一个新的基于AI的聊天机器人,以回答服务工程师对内部爱立信产品的疑问。
人工智能是由机器演示的任何智能,使其成为针对给定问题的最佳或次优解决方案。机器学习是AI的一个子集,它使机器从数据中学习。深度学习是机器学习的一个子领域,涉及受大脑结构和功能启发的算法。在深度学习中,有多个层来处理特征,通常,每个层都会提取一些有价值的信息。自然语言处理是人工智能的一个组成部分,它使计算机理解并从人类语言中获得用于处理信息的意义。
聊天应用程序设计定义了用户和机器之间的交互。聊天机器人设计师将考虑个人的需求,将提示用户澄清的问题以及整体互动。

聊天应用开发

为了创建新的聊天应用程序,我们只收到了服务工程师和开发团队之间关于特定产品,相关产品文档和常见问题(FAQ)的小型对话数据集。如上所述,为了理解和分类查询的上下文,我们尝试了三种不同的模型:
  • 基本机器学习模型,支持向量机(SVM);
  • 深度学习模型,卷积神经网络(CNN)
  • 图形模型,条件随机场(CRF)。
为了使用给定的数据集训练上述模型,首先使用NLP技术对每个文档进行预处理,例如停用词删除技术,词干,文档术语频率矩阵计算等。由于训练数据集的大小很小,所以建立的模型导致准确性差。因此,我们选择采用无模型方法来解决这个问题。我们的方法需要三个阶段才能完成新聊天应用程序的创建:
  1. 训练阶段,
  2. 测试阶段
  3. 评估阶段。
在培训中,我们使用可用的数据集和相关的产品文档来提取特征。在测试中,我们探索了训练有素的功能和用户输入查询以产生响应,我们通过黄金标准方法评估响应。

训练阶段

数据集包含客户提出的查询和服务工程师提供的答案。我们对查询执行了以下操作。首先,我们从所有句子中提取出独特的单词,并在每个句子中找出这些单词的位置。每个句子中单词的位置起着关键作用:例如 - 句子1:'亚历克斯只有十分钟完成工作'。如果单词“only”的位置发生变化,那么句子的含义也会变为例如“只有Alex有十分钟才能完成作业”。因此,我们选择使用句子中的位置作为重要特征。使用每个句子中的单词的位置作为矩阵行和作为列的唯一单词,我们形成了一个矩阵,该矩阵描述了特定单词在特定位置中出现的次数的信息。
下一步是为数据中的每个唯一单词分配10个维度的随机数。然后,我们将为每个单词获得的随机数乘以相应的单词位置,并进一步求和这些值,以获得数据集中每个句子的10维向量。最后,我们将获得的值标准化以标准化0到1之间的值。这导致数据库中可用的每个查询的十维向量。
除了处理句子中出现的单词的位置之外,我们还考虑了处理中的另一个挑战。如果客户提出的数据集中不存在查询,则建议的应用程序可能无法生成良好的答案。为解决此问题,我们考虑了产品文档和其他支持文档中的关键字。首先,我们通过删除停用词,标点符号等来预处理所有数据,就像任何传统的NLP练习一样。我们对数据集执行了词性(POS)标记。在下一步中,我们收集系统中存在这些单词的实例,并通过连接系统中的名词来创建知识图。知识图以整个句子的形式绘制关键字之间的关系。例如,考虑'克里斯和朱莉踢足球'。在这句话中,在删除了停止词后,我们得到'克里斯踢足球朱莉'。然后,我们解决句子中被分类为动词和名词的单词。最后,我们收集句子中的名词作为关键词。在这句话中,关键词是'Chris','football','Julie'。

从构建的知识图中,可以回答诸如“克里斯与谁一起玩?”,“克里斯演奏什么?”等问题。通过这种方式,我们可以在任意数量的关键字(被识别为名词)之间创建关系。应该注意的是,给出的示例是单个句子,因此创建的知识图也表示单个边缘。然而,在不同句子中多次出现相同关键词的情况下,知识图由多个边组成,每个边代表对话的上下文。因此,在这项工作中,我们使用分类模型来理解查询的上下文,并通过应用CNN模型来探索句子,理解上下文并执行分类。建模的一般方法是标记给定语料库中的每个句子。然而,这很困难,因为它需要这么多的手工工作。因此,我们采用另一种方式进行分类而无需人工标记。我们将查询拆分为不同的单词并搜索查询中存在的关键字。一旦识别出关键词,我们就会尝试在查询中找到任何有助于我们构建上下文的单词。接下来,查询在上下文中标记(基于查询和文档中的单词)并用于训练模型。然后,我们使用循环重建模型来识别查询的上下文以回答用户的查询。我们尝试在查询中找到任何有助于我们构建上下文的单词。接下来,查询在上下文中标记(基于查询和文档中的单词)并用于训练模型。然后,我们使用循环重建模型来识别查询的上下文以回答用户的查询。我们尝试在查询中找到任何有助于我们构建上下文的单词。接下来,查询在上下文中标记(基于查询和文档中的单词)并用于训练模型。然后,我们使用循环重建模型来识别查询的上下文以回答用户的查询。
在此训练练习过程结束时,我们获取每个查询的10维向量以及查询的相应答案。此外,我们理解句子中存在的关键词之间的上下文关系。

测试阶段

测试建议的聊天应用程序涉及以下步骤:首先,客户在聊天应用程序用户界面中提供查询; 接下来,查询处理如下:
逻辑运算相关性模型:根据我们设计新聊天应用程序的经验,我们理解在查询中存在连词的重要性。例如,如果用户问“钦奈和孟买的温度是多少?”。'和'结合连接两个不同的问题,应该产生两个不同的答案。因此,在构建我们的聊天应用程序时,我们将问题分成两部分,并为用户提供两个单独的答案。
基于关键字的概率模型:为了处理类似于数据集中的用户查询但具有不同词汇表的用户查询,我们使用阈值机制将查询转换为数据集中可用的查询。
根据从训练阶段学习的特征对上一步骤的输出查询进行矢量化。为了找到与数据集中可用的最匹配的匹配,我们计算了欧几里德距离以找到它们之间的最小值。基于最小值,我们使用已发布的查询语句提取已关闭的查询语句。然后,将获得的查询显示给客户以供他/她阅读。
如果在上一步骤结束时获得的距离太大,则相应的用户查询可能在数据库中不可用。为了解决这个问题,我们使用知识图中训练有素的CNN模型来识别上下文并将类别传递给用户以增强查询词。
最后,如果上述两种情况未能找出用户查询和相关答案,则相应的查询将被转发给相关的服务工程师以解决它。该分辨率稍后将更新为数据集以供将来通信。

评估阶段

我们使用聊天应用程序回答用户查询时获得了91%的准确率,并且当在不同的查询集上尝试时,获得的平均精确度和召回分数分别为76.42%和89.42%。从评估和手动验证中,我们发现我们的新聊天机器人开始在基于产品的用户查询中表现良好。

爱立信的经验


这是印度钦奈爱立信的一次很棒的体验。我在M. Saravanan博士和Perepu Satheesh Kumar博士的监督下加入了实习生。我在爱立信的实习教育了我的想象力超出了我的想象; 从个人技能发展到与擅长这么多事情的人交流,到机器学习,深度学习和自然语言处理的介绍。我的实习确实让我更好地理解了我的技能。这种经历使我为许多事情做好了准备,例如办公室礼仪,工作截止日期以及从实践培训中学习。

用户喜欢...

三星人工智能家庭机器人设计专利外观图公布:采用球形设计 可移动

三星人工智能家庭机器人设计专利外观图公布:采用球形设计 可移动 据Letsgodigital报道,近日三星一款人工智能家庭机器人设计专利外观图公布,采用球形设计,可以进行移动。 据了解,201...


谷歌公司实施人工智能的6个步骤

一个专家团队在各种实际项目中的人工智能应用中学到了知识和经验,他们为采用人工智能的企业首席信息官提出了六个步骤的建议。 人工智能(AI)是提高人类解决问题能力的关键,但与人工智...


博世为驾驶辅助系统研发AI摄像头 将车载摄像头提升至一个新高度

9月5日消息,据行业媒体报道,日前,博世为驾驶辅助系统研发人工智能(AI)摄像头,将车载摄像头提升至一个新高度。 博世集团董事会成员Harald Krger表示:在驾驶方面,我们希望汽车比人驾驶...


MIT新研究:AI让每个人设计衣服成为现实

据国外媒体报道,3D打印机的日益普及以及Thingiverse和Shapeways等公司的出现,给了制造商前所未有的力量,让它们能够创造出从角色扮演配饰到替换零件的各种东西。但是,尽管3D打印已经开启...


AI挑战是人机交互设计,而不是技术

人工智能(AI)是21世纪最受欢迎的词汇之一,也是最容易被误解的词汇之一。 很多时候,在谈论人工智能时,我们希望自动将其与机器学习,深度学习和神经网络等其他术语结合起来。这使得...


美国海军为水下机器人设计充电站 延长任务时间

随着自动科技的进展,各类型的无人机愈来愈普及,美国海军也全力研发,这些无人机器人的任务多半必须长期进行...


眺望未来的物联网设计

我们在系列文章中看了物联网在家庭、城市发展、营运、营销上不同面向的观点,这一波大概会是继工业革命、信息...


告诉你一个坏消息:机器人不会取代你

即使机器愈来愈先进,人类还是能保住工作,一般来说,这样的看法相当乐观,但是这样的乐观,背后却藏着巨大的...


服装设计师恐失业?Google竟跨足时尚圈

近日,Google与德国电商Zalando进行合作,正打造一款人工智能时装设计产品Project Muze,Project Muze建立在设计颜色、款式...


下一个盛世 “认知物联网”

认知物联网结合物联网与认知运算技术,能够透过模拟人类思维,不断累积环境与人际互动的经验,通过理解、推论...


聊天机器人崛起,下一个兵家必争之地将是对话式商务

未来商家和消费者的互动情境,将因聊天机器人变得不同,各个产业应用与普及也会迅速发酵。一场前所未有的科技...


创新的“无人旅店”,抬行李工作就交给机器人吧!

在台中,两个年轻人利用IT科技和机器人,打造全台湾第一家无人旅店—鹊丝旅店,它没有我们熟悉的柜台接待,Ch...


培养一个人类医生至少需要八年,那么人工智能呢?

一位普通患者的非典型住院之旅 去年,微软亚洲研究院的资深研究员闫峻在北京一家医院做了一场外科手术,手术前后,他在医院住了十天。但当他躺在病床上,想安安静静看上几本书,或...


支付宝:给你一个过去的地址 Twitter员工:房价!

支付宝:给你一个过去的地址 Twitter员工:房价!-科技频道-和讯网...


人工智能的下一个技术风口与商业风口

作为第四范式首席科学家、范式大学的导师,杨强教授近日在第四范式公司内部进行了一场主题为人工智能的下一个...


《机器学习系统设计》学后总结

《机器学习系统设计》是一本不错的机器学习实战入门的书籍。第一章介绍了用于机器学习的Python相关工具,接下来...