基于深度学习的阿姆哈拉语高校常见问题问答聊天机器人

arXiv cs.CL 2026/04/20 04:00 论文

摘要

本文提出了一种基于深度学习的聊天机器人系统，用于解答大学中的阿姆哈拉语常见问题，利用TensorFlow和Keras实现神经网络，达到了91.55%的准确率。该系统解决了阿姆哈拉语特有的语言挑战，包括形态变化和词汇缺口，并通过Heroku部署在Facebook Messenger上。

arXiv:2402.01720v4 公告类型：交叉替换摘要：大学生常常花费大量时间向管理人员或教师寻求常见问题的答案。这对双方来说都可能变得繁琐，因此需要一种解决方案。为此，本文提出了一种聊天机器人模型，利用自然语言处理和深度学习技术，用阿姆哈拉语回答常见问题（FAQ）。聊天机器人是通过人工智能模拟人类对话的计算机程序，充当虚拟助手来处理问题和其他任务。所提出的聊天机器人程序采用分词、规范化、停用词去除和词干提取来分析和分类阿姆哈拉语输入句子。使用了三种机器学习模型算法来分类标记并检索适当的响应：支持向量机（SVM）、多项式朴素贝叶斯和通过TensorFlow、Keras和NLTK实现的深度神经网络。深度学习模型取得了最佳结果，使用Adam优化器和SoftMax激活函数，准确率为91.55%，验证损失为0.3548。该聊天机器人模型与Facebook Messenger集成，并部署在Heroku服务器上，提供24小时访问。实验结果表明，该聊天机器人框架实现了其目标，并有效解决了阿姆哈拉语字母变体、形态变化和词汇缺口等挑战。未来的研究可以探索集成阿姆哈拉语WordNet以缩小词汇缺口，并支持更复杂的问题。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:32

# 基于深度学习的阿姆哈拉语高校FAQ聊天机器人
来源：https://arxiv.org/html/2402.01720
###### 摘要

大学生往往花费大量时间向管理员或老师寻求常见问题的答案。这对双方而言都很繁琐，因此需要一种解决方案。为此，本文提出一种利用自然语言处理和深度学习技术回答阿姆哈拉语常见问题（FAQ）的聊天机器人模型。聊天机器人是一种通过人工智能模拟人类对话的计算机程序，可作为虚拟助手处理问题及其他任务。所提出的聊天机器人程序采用分词、标准化、停用词移除和词干提取等技术，对阿姆哈拉语输入句子进行分析和归类。使用了三种机器学习模型算法对词元进行分类并检索合适的回复：支持向量机（SVM）、多项朴素贝叶斯，以及通过TensorFlow、Keras和NLTK实现的深度神经网络。深度学习模型取得了最佳效果，准确率达91.55%，验证损失为0.3548，使用了Adam优化器和Softmax激活函数。该聊天机器人模型已与Facebook Messenger集成，并部署在Heroku服务器上以实现24小时可访问性。实验结果表明，该聊天机器人框架达到了预期目标，并有效应对了阿姆哈拉语Fidel变体、形态变化和词汇缺口等挑战。未来研究可探索集成阿姆哈拉语WordNet以缩小词汇缺口并支持更复杂的问题。

## I 引言

人工智能自1956年诞生以来一直是一个热门话题。其最终目标是创造出能够像人类一样思考和行动的智能机器。人工智能几乎可以应用于所有工作领域，智能代理可以完成从体力劳动到复杂操作的多种任务[2 (https://arxiv.org/html/2402.01720#bib.bib1),5 (https://arxiv.org/html/2402.01720#bib.bib2)]。自然语言处理（NLP）是一门专注于计算机与人类之间自然交互的研究领域，涵盖了许多与自然语言相关的主题，如情感分析、文本相似度、问答和文本摘要[6 (https://arxiv.org/html/2402.01720#bib.bib3)]。

近年来发展迅猛的人工智能应用之一是聊天机器人。聊天机器人旨在模仿人类对话，其架构结合了语言模型和机器学习算法，为人类用户与机器之间提供非正式的沟通渠道。聊天机器人已被应用于从客户服务、知识收集到娱乐的多个领域，并有潜力提升用户体验和沟通效果[12 (https://arxiv.org/html/2402.01720#bib.bib4)]。

然而，尽管聊天机器人很受欢迎，但目前尚无关于阿姆哈拉语聊天机器人的研究。阿姆哈拉语因其形态丰富且资源匮乏而面临挑战。因此，本文提出一项研究，利用深度学习技术开发阿姆哈拉语聊天机器人，以方便用户即时获取信息。该研究旨在促进高等教育中更好的互动性、社交性和知识获取，并为大部分时间花在邮件和即时通讯平台（如Telegram和Messenger）上的移动用户提供广泛服务。

### I-A 问题背景

如今，大学需要处理大量来自学生和其他人员关于常见问题信息的常规请求。这通常需要专门的客服人员，而学生则需要亲自前往各处办公室获取信息，耗时费力。此外，管理员和教师也负担着反复回答相同问题和与学生进行多次会议以解决其疑问的繁琐义务。虽然电子邮件是为大量学生提供信息的有效媒介，但在处理单个请求或特定问题时可能缓慢且低效。学生们也会浪费时间在不同网站和网页上搜索常见问题。

为应对这些挑战，以聊天机器人形式出现的人工智能可以提供解决方案。聊天机器人可以模拟与用户的自然语言对话，并提供即时、最新的信息。然而，为阿姆哈拉语等语言开发聊天机器人存在挑战，因为该语言具有不同的语法结构、字符表示和语句构成方式。虽然已有针对其他语言开发的聊天机器人，但据我们所知，目前尚无针对FAQ的阿姆哈拉语聊天机器人。因此，构建一个能够翻译和理解包括阿姆哈拉语在内的多种语言的聊天机器人，在设计开发阶段需要额外的时间和精力。此外，翻译服务有时难以区分使用相同文字的不同语言，当用户在一个短语中同时使用两种语言时，会导致难以正确检测语言。同时，聊天机器人必须了解最终用户的文化背景，能够理解地区语调，并具备理解对话及不同地区口音或语言变体（方言）的能力。

### I-B 相关工作

在本节中，我们回顾现有的聊天机器人和问答系统研究，重点关注阿姆哈拉语。

一项值得注意的相关工作是FAQchat系统，该系统使用利兹大学计算机学院的常见问题（FAQ）对ALICE系统进行了重新训练。FAQchat采用基于关键词的检索方式，没有使用语言工具或含义分析。用户认为它优于谷歌，因为它能提供直接答案且链接更少[11 (https://arxiv.org/html/2402.01720#bib.bib5)]。

另一项研究描述了面向大学FAQ的聊天机器人的设计和开发[10 (https://arxiv.org/html/2402.01720#bib.bib6)]。该系统使用了人工智能标记语言（AIML）和潜在语义分析（LSA）。AIML处理基于模板和一般性问题，而LSA处理基于服务的问题。聊天机器人分三步运行：用户查询处理、预定义格式匹配和基于模式的答案呈现。然而，这种基于规则的聊天机器人缺乏学习新输入数据的能力。

有人提出了一种会话式聊天机器人模型，作为行业FAQ页面的替代方案[8 (https://arxiv.org/html/2402.01720#bib.bib7)]。该模型根据用户请求控制对话流程，并提供自然语言回复，包括直接回答、请求更多信息或建议操作。该模型采用深度学习技术进行意图和实体识别。

另一项研究开发了一个聊天机器人框架，可供独立公司用作客户支持替代方案[14 (https://arxiv.org/html/2402.01720#bib.bib8)]。该框架以人工智能为核心，利用TensorFlow创建了一个神经网络，并使用设计文档进行训练以生成回复。系统由用户界面、神经网络模型、NLP单元和反馈系统组成。

研究人员还探索了采用AIML模式匹配来回答FAQ的阿拉伯语聊天机器人[13 (https://arxiv.org/html/2402.01720#bib.bib9)]。虽然对阿拉伯语问题实现了较高的正确率，但这些系统在处理不同阿拉伯语形式时遇到挑战。

第一个阿拉伯语聊天机器人BOTTA是在Pandorabots平台上使用AIML开发的[3 (https://arxiv.org/html/2402.01720#bib.bib10)]。BOTTA旨在模拟对话并与阿拉伯语用户互动。

此外，还有开发阿姆哈拉语事实性和非事实性问答系统的尝试[15 (https://arxiv.org/html/2402.01720#bib.bib11),16 (https://arxiv.org/html/2402.01720#bib.bib12),1 (https://arxiv.org/html/2402.01720#bib.bib13)]。这些系统采用了各种技术，如预处理、问题分析、文档检索和答案提取。然而，目前尚未开发出能够回答学生阿姆哈拉语FAQ的综合聊天机器人。

总之，相关工作探讨了聊天机器人和问答系统的不同方面。然而，仍需要一个强大的聊天机器人来处理阿姆哈拉语的FAQ。与现有聊天机器人系统相比，所提出的阿姆哈拉语聊天机器人具有若干显著优势。之前的系统依赖基于关键词的检索，缺乏语言工具或含义分析，而我们的聊天机器人利用深度学习技术提供更准确、更有上下文意义的回复。本研究旨在利用深度学习技术弥合这一差距，开发一个支持阿姆哈拉语的综合聊天机器人解决方案。此外，与其他主要针对广泛使用语言设计的聊天机器人不同，我们的阿姆哈拉语聊天机器人解决了低资源语言的具体挑战，使其成为阿姆哈拉语社区的有价值工具。用户反馈和比较评估表明，我们的阿姆哈拉语聊天机器人在提供直接答案、减少对外部链接的依赖以及提供更个性化的用户体验方面优于通用聊天机器人。

## II 方法论

本研究采用的研究方法是设计科学研究（DSR）[4 (https://arxiv.org/html/2402.01720#bib.bib14)]，该方法侧重于创建能够解决实际业务问题的工件。DSR旨在在开发基于技术的解决方案的同时产生科学知识。它由三个循环组成：相关性循环、设计科学研究循环和严谨性循环。相关性循环将研究背景与设计科学活动联系起来，定义问题空间和验收标准。设计科学研究循环涉及使用计算和数学方法构建和评估工件。严谨性循环将设计科学活动与现有知识和基础联系起来。本研究还遵循了Peffers等人为信息系统制定的六步设计科学研究方法过程模型[9 (https://arxiv.org/html/2402.01720#bib.bib15)]。这六步过程模型是：问题识别与动机、研究目标、设计与开发、演示、评估和沟通。问题被确定为大学FAQ缺乏阿姆哈拉语聊天机器人。目标是设计和实现一个基于深度学习的阿姆哈拉语聊天机器人。设计与开发活动侧重于使用不同工具和技术创建聊天机器人框架。

### II-A 数据收集

为了开发特定领域的聊天机器人，需要一个数据集来测试和验证聊天机器人的性能。研究人员选择工程专业学生作为目标受众，因为他们会提出与院系相关、选择工程专业以及其他相关问题，这有助于确保数据集的广度。

采用有目的抽样方法来收集聊天机器人模型的数据集。有目的抽样是一种依靠研究者判断来选择被研究单位的抽样技术。向默克莱大学和阿克苏姆大学的工程专业学生发放了问卷。共有80名学生完成了问卷，其中默克莱大学38名男性和12名女性，阿克苏姆大学13名男性和17名女性。

该问卷旨在识别工程专业学生在学习过程中经常提出的问题。收集的数据被用作确定阿姆哈拉语训练数据的基础。收集的数据被翻译、预处理并使用谷歌翻译和一些阿姆哈拉语专家校正为阿姆哈拉语。

收集问卷后，提取了聊天机器人所需的数据集信息，并将数据集缩小到涵盖60个主题。收集的数据集被结构化为JSON文件。JavaScript对象表示法（JSON）使用人类可读的文本来存储和传输由属性值对和数组数据类型组成的数据对象。借助Python中的JSON包，可以读取JSON文件并准备进行处理和训练。一系列意图由标签、模式、回复、上下文集和上下文过滤器组成。

每个意图条目包含一个标签（60个主题中每个主题的唯一名称）、模式（每个主题的示例查询）、回复（在识别主题后随机选择的一个候选答案）、上下文集（如果需要则改变对话状态）以及上下文过滤器（根据当前上下文过滤结果）。

这种JSON结构模型聊天数据有两个主要优点。首先，如果有人有聊天数据集，每个查询都可以标记一个标签。训练数据集因此可以附加到现有的查询数据和答案上。其次，如果没有之前的数据集，任何人都可以按照这种格式创建和添加数据。对话流程的确定没有问题。如果有人想标记关于其他数据的对话，可以使用'上下文过滤器'标签。

### II-B 聊天机器人框架设计

该概念性聊天机器人框架由三个主要部分组成：用户、用户界面和聊天机器人模型，如图1所示。

图1：FAQ聊天机器人概念框架。

用户部分定义了需要答案和关于学习及其他相关大学问题的最终用户或学生。用户界面（UI）部分描述了用户如何与聊天机器人通信和交互。它是一系列自然语言元素，允许用户与聊天机器人模型之间的交互。这意味着用户可以根据自己的条件进行通信，而不是计算机的条件。然而，聊天机器人的通信技能可能因创建的界面而异。使用默认答案（如按钮选项）的聊天机器人界面限制了用户可以提出的问题以及对聊天机器人的理解。但本文构建的聊天机器人旨在通过Facebook Messenger理解和回应各种阿姆哈拉语文本输入，Facebook Messenger充当界面并使用Flask webhook与聊天机器人模型交互；然后将其部署在Heroku web服务器上以实现实时对话。

本文设计的聊天机器人模型部分如图2所示，由三个主要部分组成：意图分类、训练和回复生成。

图2：阿姆哈拉语聊天机器人模型。

在分类部分，对用户问题应用了预处理技术，如分词、标准化、停用词移除和词干提取。这种预处理有助于识别问题的意图并检索合适的回复。数据集经过预处理和词干提取后，训练了一个分类模型来为新查询分配类别标签并提供合适的回复。

训练部分涉及预处理收集的数据集并将其输入分类模型进行训练和特征提取。

回复生成部分侧重于基于分类部分提供的数据提供合适的回复。回复生成部分包括选择一个合适的回复。

基于深度学习的阿姆哈拉语高校常见问题问答聊天机器人

相似文章

Adesua: 面向西非科学学习的AI WhatsApp机器人的开发与可行性研究

@HEI: 评估商业AI聊天机器人作为新闻中介 — Mirac Suzgun, Emily Shen, Federico Bianchi, Alexander Spangher…

我制作了一个完全在浏览器中运行的FAQ聊天机器人；只需两次点击即可启动本地AI

使用本地语法图为韩语法律聊天机器人生成训练数据集

Dziri Voicebot：面向阿尔及利亚方言的端到端低资源语音对话系统

提交意见反馈