Adesua: 面向西非科学学习的AI WhatsApp机器人的开发与可行性研究

arXiv cs.CL 论文

摘要

本文介绍了 Adesua,一个基于 WhatsApp 的 AI 教学助手,用于西非的科学教育,它结合了检索增强生成与精选教科书和考试题目。在加纳进行的一项为期 6 个月的可行性研究显示,感知有用性较高(93.75% 的帮助率),但样本量较小。

arXiv:2605.15376v1 Announce Type: new 摘要: 撒哈拉以南非洲地区持续面临高师生比和合格教师短缺的问题,限制了学生获得个性化学习支持和形成性评估的机会。为应对这一挑战,我们提出了 Adesua,一个基于 WhatsApp 的 AI 教学助手,用于科学教育,它是对 Kwame for Science 平台的扩展。Adesua 利用 WhatsApp 在非洲的广泛普及,为西非各地的初中(JHS)和高中(SHS)学生提供可访问的、与课程一致的学习支持。该系统将精选教科书和 33 年的国家考试题目与生成式 AI 相结合,通过 WhatsApp 机器人实现对话式问答和带反馈的自动评估。学生可以提问科学问题,按主题或考试年份参加限时或不限时的选择题测试,并立即获得评分以及对正确和错误回答的详细解释。2025 年为期 6 个月的可行性部署在加纳有 56 名活跃用户,包括学生和家长。定量评估显示感知有用性较高,AI 生成答案的帮助得分为 93.75%,尽管评分数量较少(n=16)。这些初步结果为未来更广泛地评估基于 WhatsApp 的 AI 助手提供了基础,以评估其在资源有限的教育环境中提供可扩展、低成本的个性化学习支持和形成性评估的潜力。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:30

# Adesua:面向西非科学学习的AI WhatsApp聊天机器人开发与可行性研究
来源:https://arxiv.org/html/2605.15376
11institutetext:苏黎世联邦理工学院,瑞士
22institutetext:柏林夏里特医学院,德国
33institutetext:Kwame AI Inc.,美国
Evans AtompoyaPhilemon BaduSamuel JohnSamuel AnsahPatrick Agyeman\-BuduVictor Kumbol

###### 摘要

撒哈拉以南非洲长期面临高师生比和合格教师短缺的问题,限制了学生获得个性化学习支持和形成性评估的机会。为应对这一挑战,我们推出了Adesua,一个基于WhatsApp的AI教学助手,用于科学教育,它是Kwame for Science平台的扩展。Adesua利用WhatsApp在非洲的广泛普及,为西非初中(JHS)和高中(SHS)学生提供可访问、与课程对接的学习支持。该系统将精选教科书和33年国家考试题目与生成式AI集成,通过WhatsApp聊天机器人实现对话式问答和自动评估并提供反馈。学生可以提问科学问题,参加按主题或考试年份设定的限时或非限时选择题测试,并获得即时评分以及正确和错误答案的详细解释。2025年进行的一项为期6个月的可行性部署吸引了加纳的56名活跃用户,包括学生和家长。定量评估显示感知有用性很高,AI生成答案的有用性得分为93.75%,尽管评分数量较少(n=16)。这些初步结果为未来更广泛地评估基于WhatsApp的AI助手提供了基础,以评估其在资源受限的教育环境中提供可扩展、低成本的个性化学习支持和形成性评估的潜力。

## 1 引言

在撒哈拉以南非洲,教育部门因合格教师短缺和师生比高而面临重大挑战。截至2022年,该地区仅有69%的小学教师达到最低资质要求,低于2010年的75%[15 (https://arxiv.org/html/2605.15376#bib.bib49)]。此外,到2030年需要额外招募1500万教师才能实现普及小学和初中教育,进一步加剧了这一短缺[16 (https://arxiv.org/html/2605.15376#bib.bib47)]。因此,学生往往缺乏个性化学习支持,如及时的问题解答和形成性评估,而这些对于监测和提高他们的学业进步至关重要。

为解决这一挑战,Boateng等人开发了Kwame for Science[1 (https://arxiv.org/html/2605.15376#bib.bib9)],一款由AI驱动的网络应用,使西非高中生能够获取科学课程问题的答案并查看往年国家考试题目。然而,Kwame for Science存在一些局限性。首先,它只返回精选教科书中的段落作为答案,而不是直接回答问题。因此,学习者必须从段落中推断答案。其次,它缺乏测试功能,因此学习者无法评估自己对各种概念的理解。最后,Kwame for Science作为网络应用,对目标人群——西非人来说并不太容易访问,因为互联网数据对他们来说很昂贵[5 (https://arxiv.org/html/2605.15376#bib.bib48)]。

近年来生成式人工智能(AI),特别是大型语言模型(LLM)的进展,使新形式的个性化教育支持成为可能,有助于解决Kwame for Science的一些局限性。本文扩展了Kwame for Science,并做出以下贡献:(1)设计并实现了一个检索增强生成(RAG)问答系统,基于精选的西非考试和教科书内容,生成直接、与课程相符的科学解释;(2)一个通过WhatsApp提供的交互式评估框架,支持预置和自定义测验,具有自动评分和详细反馈功能;(3)将这些能力集成到Adesua中,这是一个针对西非初中(JHS)和高中(SHS)科学教育的低带宽、基于消息的教育平台;(4)通过在加纳对56名用户进行为期六个月的可行性部署,获取了实证见解,展示了系统的使用模式和感知有用性。这些贡献共同展示了如何在资源受限的情况下,利用生成式AI提供可访问、个性化的科学学习支持。

## 2 背景与相关工作

### 2.1 Kwame for Science

Kwame for Science是一款由AI驱动的网络应用,使西非学生能够访问两个功能:(1)问题解答和(2)查看往年题目[1 (https://arxiv.org/html/2605.15376#bib.bib9)]。问题解答组件会从精选的教科书知识库中显示三个段落作为学生问题的答案,以及与学生问题相关的五道往年考试题目(及专家答案)。当学生提问时,系统使用Sentence-BERT(SBERT)模型[12 (https://arxiv.org/html/2605.15376#bib.bib33)]从文本中提取嵌入向量,计算该嵌入向量与存储在谷歌云平台ElasticSearch中教科书段落预存嵌入向量的余弦相似度,然后根据余弦相似度得分返回最相关的段落作为答案。学生可以对答案和相关问题的有用性进行评分。Kwame for Science依靠一个精选知识库,包含来自教科书和过去28年高中(SHS)综合科学国家考试的内容,以及持证教师提供的答案。“查看往年题目”功能允许学生搜索和查看往年国家考试题目和答案,并可按考试年份、具体考试、题目类型和自动分类的主题进行筛选,这些主题由自定义主题检测模型自动生成。该主题检测模型是一个机器学习模型,使用SBERT计算的嵌入向量和支持向量机进行训练,以自动将过去28年所有考试的题目分类到教学大纲中的各个主题。在2022年6月至2023年2月Kwame for Science的8个月部署期间,有750名用户提出了1500个问题,Kwame的有用性得分为87.2%[1 (https://arxiv.org/html/2605.15376#bib.bib9)]。

### 2.2 科学教育聊天机器人

多项研究应用并评估了作为高中理科学生辅导支持的聊天机器人[11 (https://arxiv.org/html/2605.15376#bib.bib29),4 (https://arxiv.org/html/2605.15376#bib.bib15),10 (https://arxiv.org/html/2605.15376#bib.bib26),2 (https://arxiv.org/html/2605.15376#bib.bib11)]。其中一些聊天机器人已在非洲部署和评估。FoondaMate是一款可通过WhatsApp和Facebook Messenger访问的AI聊天机器人,为学生提供往年国家考试题目并支持他们完成作业[7 (https://arxiv.org/html/2605.15376#bib.bib17)]。同样,Rori是一款可通过WhatsApp访问的AI虚拟数学导师,提供微课并提出练习题,使学习者能够按照自己的进度学习[13 (https://arxiv.org/html/2605.15376#bib.bib36),8 (https://arxiv.org/html/2605.15376#bib.bib22)]。

Rori基于教学模型运行,而不是Foondamate采用的题库方法。通过使用“适当水平教学”方法提供结构化的微课,Rori旨在从零开始向3-9年级学生教授数学概念。此外,Rori已整合到学校系统中,从而在教师支持下实现机构级别的扩展[8 (https://arxiv.org/html/2605.15376#bib.bib22)]。Foondamate覆盖范围更广,涵盖8-12年级的30多门科目,包括会计和语言,与南非CAPS课程保持一致[7 (https://arxiv.org/html/2605.15376#bib.bib17)]。目前没有关于Foondamate准确性或有帮助性的已发表定量数据,但已记录了多项用户评价。Rori在一项评估中显示出测试分数的提高,效果量为0.36个标准差,该评估涉及1000名高中生,他们每周使用Rori两次,持续8个月,并与常规数学课相结合[8 (https://arxiv.org/html/2605.15376#bib.bib22)]。

这些例子表明,AI聊天机器人为学生提供即时和个性化的反馈[3 (https://arxiv.org/html/2605.15376#bib.bib13),14 (https://arxiv.org/html/2605.15376#bib.bib39)],通过使学习更具吸引力来提高学生的兴趣和动力[10 (https://arxiv.org/html/2605.15376#bib.bib26),4 (https://arxiv.org/html/2605.15376#bib.bib15)],节省教师批改作业的时间[9 (https://arxiv.org/html/2605.15376#bib.bib24)],从而整体上改善学习成果[10 (https://arxiv.org/html/2605.15376#bib.bib26)]。尽管仍然存在一些挑战,例如AI回答不准确、学生和教师的数字素养不足以及缺乏设备访问权限,这些都限制了这些聊天机器人的有效使用[6 (https://arxiv.org/html/2605.15376#bib.bib16)],但这些研究凸显了AI聊天机器人提供可扩展、个性化学习支持的潜力,尤其是在资源有限的环境中。

与先前的教育聊天机器人(如FoondaMate和Rori)相比,Adesua在一个系统中独特地结合了检索增强生成式问答、与课程一致的基于考试的评估以及详细的反馈,专门用于科学学习。通过将生成式回答锚定在精选的、经专家验证的33年本地考试答案以及符合西非初中和高中(7-12年级)科学课程标准的教科书内容上,Adesua成为一个专门针对西非科学教育的、集成的、上下文感知的学习和评估平台。

## 3 系统概述

Adesua111参见Adesua网站 (https://adesua.kwame.ai/) 和演示视频 (https://res.cloudinary.com/dsul5wugf/video/upload/Adesua_Bot_atbfhe.mp4) (图1 (https://arxiv.org/html/2605.15376#S3.F1)) 是一款由AI驱动的WhatsApp聊天机器人,用于西非科学教育的个性化问答和评估。它通过WhatsApp为学生提供教育支持,利用移动消息的普及和低互联网数据消耗来提供个性化学习体验。该系统旨在支持西非初中和高中两个水平的学生,提供教育内容、评估工具和个性化反馈机制。为Adesua提供动力的内容包含我们整理并注释的过去33年(1990年至2023年)初中水平国家考试题目,这些新增题目补充了我们之前整理的28年高中考试题目。然后,我们使用GPT-4 API为所有题目生成答案,并由专家验证这些答案。数据集中每个GPT-4答案都经过专家审查。在审查过程中,专家对照相应的题目检查每个AI生成的答案,并在数据表电子表格的专用“专家答案”列中记录他们的判断。当GPT-4的答案不正确时,专家在该列中提供正确的回答。这意味着人机协同验证覆盖了100%的数据集,并且审核者的答案列用作所有下游评估的真实参考。Adesua系统通过其对话界面提供四个主要功能,使用户能够注册和导航、提问、完成评估以及查看表现。

### 3.1 注册与导航

所有用户在访问这些功能之前必须完成注册流程。系统确定用户是家长、监护人、学生还是教师,根据用户年龄和学生关系收集适当的同意,确保同意服务条款,并指导学生提供必要的个人资料信息,包括学校隶属关系和年级水平,然后才授予主要功能的访问权限。系统包含强大的错误处理和用户引导机制,以支持有效交互。“退出”命令提供全局导航机制,可从大多数对话状态访问,但注册流程和进行中的测验会话除外,因为这些需要完成或明确取消。当用户提交的输入在当前对话步骤的上下文中无法解释时,系统会提供澄清指导。系统不会继续执行可能不正确的假设,而是提醒用户当前步骤可用的选项,并重新显示最近的提示。这种方法帮助用户理解预期的输入格式,并减少因误解交互而产生的挫败感。在所有交互过程中,系统保持对对话状态的上下文感知,并根据用户在交互流程中的当前位置做出适当响应。这种基于状态的设计确保用户收到相关提示,并且他们的输入能根据当前任务被正确解释。

参见说明图1:Adesua截图
### 3.2 问答系统

问答功能使学生能够用自然语言提交教育查询,并立即获得基于其教育水平定制的、植根于本地课程相关科学内容的AI生成回答。该系统为初中学生使用基础教育证书考试(BECE)课程,为高中学生使用西非高中证书考试(WASSCE)课程(加纳、尼日利亚、冈比亚、塞拉利昂、利比里亚和冈比亚采用)。

当学生从主菜单选择“提问”选项时,系统通过将查询转换为小写并去除标点符号来预处理查询。长度少于五个字符的查询会被拒绝,以防止低意图或噪声检索。该系统采用RAG流水线,旨在通过在进行生成式建模之前将所有回答锚定在已验证的源材料中来最小化LLM幻觉。该流水线分三个阶段进行:语义检索、上下文组装和答案生成。

语义检索:系统使用与Kwame for Science相同的检索流水线[1 (https://arxiv.org/html/2605.15376#bib.bib9)]。预处理后的查询使用all-mpnet-base-v2句子嵌入模型转换为高维向量表示。然后,系统使用余弦相似度作为相关性指标,通过script_score配置执行两个并发的ElasticSearch查询。第一个查询搜索一个通用科学内容索引,其中包含来自开源科学教科书的段落;第二个搜索与学生课程水平相对应的特定考试索引——初中生用BECE,高中生用WASSCE。两个索引均应用0.6的相关性阈值,仅保留达到此阈值的结果。返回前5个检索到的段落和前5个相关的往年考试题目,供下游使用。该流水线暴露各阶段的细粒度延迟遥测数据:嵌入时间、每个索引的检索时间、数据重组开销以及端到端响应延迟。在我们的部署中,端到端延迟中位数约为1.8毫秒。

上下文组装:检索到的段落和相关考试题目被组装成一个结构化的提示上下文。最多包含八

相似文章

Eskwai for Students:加纳法律教育中的生成式AI助手

arXiv cs.CL

本文介绍了面向学生的 Eskwai,这是一款用于加纳法律教育的生成式 AI 助手,采用检索增强生成技术,基于包含超过 12,000 条判例法和 1,400 部立法的数据库。该系统在为期 30 个月的研究中部署,有 3,100 名法律学生参与,为全球南方地区法律教育中 AI 的使用提供了洞见。

基于深度学习的阿姆哈拉语高校常见问题问答聊天机器人

arXiv cs.CL

本文提出了一种基于深度学习的聊天机器人系统,用于解答大学中的阿姆哈拉语常见问题,利用TensorFlow和Keras实现神经网络,达到了91.55%的准确率。该系统解决了阿姆哈拉语特有的语言挑战,包括形态变化和词汇缺口,并通过Heroku部署在Facebook Messenger上。

SchoolAI 推出教师赋能型 AI 平台

OpenAI Blog

SchoolAI 推出了一个基于 OpenAI 模型的 AI 平台,通过实时学生进度信号赋能教师,并通过对话助手(Dot)和 AI 辅导员(Sidekick)提供个性化学习支持,两年内覆盖 80 多个国家的 100 万间教室。

我做了个 V2 AI 替我回私信,以后再也不用亲自和人聊天了

Reddit r/artificial

做了我的聊天助手的 V2 版本,说实话,开始觉得有点不对劲了。它会读取对话、自动回复、调整语气以免对方失去兴趣。现在还支持:• 边聊边搜 • 识别对方发送的图片 • 转录并回复语音消息 • 根据上下文发 GIF • 记住生日和过往聊天记录 • 忘了回复时自动跟进 • 聊偏了可以手动引导 • 每隔约 25 条消息总结一次上下文。目前已使用约 50 万 token

Ona AI: 学习辅助技术

Product Hunt

Ona AI正在开发数字手语头像和包容性数据集,为有听力障碍的学习者创建辅助技术。