现实世界中的LLM:评估紧急情况下的“AI”
摘要
本文探讨了基于LLM的机器翻译系统在文本到911紧急服务中的部署情况,指出了常见的误解,并为利益相关者提供了建议,以确保人工智能在关键场景中的安全有效使用。
arXiv:2607.00019v1 Announce Type: cross
摘要:本文是一份行动呼吁。我们敦促研究界的同仁在向公众传达我们的研究成果方面发挥更大作用。为了说明问题的严重性,我们以一个基于LLM的机器翻译应用在真实场景中的初步部署为例:一个声称支持55种语言的文本到911系统,用于在难以直接呼叫接线员的紧急情况下。我们识别了关于此类技术的若干常见误解,并最后为开发和部署流程各个阶段的利益相关者提供了一系列具体建议和最佳实践。虽然科学研究的进步往往在于解决“困难”问题,但我们认为,往往是最容易被忽视的“简单”问题——那些通常不需要最新技术的问题——才是最重要的。
查看缓存全文
缓存时间: 2026/07/02 05:42
# 现实世界中的大语言模型:评估“人工智能”在紧急情况下的应用 来源:https://arxiv.org/html/2607.00019 Lara Downing 社区难民与移民服务组织 (CRIS) [email protected] Micha Elsner 俄亥俄州立大学 [email protected] ###### 摘要 本文是一份行动呼吁。我们敦促研究界的同仁在向公众传达研究成果方面发挥更大作用。为说明问题的严重性,我们以一个基于LLM的机器翻译应用在现实世界部署的初始阶段为例进行案例研究:一个宣称支持55种语言的text-2-911系统,用于在难以直接呼叫接线员的紧急情况中。我们指出了关于此类技术的一系列常见误解,并最后为开发和部署流程各阶段的利益相关方提出了一套具体建议和最佳实践。虽然科学研究的发展往往在于解决“困难”问题,但我们认为,最容易被忽视的往往是那些“简单”的问题——即通常不需要最新技术也能解决的问题。 **现实世界中的大语言模型:评估“人工智能”在紧急情况下的应用** Sara Court 俄亥俄州立大学 [email protected] Lara Downing 社区难民与移民服务组织 (CRIS) [email protected] Micha Elsner 俄亥俄州立大学 [email protected] ## 1 引言 尽管大语言模型(LLM)及相关技术的学术界和产业界开发者之间存在大量重叠(Abdalla et al., 2023 (https://arxiv.org/html/2607.00019#bib.bib1)),但自然语言处理(NLP)研究人员似乎面临一个科学传播问题。我们的研究成果持续推动着一些迄今为止被用户采用最快的面向公众的应用开发(De Brugger, 2023 (https://arxiv.org/html/2607.00019#bib.bib20)),但这些成果本身及其现实影响却常常在炒作中被淹没。人工智能(AI)正越来越多地被宣传为人类一些最大问题的必然解决方案(Eubanks, 2018 (https://arxiv.org/html/2607.00019#bib.bib25);Byrum and Benjamin, 2022 (https://arxiv.org/html/2607.00019#bib.bib11);Benjamin, 2024 (https://arxiv.org/html/2607.00019#bib.bib6);Center for Democracy & Technology, 2025b (https://arxiv.org/html/2607.00019#bib.bib14))。随着现代NLP研究的成果被商业产品采纳和应用,设计NLP应用的人与其最终用户之间出现了信息鸿沟。例如,研究者可能理所当然地认为模型在低资源语言上表现较差(Silva et al., 2024 (https://arxiv.org/html/2607.00019#bib.bib74)),或者当输入来自训练领域之外时其性能会下降(Wu et al., 2024 (https://arxiv.org/html/2607.00019#bib.bib84);Li et al., 2025 (https://arxiv.org/html/2607.00019#bib.bib45))。然而,在执法、应急响应等基本服务中部署NLP产品的决策者可能并不了解这些局限性。许多人可能面临压力,需要寻找方法获取和整合AI工具,但却只能在缺乏适当评估知识、风险缓解知识以及确保工具尽可能安全、合乎伦理且有效所需知识的情况下,在AI软件市场中摸索前行。 这种未能将研究成果有效传达给公众——包括那些开发和销售面向消费者应用的人——的现象并非NLP领域独有。密码学家已经开发出了易于获取、公开可用的安全公钥通信代码,但实际使用中这些系统的调查一再显示,最终用户仍然因误用API而制造安全漏洞(Choudhari et al., 2021 (https://arxiv.org/html/2607.00019#bib.bib16);Lazar et al., 2014 (https://arxiv.org/html/2607.00019#bib.bib43))。NLP研究界现在面临着类似的问题。尽管诸如模型卡(Mitchell et al., 2019 (https://arxiv.org/html/2607.00019#bib.bib54))等基本的透明度和评估工具已存在多年,但它们仍未在商业环境中广泛使用。大多数NLP技术的消费者在应对市场上被宣传为“人工智能”的复杂工具时,除了宣传材料外几乎别无参考。我们认为,其结果既是信息失衡,也是责任缺失:NLP产品越来越多地销售给公共和私营部门的消费者,包括在执法(United States v. Cruz-Zamora, 2018 (https://arxiv.org/html/2607.00019#bib.bib78);Quaglia, 2022 (https://arxiv.org/html/2607.00019#bib.bib66))、移民法庭(Deck, 2023 (https://arxiv.org/html/2607.00019#bib.bib21))、关键公共卫生公告(Moreno, 2021 (https://arxiv.org/html/2607.00019#bib.bib56))以及其他应急响应(Burns, 2025 (https://arxiv.org/html/2607.00019#bib.bib10))等高风险的场景中,却没有足够的信息或支持来安全地使用它们。此外,如果因技术错误或误用造成伤害,往往不清楚谁(如果有人的话)可以为此负责。 我们认为,这应引起研究界真正的关注。当语言技术被部署到我们社区内的应急服务中时,风险很高,我们所有人都是利益相关者。本文通过一个案例研究,展示了一个基于LLM的语言技术已在美国某个地方911中心部署用于紧急情况。我们通过该技术的营销和宣传材料描述其推出过程,并讲述我们与该中心部署人员会面的经历。我们的经历揭示了关于语言和语言技术的若干常见误解,这些误解与系统性的责任缺失相结合,可能导致NLP系统部署带来风险和潜在伤害。这在我们案例研究的具体情境中尤其令人担忧,因为该产品用于紧急情况,并影响我们社区中最脆弱的群体——那些英语并非母语的难民和其他移民。我们讨论了NLP研究人员在解决这些关键缺口方面可以发挥的作用,并在论文最后提出了一套具体的最佳实践建议。最后,我们鼓励研究界的同仁们更多地支持科学传播,以便我们的建议能够被需要听到的人听到。 ## 2 案例研究:Text-2-911 服务 ### 2.1 紧急情况下的语言无障碍与技术 根据美国联邦和州法律,包括1964年《民权法案》第六章、《美国残疾人法案》、《平价医疗法案》和第十四修正案等,紧急服务提供者有法律义务确保英语水平有限的呼叫者能够获得语言无障碍服务。虽然对于母语为英语的人来说,能够与紧急响应人员沟通是理所当然的,但缺乏平等的语言无障碍可能会加剧许多最脆弱群体(包括移民和难民社区以及残障人士)所面临的困难(National Immigrant Women's Advocacy Project and American University Washington College of Law, 2013 (NiWAP, https://arxiv.org/html/2607.00019#bib.bib59);Taira et al., 2021 (https://arxiv.org/html/2607.00019#bib.bib76);Bhuiyan, 2023 (https://arxiv.org/html/2607.00019#bib.bib8);Hoffmann et al., 2024 (https://arxiv.org/html/2607.00019#bib.bib31);Parmar, 2025 (https://arxiv.org/html/2607.00019#bib.bib65))。社区组织可以为这些人提供关键支持——有时是唯一的支持——帮助他们应对可能不熟悉的复杂系统和机构,教育他们自身的权利,并为他们连接关键资源。本研究的第二作者是其中一家社区组织的持证社会工作者,领导着一个多语言的受害者倡导团队,专门服务于英语水平有限的移民和难民幸存者。通过这项工作,她和同事们亲眼目睹了缺乏合格口译员以及误用语言技术如何对弱势群体造成一系列有害影响。因此,当该市宣布推出一种新的AI驱动的¹text-2-911紧急响应翻译器时,她和她的团队急切地想了解更多信息。 通过SMS短信直接向911接警员发送英文短信的选项最初是为聋哑人和听力障碍者以及“因背景噪音或安全考虑而无法口头沟通的人”设计的解决方案(Laird, 2025 (https://arxiv.org/html/2607.00019#bib.bib41)),并于2019年初开始提供。关键在于,text-2-911工具并非旨在作为语音通话的等效替代(Franklin County Board of Commissioners, 2019 (https://arxiv.org/html/2607.00019#bib.bib28))。在我们访问911中心(详见第2.3节 (https://arxiv.org/html/2607.00019#S2.SS3))时,工作人员明确表示,语音通话总是更受欢迎,因为它们可以为接线员提供额外信息,例如背景噪音和语音中的痛苦程度。调度员接受过培训,会询问任何向911中心发短信的人是否能安全地打电话,并鼓励他们如果可能的话这样做。 该市已经为语音通话提供人工口译员,服务于约6.4%的5岁以上英语说得“不太好”的居民(Central Ohio Hospital Council et al., 2025 (https://arxiv.org/html/2607.00019#bib.bib15)),2024年,当地911中心的总共67万通电话中,约有4000通使用了口译服务(Laird, 2025 (https://arxiv.org/html/2607.00019#bib.bib41))。 ### 2.2 公众对机器翻译的普遍看法 通常情况下,媒体对机器翻译(MT)应用的报道都将其描绘得极为正面,很少对技术的局限性或其对人类口译的影响进行审视(Vieira et al., 2021 (https://arxiv.org/html/2607.00019#bib.bib82))。即使在高风险场景中部署MT系统,也常常与根本不提供语言无障碍服务的情况进行对比,而不是与法定基线——即由合格人工翻译提供面对面或电话口译——进行比较(Quaglia, 2022 (https://arxiv.org/html/2607.00019#bib.bib66))。当标准被人为降低时,善意的社区成员更容易将MT的使用称赞为“超越预期”,而实际上,对于英语水平有限的呼叫者来说,这可能代表着无障碍服务的一种倒退。在我们的案例中,当地一家媒体报道称,拨打911时对语言障碍的恐惧“可能很快就会成为过去”。文章接着指出,“不再需要依赖语言口译员来帮助非英语呼叫者……现在呼叫者可以用自己的语言发短信给911”,这与该服务旨在增加额外的无障碍选项而非取代语音通话口译的既定意图相矛盾(Keller, 2025 (https://arxiv.org/html/2607.00019#bib.bib39))。在宣传视频中接受采访的该市居民重复了原始新闻稿中的措辞,向居民们保证他们现在可以“用自己的母语”发短信给911。然而,模型支持的55种语言列表并未出现在任何新闻报道中,我们只能通过直接联系911中心才获得该列表。该县最常用的一些语言不在列表之列,并且非拉丁文字只能通过AT&T发送——这一免责声明在多数报道中很容易被忽略。显然,如果第二作者的受害者服务团队希望向客户提供准确信息和建议,他们需要更多信息。这时,第二作者联系了当地大学的语言学系,以了解当前MT技术的具体情况。她还联系了911中心的工作人员,后者立即且热情地邀请她的团队参观中心,并就新功能进行深入讨论。由于软件正在持续更新,他们当天无法测试翻译功能,因此安排了第二次会议,并邀请第一作者参加。以下部分描述了从这些会议中了解到的情况。 ### 2.3 参观911中心 第一作者和第二作者于2025年9月底参观了911中心,同行的还有两位来自受害者服务项目的同事,他们渴望用自己的母语测试翻译工具。每个人准备了一份来自真实短信的短语列表,以探索模型如何处理语言特有的挑战,例如方言变异、短信用语、拼写错误、指代歧义、习语和语码转换。三位来自911中心的市府工作人员以及提供MT应用的软件公司代表慷慨地抽空接待了我们,即使他们在同一时间还要为一个拥有90万居民的城市协调当天的紧急响应活动。911中心是该市的公共安全应答点(PSAP),接线员在此接收所有拨入该市的911电话和短信,然后将其转给相应的响应单位,例如消防、急救或警察。PSAP界面的软件和维护(包括text-2-911功能)由第三方提供,该第三方宣传其使用Microsoft Azure进行语言检测和自动翻译。据911中心工作人员称,微软并未提供底层模型或训练数据的访问权限。负责管理该工具实施的工作人员也未曾从其软件供应商那里获得任何评估数据或质量保证服务。尽管州级层面存在一项政策,详细列出了“规划、实施、采购、安全、隐私和治理要求,用于人工智能(AI)的使用”(State of Ohio, 2023 (https://arxiv.org/html/2607.00019#bib.bib75)),但市级部门尚未制定类似政策。这似乎使得911中心缺乏必要的专业知识、培训、指导或资源分配来确保适当的保障措施到位。 据软件公司代表称,翻译工具的目标是减少英语水平有限的最终用户的响应时间。然而,目前没有正在进行的评估来验证该产品是否成功实现了这一目标。MT系统也没有整合任何人工翻译的监督,无论是实时还是事后进行质量保证。人工调度员接收并回复翻译后的文本,但MT模型输出的文本,与任何AI模型一样,最终仍然是AI生成的。 ### 2.4 测试该工具 我们有机会实时亲自与系统交互。我们用短信中常见的语言现象来测试模型,例如偶然的拼写错误和方言变异。最终,来自受害者服务项目的两位同事在使用自己的母语(分别是阿拉伯语和尼泊尔语)发短信给911时都遇到了挑战。以阿拉伯语为例,我们了解到现代标准
相似文章
我们一直在分析人们如何在法律与合规任务中使用LLM(GDPR、AI法案等)。
对LLM在法律与合规任务中使用的分析显示,模型常常生成自信但无法验证的引用,引发了对AI输出可靠法律依据的质疑。
基于LLM的服务反馈新兴主题检测模型
本文提出了一种新颖的方法论,整合了LLM、统计技术和人机协同,用于检测多语言服务反馈中的新兴主题,旨在提升公共部门组织的服务质量和公平性。
为什么不能训练LLMs用一种优化的AI语言而非英语来思考?
一个推测性的讨论,质疑为什么LLMs没有被训练使用优化的内部语言而非自然语言来思考,以及这是否能提高效率。
哪些变化重要?通过相关性敏感评估和求解器推理实现可信赖的法律AI
本文介绍了一套用于法律AI的相关性敏感评估套件,表明LLM对法律无关的扰动过于敏感,并提出LexGuard,一个基于形式推理的对抗性多代理框架,以提高法律推理的可靠性。
大语言模型能否理解创伤影响?大语言模型编码枪支暴力幸存者访谈的成本与收益
本研究评估了开源大语言模型在对黑人枪支暴力幸存者访谈进行归纳编码中的应用,发现虽然大语言模型能够识别某些编码,但总体关联性仍然较低,且安全防护机制导致了叙事内容的严重缺失。该研究突显了在涉及脆弱群体的定性研究中应用人工智能的潜力和伦理限制。