SEATauBench: 将工具-智能体-用户评估适配到低资源东南亚语言
摘要
介绍了SEATauBench,这是首个面向东南亚语言的智能体评估框架,将τ²-Bench适配到中文、越南语、泰语、印尼语和菲律宾语,并揭示了从英语迁移到本地化设置时存在显著的能力差距。
arXiv:2606.28715v1 公告类型:新
摘要:尽管东南亚(SEA)的AI开发与评估发展迅速,但区域语言中的智能体能力仍然鲜为人知,尽管这对主权AI至关重要。为填补这一空白,我们推出了SEATauBench,这是首个面向东南亚主权AI的智能体评估框架。SeaTau将TauBench适配到五种语言——中文、越南语、泰语、印尼语和菲律宾语,并在逐步本地化的设置中评估智能体,这些设置改变了用户-智能体交互语言、工具规范和任务领域。通过对近期三个模型的测试,我们发现仅改变对话语言时,英语智能体的能力迁移效果尚可,但随着更多任务上下文本地化,质量和鲁棒性急剧下降,在完全领域适配中损失最大。我们还指出了仅用英语评估智能体在东南亚语言能力上的局限性。更广泛地,SeaTau为语言多样性区域构建可靠的多语言智能体提供了一个诊断基准和可复用的适配流程。数据和代码可在 github.com/SEACrowd/SEATauBench 获取。
查看缓存全文
缓存时间: 2026/06/30 05:27
# 将工具-代理-用户评估适配至低资源东南亚语言
来源:https://arxiv.org/html/2606.28715
My Chiffon Nguyen¹, Aulia Adila¹, Saksorn Ruangtanusak¹,², Kittiphat Leesombatwathana¹,³, Vissuta Gunawan Lim¹, Patomporn Payoungkhamdee¹,⁴, Samuel Cahyawijaya¹,⁵
¹SEACrowd, ²SCB DataX, SCBX Group, ³朱拉隆功大学, ⁴VISTEC, ⁵Cohere
\{chiffonng136, auliaadila036, vglim3653\}@gmail\.com
saksorn\.ruangtanusak@data\-x\.ai, 6534404823@student\.chula\.ac\.th
patomporn\.p\_s21@vistec\.ac\.th, samuelcahyawijaya@cohere\.com
###### 摘要
尽管针对东南亚(SEA)的AI开发与评估发展迅速,但区域语言中的代理能力仍然缺乏深入研究,尽管这对主权AI至关重要。为填补这一空白,我们引入了SEATauBench¹,这是首个面向代理的SEA主权AI评估框架。SEATauBench将τ²-Bench适配至五种语言——普通话、越南语、泰语、印尼语和菲律宾语——并在逐步本地化的设置中评估代理,这些设置改变了用户-代理交互的语言、工具规范和任务领域。在三个近期模型上,我们发现,当仅对话语言变化时,英语代理能力可以较好地迁移,但随着更多任务上下文被本地化,质量和鲁棒性急剧下降,尤其在完整领域适应中损失最大。我们还发现了仅基于英语的代理评估在衡量SEA语言代理能力方面的局限性。更广泛地说,SEATauBench为构建面向语言多样性区域的可靠多语言代理提供了诊断性基准和可复用的适配流程。数据和代码可在 github.com/SEACrowd/SEATauBench (https://github.com/SEACrowd/SEATauBench) 获取。
![[未标注图片]](https://arxiv.org/html/2606.28715v1/sitaw_logo.png)
SEATauBench: 将工具-代理-用户评估适配至低资源东南亚语言
My Chiffon Nguyen¹, Aulia Adila¹, Saksorn Ruangtanusak¹,², Kittiphat Leesombatwathana¹,³, Vissuta Gunawan Lim¹, Patomporn Payoungkhamdee¹,⁴, Samuel Cahyawijaya¹,⁵
¹SEACrowd, ²SCB DataX, SCBX Group, ³朱拉隆功大学, ⁴VISTEC, ⁵Cohere
\{chiffonng136, auliaadila036, vglim3653\}@gmail\.com
saksorn\.ruangtanusak@data\-x\.ai, 6534404823@student\.chula\.ac\.th
patomporn\.p\_s21@vistec\.ac\.th, samuelcahyawijaya@cohere\.com
## 1 引言
参见图注 图1:SEATauBench揭示了现有专有和开源LLM在逐步本地化评估场景中存在的关键英语-SEA代理能力差距。这一证据暴露了现有以英语为中心的基准在反映LLM实际能力以支持主权AI采用方面的不可靠性。
主权人工智能(AI)已成为寻求在数字未来中保持自主权的国家的关键要素(Chae 等人,2025 (https://arxiv.org/html/2606.28715#bib.bib4)),包括东南亚。正如 Mushkani 等人 (2025 (https://arxiv.org/html/2606.28715#bib.bib58)) 和 Barasa 等人 (2026 (https://arxiv.org/html/2606.28715#bib.bib59)) 所阐述的,主权AI不仅涵盖技术自给自足,还包括文化和语言相关性——对于超过7亿人来说,这一维度至关重要,因为他们的语言多样性在以英语为中心的开发和评估中未能得到充分体现(Bhandari and Modi, 2026 (https://arxiv.org/html/2606.28715#bib.bib61); Putra, 2024 (https://arxiv.org/html/2606.28715#bib.bib63))。针对SEA的语言评估发展迅速,例如 SEA-Exam 和 SEA-Bench(Liu 等人,2025 (https://arxiv.org/html/2606.28715#bib.bib49); Zhang 等人,2024 (https://arxiv.org/html/2606.28715#bib.bib64); Nguyen 等人,2024 (https://arxiv.org/html/2606.28715#bib.bib65))、SEA-VL(Cahyawijaya 等人,2025a (https://arxiv.org/html/2606.28715#bib.bib52), 2026 (https://arxiv.org/html/2606.28715#bib.bib53))、SEACrowd(Lovenia 等人,2024 (https://arxiv.org/html/2606.28715#bib.bib47))、SEA-HELM(Susanto 等人,2025 (https://arxiv.org/html/2606.28715#bib.bib50))、NusaCrowd(Cahyawijaya 等人,2023a (https://arxiv.org/html/2606.28715#bib.bib51))、NusaWrites(Cahyawijaya 等人,2023b (https://arxiv.org/html/2606.28715#bib.bib44))和 NusaX(Winata 等人,2023 (https://arxiv.org/html/2606.28715#bib.bib43)),这些工作为测量区域语言理解、文化知识、推理、安全性和多模态能力奠定了宝贵基础。然而,这些基准主要评估静态模型行为,对于代理能否在区域语言中完成多轮、工具介导的任务——这在越来越多AI系统在服务、商业和旅行等实际部署中运行时所需的能力——的评估工作仍然有限(Budzianowski 等人,2018 (https://arxiv.org/html/2606.28715#bib.bib26); Eric 等人,2020 (https://arxiv.org/html/2606.28715#bib.bib27); Zang 等人,2020 (https://arxiv.org/html/2606.28715#bib.bib28); Han 等人,2021 (https://arxiv.org/html/2606.28715#bib.bib29); Ye 等人,2022 (https://arxiv.org/html/2606.28715#bib.bib30))。为填补这一空白,我们引入了 SEATauBench,这是首个面向SEA的代理评估框架。SEATauBench将τ²-Bench(Yao 等人,2024 (https://arxiv.org/html/2606.28715#bib.bib8); Barres 等人,2025 (https://arxiv.org/html/2606.28715#bib.bib56); Shi 等人,2026 (https://arxiv.org/html/2606.28715#bib.bib25); Ray 等人,2026 (https://arxiv.org/html/2606.28715#bib.bib57))适配至五种目标语言L2(普通话、越南语、泰语、印尼语、菲律宾语),并在三个逐步本地化设置中评估代理:(1) L2交互,隔离用户-代理对话中的语言能力;(2) L2工具,测试使用非英语工具规范的能力;(3) L2领域,评估所有任务上下文均为L2时的性能(第3.3节 (https://arxiv.org/html/2606.28715#S3.SS3))。为了翻译AI代理交互的各种接口,同时不破坏τ²-Bench的执行,我们开发了一个结构化的、非破坏性的翻译流水线(第3.2节 (https://arxiv.org/html/2606.28715#S3.SS2))。在三个近期代理模型上,我们发现,当代理仅需以目标语言响应时,英语代理能力可以较好地迁移,但当工具、策略和任务上下文逐步以SEA语言提供时,质量和鲁棒性急剧下降(第5.1节 (https://arxiv.org/html/2606.28715#S5.SS1))。这些结果暴露了SEA评估资源增长与当前代理对主权AI部署准备程度之间的差距,使SEATauBench成为构建面向该区域的可靠多语言代理的诊断性基准。
参见图注 图2:用于生成多语言τ²-Bench工件的自动翻译流水线概览(第3.2节 (https://arxiv.org/html/2606.28715#S3.SS2))。我们在附录A (https://arxiv.org/html/2606.28715#A1)中提供了关于流水线和生成翻译工件的更多细节。
## 2 相关工作
### 2.1 代理评估
任务导向的对话基准,如 MultiWOZ(Budzianowski 等人,2018 (https://arxiv.org/html/2606.28715#bib.bib26); Eric 等人,2020 (https://arxiv.org/html/2606.28715#bib.bib27); Zang 等人,2020 (https://arxiv.org/html/2606.28715#bib.bib28); Han 等人,2021 (https://arxiv.org/html/2606.28715#bib.bib29); Ye 等人,2022 (https://arxiv.org/html/2606.28715#bib.bib30))和 MASSIVE(FitzGerald 等人,2023 (https://arxiv.org/html/2606.28715#bib.bib31)),为目标导向对话和多语言意图-槽位理解建立了评估标准。最近的工具使用基准,包括 ToolEval(Qin 等人,2024 (https://arxiv.org/html/2606.28715#bib.bib32))和 BFCL(Patil 等人,2025 (https://arxiv.org/html/2606.28715#bib.bib12)),将这一方向扩展到函数调用和API使用。然而,部署的服务代理还需要维持多轮交互、遵循领域策略并更新外部状态。τ²-Bench(Yao 等人,2024 (https://arxiv.org/html/2606.28715#bib.bib8); Barres 等人,2025 (https://arxiv.org/html/2606.28715#bib.bib56); Shi 等人,2026 (https://arxiv.org/html/2606.28715#bib.bib25); Ray 等人,2026 (https://arxiv.org/html/2606.28715#bib.bib57))通过模拟用户-代理-工具环境来解决这一问题,并通过任务完成指标 pass^1 和 pass^3 进行评分。相关基准进一步评估了商业和专业环境中的现实代理行为(Huang 等人,2025 (https://arxiv.org/html/2606.28715#bib.bib33); Drouin 等人,2024 (https://arxiv.org/html/2606.28715#bib.bib35); Boisvert 等人,2024 (https://arxiv.org/html/2606.28715#bib.bib36); Xu 等人,2026 (https://arxiv.org/html/2606.28715#bib.bib34); Patwardhan 等人,2026 (https://arxiv.org/html/2606.28715#bib.bib37))。尽管取得了这些进展,现有的代理基准在很大程度上仍然以高资源语言为中心,限制了其在主权AI设置中的适用性。SEATauBench通过将τ²-Bench扩展到SEA语言,并通过本地化的对话和工具使用场景来解决这一差距。据我们所知,这是第一个保留τ²-Bench任务导向评估框架的多语言基准,有助于在多语言环境中对代理能力进行可靠评估。
### 2.2 多语言评估
多语言评估主要通过基准如 mMMLU(Hendrycks 等人,2021 (https://arxiv.org/html/2606.28715#bib.bib38); OpenAI, 2024 (https://arxiv.org/html/2606.28715#bib.bib55))、Global MMLU(Singh 等人,2025 (https://arxiv.org/html/2606.28715#bib.bib39))、GlotEval(Luo 等人,2025 (https://arxiv.org/html/2606.28715#bib.bib40))、CVQA(Romero 等人,2024 (https://arxiv.org/html/2606.28715#bib.bib41))和 AyaVisionBench(Cohere Labs, 2025 (https://arxiv.org/html/2606.28715#bib.bib42))针对理解、推理、翻译和多模态理解。对于东南亚语言,诸如 NusaX(Winata 等人,2023 (https://arxiv.org/html/2606.28715#bib.bib43))、NusaWrites(Cahyawijaya 等人,2023b (https://arxiv.org/html/2606.28715#bib.bib44))、NusaDialogue(Purwarianti 等人,2025 (https://arxiv.org/html/2606.28715#bib.bib45))、IndoTOD(Kautsar 等人,2023 (https://arxiv.org/html/2606.28715#bib.bib46))、SEACrowd(Lovenia 等人,2024 (https://arxiv.org/html/2606.28715#bib.bib47))、StingrayBench(Cahyawijaya 等人,2025b (https://arxiv.org/html/2606.28715#bib.bib48))、SEAExam/SEABench(Liu 等人,2025 (https://arxiv.org/html/2606.28715#bib.bib49))、SEA-HELM(Susanto 等人,2025 (https://arxiv.org/html/2606.28715#bib.bib50))、SEA-VL(Cahyawijaya 等人,2025a (https://arxiv.org/html/2606.28715#bib.bib52))和 SEA-VQA(Urailertprasert 等人,2024 (https://arxiv.org/html/2606.28715#bib.bib54))将评估扩展至本地语言、文化、推理、安全性和多模态场景。然而,这些基准主要关注静态评估,而非交互式工具使用或多轮任务完成。最相关的工作是 MASSIVE-Agents(Kulkarni 等人,2025 (https://arxiv.org/html/2606.28715#bib.bib23)),它使用 BFCL 在52种语言中评估函数调用,但仍局限于函数选择和参数预测。SEATauBench更进一步,评估完整的用户-代理-工具交互,要求代理在多轮中交互、遵循指令、使用工具并在SEA语言中完成现实任务。因此,它弥合了多语言函数调用与交互式代理评估之间的差距,填补了现有SEA多语言和代理评估留下的空白。
## 3 将τ²-Bench适配至SEATauBench
### 3.1 背景
我们通过将英语工具-代理-用户基准τ²-Bench(Barres 等人,2025 (https://arxiv.org/html/2606.28715#bib.bib56))扩展到多语言设置来构建SEATauBench。这一适配必须考虑两个耦合的代理面向界面:交互内容(任务定义、领域策略和工作流、结构化数据库)和可执行接口(工具模式,以及在电信中的返回消息)。在运行时,代理必须读取策略、推理任务、调用工具、检查输出并以目标语言与模拟用户对话。因此,基准需要一个本地化的界面,其可见文本被翻译,而执行层仍保留规范的英语值。我们的流水线对齐这些表示,以保留任务语义和指标可比性。第3.2节 (https://arxiv.org/html/2606.28715#S3.SS2)描述了我们如何翻译和构建L2工件,第3.3节 (https://arxiv.org/html/2606.28715#S3.SS3)使用这些工件定义具有递增L2适配级别的受控评估场景。
### 3.2 SEATauBench L2适配流水线
图2 (https://arxiv.org/html/2606.28715#S1.F2)总结了我们的两阶段适配流水线:离线翻译,生成语言特定的资产;运行时本地化,对代理观察到的环境进行补丁。完整细节见附录A (https://arxiv.org/html/2606.28715#A1)。我们从τ²-Bench适配了三个领域(零售、航空和电信)到五种L2:越南语 (vi)、印尼语 (id)、泰语 (th)、菲律宾语 (tl) 和普通话 (zh)²。
#### 离线翻译。
我们翻译静态领域资产以构建L2工件。该过程从任务、策略、数据库、工具文档字符串、模式和工具返回模板中提取自然语言片段,同时屏蔽可执行令牌,如ID、状态值、工具名称和结构标记。它首先翻译模式字面量以建立词汇表,防止同一可执行值被不一致地渲染。然后流水线使用特定格式的写入器写出输出,并记录每种语言的清单,包含模型元数据和源文件SHA-256指纹。附录A.5 (https://arxiv.org/html/2606.28715#A1.SS5)报告了生成的工件统计信息。
#### 运行时本地化。
运行时本地化阶段处理推理过程中暴露的动态内容。首先,它本地化展示给代理的工具模式:描述、枚举选项和示例以L2渲染,使场景测试目标语言工具使用而非英语模式阅读,而底层实现保持不变。其次,它通过在工具调用前将本地化参数规范化回规范的英语值来保持可执行性;否则,正确的L2参数可能仅因原始工具期望英语字面量而失败。执行后,工具响应被本地化回L2,最终负载在评分前再次规范化,使交互对代理保持单语言,同时使指标在不同语言之间以及与英语基准之间具有可比性。离线翻译和运行时本地化相结合,使我们能够改变基准的哪些界面以L2暴露,从而形成场景设计。
#### 人工手动审查。
对于每种目标语言,一名母语者(作者之一或招募的审阅者)审查机器翻译的工件。他们完整阅读每个翻译后的散文文档(领域策略和代理/用户指令),并分别从数据库和任务上下文中抽样100个片段进行审查。审查使用每种语言一个Excel工作簿进行,每个工件一个工作表(详见附录LABEL:app:),审阅者可在其中添加修正翻译和注释(均为可选)。如果存在人工修正值,我们使用它们。相似文章
SpeechEditBench:面向指令引导语音编辑的双语多属性基准
SpeechEditBench是一个双语多属性基准,用于评估指令引导的语音编辑,涵盖七项原子任务和组合任务,并采用基于锚点的评估方案及三项指标。对主流语音大模型的评估表明,没有单一模型能在所有维度上表现出色,而组合编辑仍然极具挑战性。
AJ-Bench:面向环境感知评估的 Agent-as-a-Judge 评测基准
AJ-Bench 提出一套评测基准,用于衡量 Agent-as-a-Judge 系统通过与环境交互来验证智能体行为的能力,覆盖搜索、数据系统与 GUI 领域的 155 项任务。
Conv-to-Bench: 通过用户-助手对话评估语言模型在代码任务中的表现
Conv-to-Bench 是一个多阶段框架,能够自动将多轮用户-助手对话转化为结构化的、可验证的需求清单,用于评估大型语言模型在代码任务上的表现,以较低的计算成本实现了与人工编写的基准近乎完美的对齐。
TUA-Bench: 通用终端使用代理的基准测试
TUA-Bench是一个综合性基准测试,用于评估通用终端使用代理在各种数字活动和专业工作流中的表现,揭示了当前前沿代理之间的显著性能差距。
TOBench:面向真实世界工具使用智能体的任务导向全模态基准
TOBench是一个新的基准测试,用于评估AI智能体在真实世界、任务导向的工具使用中的表现,涉及多模态输入和闭环验证。实验表明,像Qwen 3.5 Plus这样的顶级模型仅达到41%的成功率,远低于94%的人类基准,凸显了显著的差距。