Agentic AI Translate：一个将翻译作为沟通设计的智能体翻译器原型

arXiv cs.CL 2026/05/19 04:00 论文

摘要

本文介绍了Agentic AI Translate，一个智能体翻译器原型，它取代了传统的文本输入/文本输出范式，采用基于翻译研究理论的四阶段智能体循环，旨在将翻译重新定义为沟通设计而非文本转换。

arXiv:2605.17041v1 公告类型：新摘要：我们提出了Agentic AI Translate，这是一个智能体翻译器原型，它实现了Yamada（即将发表）的论点——翻译学的元语言已成为生成式AI的指令代码。该系统用四阶段智能体循环（识别→提示→生成→验证）取代了机器翻译中主流的文本输入/文本输出范式，并在其之前增加了一个交互式规范阶段，在该阶段中，用户通过模型辅助对话，编写一个基于目的论、语域、受众和体裁惯例的结构化翻译纲要。验证阶段采用GEMBA-MQM错误跨度协议（Kocmi & Federmann, 2023）进行基于证据的评分，并根据Wang等人（2025）的方法，通过DelTA-lite专有名词记忆和运行中的双语摘要来保持文档级连贯性。我们描述了哲学动机、架构承诺、系统使用的四个参考材料类别，以及架构明确指出的主要设计张力。实证验证留待未来工作完成；本文的贡献在于概念和架构——它是一个可执行的体现，体现了GenAI时代翻译是沟通设计而非文本转换这一立场。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:37

# 智能体AI翻译：作为沟通设计的翻译的智能体翻译原型

来源：https://arxiv.org/html/2605.17041
（2026年5月）

###### 摘要

我们提出**智能体AI翻译**，一个智能体翻译原型，它将Yamada（即将发表）的论点——即翻译学的元语言已成为生成式AI的指令编码——付诸实践。该系统用四阶段智能体循环（识别→提示→生成→验证）取代了机器翻译主流的“文本输入/文本输出”范式，并在该循环之前增加了一个**交互式规格说明阶段**，在此阶段用户通过模型辅助的对话，基于目的论、语域、受众和体裁惯例，撰写结构化的翻译概要。验证阶段采用GEMBA-MQM错误跨度协议【Kocmi & Federmann, 2023】进行基于证据的打分，并通过基于【Wang等人, 2025】的**DelTA-lite**专有名词记忆和运行中的双语摘要来保持篇章级连贯性。我们描述了哲学动机、架构承诺、系统消费的四类参考资料，以及架构所明确的主要设计张力。实证检验留待未来工作；本文的贡献是概念性和架构性的——这是对“生成式AI时代的翻译是沟通设计，而非文本转换”这一观点的可执行体现。

关键词：智能体翻译，翻译学元语言，目的论，MQM，篇章级翻译，大语言模型，翻译规格说明。

## 1 引言

四十年来，机器翻译研究始终围绕一个单一的优化目标：源字符串与目标字符串之间的词汇和语法忠实度。统计和神经机器翻译系统在高资源语言对上逐步缩小了与专业人工输出的准确度差距，而大语言模型（LLM）现已在片段层面使流畅性、地道性和基本的语域匹配几乎零成本实现【Kocmi等人, 2024; Karpinska & Iyyer, 2023】。用Kano模型【Kano, 1984】的术语来说，**准确度**已饱和为“必备质量”：它的存在不再区分翻译的好坏，只有它的缺失才会被注意到。

因此，翻译价值的前沿已转移到Tannen（1986）所称的**“如何”**而非**“什么”**——语域、受众设计、语气、立场、文化框架、体裁惯例——这些维度在专业翻译中始终重要，但计算研究历来将其视为隐性的。Yamada（即将发表）在《元语言与生成式AI：赋能语言学习者和翻译学习者》（即将发表于《劳特利奇翻译与技术手册》第二版）中论证，这不仅是评价标准的转变，而是对译者角色的**根本性重新配置**：从目标文本的手工起草者，转向生成系统产生文本的**条件设计者**，以及该文本是否实现其交际目的的**验证者**。关键的是，Yamada观察到：

> “生成文本越容易，确保文本实现特定交际目的就越难。”

这个**自动化悖论**一旦我们认识到翻译学（TS）的词汇——**目的、语域、受众、对等、异化、归化、体裁、立场、忠诚**——恰好提供了LLM作为指令所需的描述精度，便迎刃而解。**理论变得可操作**。以往用于思考实践的术语，现在被用来指导机器。

本文呈现了该论点的可执行体现。**智能体AI翻译**是一个研究原型和一个智能体翻译器，已公开发布，它接受翻译请求，并在任何生成发生之前引导用户完成结构化的翻译规格说明编写。然后运行一个智能体四阶段流水线（**识别→提示→生成→验证**），该流水线从头到尾使用该规格说明，并带有篇章级状态以保持长输入中的术语一致性。本文的贡献不是实证性的——我们尚未进行针对非结构化提示的比较MQM研究来验证假设——而是架构性的：一个**此类系统必须包含什么**的可执行描述，以便上述论点能够在代码中实现。

本文其余部分组织如下。第2节阐述哲学动机。第3节详述架构。第4节说明实现细节。第5节将系统定位于近期在智能体LLM翻译、篇章级机器翻译和翻译评估方面的相关工作。第6节讨论局限性和主要设计张力。第7节概述验证计划和结构化规格说明扩展，后者是该项目的主要研究方向。

## 2 哲学动机：翻译作为沟通设计

### 2.1 重新表述生成式AI时代的两个层面

翻译一直运作于两个层面：命题内容（**“什么”**）和该内容在目标语言中的实现方式（**“如何”**）——包括语域、句子节奏、社会方言标记、脚注实践、文化特定项的管理，以及定位隐含读者的指向性。House（2015）的显性/隐性区分、Reiss（1971/2000）的文本类型学、Nord（1997）的功能主义框架以及Vermeer（1978）的目的论都凸显了交际目的优先于表层对等；这并非新观察，而是翻译学中的共识【参见Munday, 2016的标准综合】。

**新的观察**是，直到最近，将此类约束编码到翻译系统中意味着要么训练特定领域的模型，要么对通用模型输出进行后编辑。两种方法都将沟通设计视为**应用于**翻译的东西，而非**构成**翻译的东西。生成式LLM改变了这一点：它们在推理时接受长篇幅、结构化的自然语言指令，并依据这些指令进行条件生成，达到与先前系统质不同的程度【Vilar等人, 2023; Karpinska & Iyyer, 2023】。**沟通设计成为第一类输入**。

### 2.2 语气作为翻译单位

以村上春树翻译塞林格的《麦田里的守望者》为例。开篇——“如果你真想听故事……”——被多位日本译者以不同程度的字面忠实度呈现，但村上的选择有意保留了塞林格的表层词汇，而是霍尔顿·考尔菲尔德的**语气**：一种特定的节奏，一种与读者的特定关系。给当前LLM一个简短的多轮示例提示，再提供一个简短的村上样本，它就能以惊人的忠实度再现相邻段落的这种语气——不是因为LLM读过塞林格或村上，而是因为这种语气已被**规格化**为模型可以遵循的约束。

这就是“翻译即设计”主张的运作核心：语气——文学翻译中最显然是工艺性的方面——原来是**可规格化**的，而且一旦规格化，就能规模化复制。译者的贡献不再是逐句手工起草，而是将语气设计为约束。

### 2.3 译者的重新配置

Yamada（即将发表）将译者的新兴角色框架化为**设计者+验证者**：

- **设计者**：以元语言精度撰写情境分析（目的、受众、语域、体裁）和操作工件（词汇表、配对示例、平行文本范例），以条件化生成系统。
- **验证者**：判断输出不是作为后编辑任务——表面错误修正——而是作为**功能性**和**认知性**判断：输出是否对受众有效？它是否保留事实结构？是否匹配规格说明？

关键的教学含义是，翻译学的**词汇**——Gambier（2009）所称的学科**元语言**——不再是为了**思考**实践而学习，而是为了**指令**机器。该学科的理论装置变成了操作基础设施。这里描述的系统正是基于这一认识而构建。

## 3 架构

该系统包含三个同心层：**四阶段循环**（流水线）、**交互式规格说明**（规范每一阶段的条件）以及保持篇章级连贯性的**持久状态**。

### 3.1 四阶段循环

```
+---------------------------------------------------------+
|  1) 识别                                                |
|     LLM从源文本中提取{目的, 受众, 语域, 体裁, 立场, 备注}为JSON。|
+---------------------------------------------------------+
|  2) 提示                                                |
|     确定性Python根据规格说明+参考资料+识别+记忆构成翻译提示。|
+---------------------------------------------------------+
|  3) 生成                                                |
|     单次LLM调用产生草稿（T=0.3）。                      |
+---------------------------------------------------------+
|  4) 验证                                                |
|     LLM作为评判者返回MQM错误跨度                          |
|     {跨度, 类别, 严重性, 解释}。                          |
|     分数 = -25*严重 -5*主要 -1*次要。                     |
|     根据阈值确定性判定结论。                                |
|     若需修订：错误作为阶段2的细化反馈回；                   |
|     最多两次迭代。                                         |
+---------------------------------------------------------+
```

**为什么是四个阶段而不是一个？**单次端到端提示迫使模型在单一前向传递中同时进行情境分析、提示组装、生成和自我评估——产生流畅但基本无法分析的输出。分解使得每个承诺成为可检查的工件。识别JSON、组装的阶段2提示和验证错误跨度都会被记录并在用户界面中可视化；这是有意为之，因为该系统的教学和研究价值取决于每个阶段是否清晰可读。

**为什么阶段1是单独的LLM调用。**原则上，情境分析可以折叠到一个单一的生成提示中。我们将其分离有两个原因。首先，它生成的JSON——`{目的, 受众, 语域, 体裁, 立场, 备注}`——是**元语言论点最直接的体现**：翻译学类别以结构化字段而非散文形式出现。其次，将其分离允许用户**看到**模型已执行的情境分析，并在生成之前对其提出质疑。在目前的实践中，这仍然是一个只读工件；使其可编辑是计划中的扩展。

### 3.2 交互式规格说明

系统最独特的元素是位于流水线之前的**层**。在输入源文本后，用户点击**提议规格说明**；模型返回一个结构化的markdown文档，包含十个规范部分——**目的、受众、语域与语气、体裁、术语指导、风格决策、需要保留的内容、需要本地化的内容、需要避免的内容、开放问题**——这些内容基于源文本和任何上传的参考资料起草。用户可以：

1. 直接在UI中编辑markdown；
2. 通过聊天细化（“受众是学术同行评审者”，“全程使用直白的da/dearu体”，“保留表情符号和源语言粉丝词汇”）；
3. 反复迭代直至满意，然后**锁定**规格说明，之后翻译才能运行。

**锁定步骤是故意的。**它强制执行一个**架构承诺**：没有明确的、用户认可的规格说明，不能产生任何翻译。因此，该系统不能用作通用MT工具；它只能用作**规格说明驱动的翻译工具**。这是哲学观点的可操作化。

该规格说明被阶段2（提示）和阶段4（验证）同等方式消费：验证者根据生成者被条件化的同一规格说明来判断翻译。这关闭了一个常见的评估漏洞，即验证者和生成者对什么算作好的输出隐含地不一致。

### 3.3 参考资料层

四类正交的参考资料可以上传：

这些类别遵循专业CAT/TMS工作流程中使用的实用分类，并部分符合ASTM F2575翻译规格说明标准。系统将四类参考资料全部注入规格说明提案、生成提示和验证者——每个消费者可以自行决定如何权衡。当前实现注入所有配对示例；选择性检索（R-BM25或嵌入相似度，参见Agrawal等人，2023）是计划中的升级。

### 3.4 篇章级记忆（DelTA-lite）

对于多段落输入，分块器在空白行段落边界处分割文档（对过长的段落使用句子边界作为后备）。每个块被独立翻译，但在块之间，一个**持久记忆**由辅助LLM调用更新，基于Wang等人（2025）：

- **专有名词账册**：一个运行中的源到目标词典，存储需要保持稳定的术语（人物、地点、组织、产品、技术术语）的翻译。
- **双语运行摘要**：目标语言中50-150字的摘要，捕捉文档的进展以保持语气连贯性。
- **即时窗口上下文**：前一个块的源文本和目标文本。

这三个工件在下一个块的阶段2提示中以显式标题（**已建立的术语**、**到目前为止的文档摘要**、**紧接的前一个块**）注入，并指示模型遵循它们。在对多段落文学和新闻测试输入的非正式观察中，账册正确捕获了跨块出现的命名实体（例如，*Natsume Soseki → 夏目漱石*, *Kushami-sensei → 苦沙弥*），无需进一步干预，这与Wang等人（2025）在大规模上报告的一致性改进相符。

### 3.5 基于MQM的验证

阶段4遵循Kocmi & Federmann（2023）的**GEMBA-MQM**协议：验证者提示是语言无关的，指示模型识别错误跨度，并为每个错误跨度分配一个MQM类别和严重性，返回一个结构化的JSON列表。类别集是Freitag等人（2021）的规范清单：**准确度**（误译、添加、遗漏、未翻译、不应翻译）、**流畅度**（语法、标点、拼写、语域、不一致、字符编码）、**术语**、**风格**、**地区惯例**、**其他**。严重性分为**严重、主要、次要**。从错误列表计算确定性分数：

分数 = -25 × n_严重 - 5 × n_主要 - 1 × n_次要

结论为**接受**如果分数达到可配置的阈值（默认-2，即容忍最多两个次要问题；任何主要或严重触发修订），否则为**修订**。在修订时，带类型的错误列表被逐字附加到阶段2提示中作为可操作指令，阶段3重新运行。循环限制在两次迭代——Huang等人（2024）和Stechly等人（2024）均显示LLM的固有自我修正收益递减迅速，并可能降低输出质量。

我们遵循Fernandes等人（2023）和Wan

Agentic AI Translate：一个将翻译作为沟通设计的智能体翻译器原型

相似文章

大多数关于“智能体 AI”的讨论都感觉太抽象了。这里是我的智能体研究系统的实际样子

观点：Agentic AI系统是实现AGI的可预见路径

基于AI翻译教学中的评价判断：AI辅助翻译与译后编辑的课堂案例研究

代理式AI时代重新思考组织设计

科学领域的代理型AI实验

提交意见反馈