超越回忆:行为规范作为AI个性化的解释层

arXiv cs.CL 论文

摘要

本文介绍了表征准确性和一种行为规范作为AI个性化的解释层,表明与原始数据检索相比,它在大约25倍更少的上下文成本下提高了表征准确性,尤其是在需要解释的问题上。

arXiv:2605.28969v1 Announce Type: new 摘要:如果一个AI代理代表一个人做决策,那么这些决策必须与其用户保持一致。我们引入了表征准确性来衡量系统捕捉用户解释的忠实程度。我们将一个解释层操作化为行为规范。我们的参考实现将用户的数据积极压缩为解释性模式,作为语言模型的上下文提供。我们在一个由校准的5评委LLM小组评分的原型基准上评估了该规范,该基准包含保留的行为预测。我们独立测试了该规范,并与一系列上下文条件组合测试:完整原始语料、完整提取的事实以及四个商业记忆系统(Mem0、Letta、Supermemory、Zep)。 在14个公共领域自传语料库上,该规范整体上提升了表征准确性,并几乎消除了模型对冲。它以大约25倍更少的上下文成本恢复了原始语料提供的大部分内容。该规范将受试者提升到共同的预测水平,无论预训练基线如何;因此,绝对分数提升在基线最低时最大,表明相关人群是任何在预训练中未被充分代表的个体。在需要解释的问题上提升最大,此时提供解释层使得模型行为能够完成提取的事实或原始语料无法完成的任务。相反,在需要回忆的问题上,这一层可能会干扰而非帮助。 我们得出结论,表征准确性不同于回忆,人机对齐依赖于用户被表征的准确性。表征准确性使这种对齐变得可测试。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:14

# 超越回忆:行为规范作为AI个性化的解释层  
来源:https://arxiv.org/html/2605.28969  

###### 摘要  
如果AI代理要替一个人做出更多决策,这些决策必须与用户保持一致。我们引入**表征准确性**来衡量系统忠实地捕捉个人解读的程度。**解释层**被具象化为一种**行为规范**。我们的参考实现将个人数据激进压缩为解释性模式,作为语言模型的上下文。我们在一组原型基准上评估该规范,该基准由经过校验的5裁判LLM小组对未参与训练的行为预测进行评分。我们测试了该规范独立运行和与多种上下文条件组合的效果:完整原始语料、完整提取事实、以及四个商业记忆系统(Mem0、Letta、Supermemory、Zep)。在14个公共领域自传语料上,该规范整体提升了表征准确性,并几乎消除了模型的风险规避行为。它以约25倍的上下文成本节约,恢复了原始语料所能提供的绝大部分性能。当模型对主体的预训练覆盖度降低时,提升效果增大,表明相关人群是任何在预训练中未得到充分代表的人。提升效果在需要解释的问题上最为显著——提供解释层使模型能够表现出提取事实或原始语料无法实现的行为。相反,在需要回忆的问题上,这一层反而可能产生干扰而非帮助。我们得出结论:表征准确性与回忆不同,人机对齐取决于用户被表征的准确性。表征准确性使这种对齐变得可测试。  

# 超越回忆:行为规范作为AI个性化的解释层  

Aarik Gulaya · [email protected]  
预印本 · 2026-05-14 · 手稿 CC-BY-4.0 · 代码 Apache 2.0  
ORCID: 0009-0009-5902-9557  

## 1. 引言  
本文沿一条主线展开。§1.1 阐述问题:AI记忆以回忆为优化目标,但回忆不等于解释。§1.2 定义测量目标——表征准确性——以及使该目标可测量的未参与训练行为预测测试。§3 描述待测试的人工制品——行为规范——以及用于评估它的条件。§4 报告实验结果;§5 阐述其对AI个性化的意义。希望先看结果再读原理的读者可以先阅读§1.3。

### 1.1 回忆不是解释。解释可以被测量。  
AI正从人们使用的工具转变为代理人们行事的智能体,这一转变改变了“记忆”对特定个体的作用方式。当前最先进的AI记忆以回忆作为成功指标进行优化。四个主要的商业系统(Zep、Letta、Mem0和Supermemory)在标准回忆基准(如LOCOMO和LongMemEval)上竞争,根据提供商、模型和基准变体,报告的准确率大致在70%到93%之间。在回忆上进一步优化,会遗漏一些更本质的东西。本文探讨回忆如何只是记忆的一部分,以及记忆的功能如何由个体处理自身事实和经历的方式决定。  

我们用**解释**来指代这种人类侧属性:特定个体将事实和经历加工成判断、决策和反应的方式。从不同视角看待情境,可能会对同一组事实产生完全不同的解读。这一原则适用于各个领域:同样的事实集,因读者带入的解释框架不同,可能得出不同的结论。因此,记忆在比回忆更深的层面上是个性化的:同样的事实在不同人的内部以不同方式排列。要使AI服务于特定个体,必须为其提供该个体所使用推理框架的上下文,而不仅仅是原始事实或信息本身。  

在本文中,我们使用**行为规范**一词来指代一种静态文档,它提取并编码一个人的行为模式;操作定义在§3.7中展开。行为规范是一种捕捉这种解释框架的人工制品,并作为上下文提供给AI。我们引入**表征准确性**作为对应的AI侧属性:系统对特定个体的内部模型在多大程度上捕捉了其解释模式。它不是回忆、偏好匹配或人格一致性。它是AI系统的一个独立属性,当前最先进的记忆基准并未将其单独分离出来。最接近这一维度的工作(Twin-2K用于大规模行为预测、PersonaGym用于人格保真度、AlpsBench用于偏好对齐)测量的是相关属性,但并不测量个体解释模式向系统从未见过的新情境的迁移。§2.1 将每个基准与本文测量的内容进行定位,附录F详细阐述了范围差异。  

本研究的核心假设是:对个体解释的表征准确性,会提高AI系统与该个体的行为对齐。这是任何旨在代理个人行事的AI系统的操作原语:系统的行为只能达到与系统准确表征用户推理相同的程度。本文的操作测试是对未参与训练情境的行为预测:给定一个来自模型从未见过的文本中的情境,模型生成主体会如何回应;然后由经过校验的大型语言模型(LLM)裁判组,根据主体在未参与训练文本中的逐字回应,按1-5分的解释性评分标准进行评分。对未参与训练文本的准确预测,表明该表征捕捉到了主体反复出现的推理模式,这与当前提取流程已能产生的事实和风格层面不同。该设计还降低了谄媚的风险:答案是根据主体从未见过的叙事进行校验,而不是根据用户在对话中说的任何内容。未参与训练测试是该假设的一种操作化体现。  

我们在最先进的领先AI记忆系统以及来自世界各地的14部不同自传上测试这一假设。本次初步考察中,我们使用基线化和校验过的LLM裁判来评估每个记忆系统的性能——独立运行以及与**行为规范**结合时的性能。行为规范是一种静态文档,它提取并编码语料行为模式的稳定表征。该规范捕捉了主体推理中反复出现的模式,这些模式源于整个语料库中判断和反应的形式(例如:“精神完整性重于社会成本……”、“通过爱改革……”、“层级服从……”)。在§2.3中,有一个从这种模式回溯到其基础事实和来源段落的审计链的逐步示例。本文使用的定义术语汇总在附录H中供参考。

### 1.2 我们测试了什么  
我们对14位历史人物测试了行为规范,每位人物都有一个来自古登堡计划或互联网档案馆的公共领域自传(各人物来源见§3.4表3.1)。对于每位人物,我们将源语料分为两半:训练半部分用于生成规范、初始化每个记忆系统以及提供可检索的事实库。未参与训练半部分仅用于生成行为预测问题,并且从未向**回应模型**(被要求预测主体会如何回应的语言模型)展示。行为规范是回应模型接收的上下文条件之一;所有条件的完整定义在§3.2中给出。每位人物的未参与训练问题集称为**问题集合**(每位人物的规模和组成见§3.5)。测试内容是:每个系统,在每种测试条件下,能否预测特定个体在从未见过的文本所描述的情境中会如何回应。该评估是表征准确性的原型基准,而非成品;§7指出了将其巩固为标准工具所需的工作。  

行为规范本身是通过一个提取与创作流水线从训练半部分语料构建的(§3.7)。该流水线将主体反复出现的推理模式提炼成一个单一的结构化文档,通常约7000个token(约5000个单词)长。当回应模型被要求预测主体会如何回应时,该文档作为上下文接收。  

**假设**。本研究测试了关于人物表征如何塑造AI代理该人物行为行为的五个主张:  
- •**H1.** 给定行为规范的回应模型产生的回应,比同一模型无上下文、由记忆系统检索的事实、完整提取事实列表或原始源语料时,与人物已有文档记录的行为更为对齐(§4.1)。  
- •**H2.** 规范的收益与回应模型对人物的预训练覆盖度成反比。其效果在模型尚不了解的人物身上最大(§4.1)。  
- •**H3.** 收益来自正确人物的正确规范的内容,而非仅仅存在结构化提示本身。用其他随机人物的规范替代,会产生较小且内容特定的效果(§4.3)。  
- •**H4.** 规范与记忆系统检索之间的交互作用是有结构的,取决于所提问题的类型。每个记忆系统的总体效果反映了每个问题模式的平衡,并随检索架构而变化(§4.4)。  
- •**H5.** 行为规范的质量优势也是压缩优势:约7000个token(约5000个单词)的规范恢复了80-400K个token(约60-300K个单词)原始语料的大部分预测准确性(§4.2)。  

工作过程中进行的后验分析与这些结果一并报告。  

**主要和次要结局指标**。**主要结局指标**是5位主要裁判组在1-5分评分标准上的平均预测得分(§3.3)。跨主体的主张是按主体逐个计算后再平均,因此不受问题集合较大的主体驱动。作为**次要结局指标**,我们报告每个问题的**改进率**:与比较基线相比,上下文条件有帮助的频率(§4.2.1),而不仅仅是平均时帮助多少。每个问题的次要结局指标很有意义,因为每种上下文条件在不同问题类型上的表现不同:总体效果反映了需要解释的项目(规范提升最大)和字面回忆项目(检索已足够)之间的平衡。次要结局指标的正式提案和失败模式分析见§4.2.1;两项结局指标的操作细节见§3.3。  

每个记忆系统在可控配置(相同的预提取事实库)和原生配置(提供商自身的摄取流水线)下均进行了测试;设计细节见§3.2。两个配置同时并行运行的是行为规范——单独测试以及叠加在每个配置之上测试。每个有意义的输入组合都作为一个独立条件进行评估:

| Group | Condition | Inputs given to the model | Purpose |
|-------|-----------|---------------------------|---------|
| **Direct context manipulations** |
| | No context (C5) | Nothing. The model answers from pretraining alone. | Pretraining baseline. Measures what the model already knows about the subject from public sources. |
| | Specification alone (C2a) | The Behavioral Specification, with no retrieval, no facts, and no corpus. | Tests whether structure without retrieval is sufficient on its own. |
| | Wrong-specification control (C2c) | A different subject’s specification applied to this subject. Two variants: an adversarial fixed pairing (v1) and a random derangement (v2). | Tests whether the effect is driven by the content of the correct Specification, or by the mere presence of structured prompting. |
| | All facts, no specification (C4) | Every extracted fact for the subject, loaded into context at once. | Tests whether information sufficiency alone drives prediction, independent of structure. |
| | Facts + specification (C4a) | Every extracted fact plus the Specification. | Combines full information and structure to test the upper bound of context-provided prediction. |
| | Raw corpus, no specification (C8) | The full training-half corpus loaded into context. | Tests whether unstructured source text can substitute for an interpretive representation. |
| | Corpus + specification (C9) | Raw training corpus plus the Specification. | Tests whether structure is additive to unstructured source text. |
| **Memory-system configurations (controlled, all 5 systems)** |
| | Retrieval alone, controlled (C1) | Top-k facts retrieved by each memory system (Mem0, Letta, Supermemory, Zep, Base Layer) from the shared fact pool. | Tests retrieval sufficiency, and whether providers converge on which facts are most relevant given identical input. |
| | Retrieval + specification, controlled (C3) | Memory system retrieval from the shared fact pool, plus the Specification. | Tests whether the Specification layers cleanly on retrieval when the input is held constant. |

相似文章

个性化 AI 的力量

OpenAI Blog

OpenAI 讨论了个性化 AI 的重要性和透明度,强调了他们发布的 Model Spec 文档,该文档解释了 ChatGPT 的行为指南和设计选择,以确保用户了解模型响应的原因。

面向偏好变化的记忆检索

arXiv cs.CL

本文提出了一种针对长上下文对话系统中记忆访问与选择的统一框架,利用贝叶斯因子量化历史轮次对建模变化用户偏好的效用。实验表明,在偏好密集型任务中,该框架优于基于嵌入的检索方法。