亚当定律：大语言模型中的文本频率定律

Papers with Code Trending 2026/04/02 00:00 工具

摘要

本文介绍了 AdamOpt，这是一款基于“亚当定律”的开源工具，它通过将低频词替换为高频同义词来优化提示词，从而降低困惑度。文章强调了该工具的双语言支持、离线处理能力以及在文本生成方面的实际性能提升。

虽然文本频率在阅读理解速度中已被验证与人类认知相关，但其与大语言模型（LLM）的相关性却鲜有研究。据我们所知，我们提出了一个关于文本数据频率的崭新研究方向，这是一个尚未得到充分研究的课题。我们的框架由三个单元组成。首先，本文提出了文本频率定律（TFL），该定律指出，无论是进行提示还是微调，都应优先为 LLM 选择高频文本数据。由于许多 LLM 的训练数据是闭源的，我们提出利用在线资源来估算句子级别的频率。随后，我们利用输入改写器将输入改写为更常见的文本表达。接下来，我们提出了文本频率蒸馏（TFD），通过查询 LLM 来进一步扩展数据集中的句子以进行故事补全，并利用生成的语料库来调整初始估计。最后，我们提出了课程式文本频率训练（CTFT），按照句子级别频率递增的顺序对 LLM 进行微调。我们在精心构建的文本频率配对数据集（TFPD）上进行了实验，涵盖数学推理、机器翻译、常识推理以及代理工具调用。结果证明了我们要框架的有效性。

查看原文

查看缓存全文

缓存时间: 2026/05/10 06:34

论文页面 - 亚当定律：大型语言模型的文本频率定律

来源: https://huggingface.co/papers/2604.02176 一篇很棒的论文！“高频文本 → 更低困惑度 → 更好的 LLM 表现”这一洞察既简洁又强大。

这项工作给了我极大的启发，因此我开发了 AdamOpt —— 一个开源工具，将亚当定律转化为一个实用的一键式优化流程：

它的功能：

adamopt optimize "你的提示词" → 自动将低频瓶颈词/短语替换为更高频的同义词三种模式：保守型（词级，≥99% 语义保真度）、平衡型（词+短语）、激进型（完全重写）自动锁定实体、数字、逻辑关键词和约束条件——语义完整性始终得以保证支持中英双语，可离线运行，零 LLM API 成本来自该工具的实际效果：

“optical causation…azure…celestial firmament” → “light cause…blue…sky” — sfreq +2735% “详尽阐述” → “详细讲” — sfreq +48.8%（其中“务必”和“3点”已自动锁定） “In order to comprehend the methodology” → “to understand the way” — sfreq +2150% 85 项测试全部通过，采用 MIT 许可证。模块 1-2 已完成；模块 3-5（语义验证、带 CTFT 排序的批量 SFT 数据处理、API & Web 演示）开放贡献。

代码库: https://github.com/happyii/AdamOpt

如果你正在处理提示词或微调数据，欢迎尝试一下。PR、问题反馈和 Star 都非常欢迎——让我们一起让提示词优化成为一个已解决的问题。🚀

亚当定律：大语言模型中的文本频率定律

论文页面 - 亚当定律：大型语言模型的文本频率定律

相似文章

optimize_anything：用于优化任意文本参数的通用API

AI生成文本检测中语言特征的系统性分析：跨领域与跨模型研究

大语言模型中的语言习得装置

InfoLaw：基于质量加权混合数据与重复度的大型语言模型信息缩放定律

基于LMO方法的零阶无参数优化：高效微调的新方法

提交意见反馈