亚当定律:大语言模型中的文本频率定律

Papers with Code Trending 工具

摘要

本文介绍了 AdamOpt,这是一款基于“亚当定律”的开源工具,它通过将低频词替换为高频同义词来优化提示词,从而降低困惑度。文章强调了该工具的双语言支持、离线处理能力以及在文本生成方面的实际性能提升。

虽然文本频率在阅读理解速度中已被验证与人类认知相关,但其与大语言模型(LLM)的相关性却鲜有研究。据我们所知,我们提出了一个关于文本数据频率的崭新研究方向,这是一个尚未得到充分研究的课题。我们的框架由三个单元组成。首先,本文提出了文本频率定律(TFL),该定律指出,无论是进行提示还是微调,都应优先为 LLM 选择高频文本数据。由于许多 LLM 的训练数据是闭源的,我们提出利用在线资源来估算句子级别的频率。随后,我们利用输入改写器将输入改写为更常见的文本表达。接下来,我们提出了文本频率蒸馏(TFD),通过查询 LLM 来进一步扩展数据集中的句子以进行故事补全,并利用生成的语料库来调整初始估计。最后,我们提出了课程式文本频率训练(CTFT),按照句子级别频率递增的顺序对 LLM 进行微调。我们在精心构建的文本频率配对数据集(TFPD)上进行了实验,涵盖数学推理、机器翻译、常识推理以及代理工具调用。结果证明了我们要框架的有效性。
查看原文
查看缓存全文

缓存时间: 2026/05/10 06:34

论文页面 - 亚当定律:大型语言模型的文本频率定律

来源: https://huggingface.co/papers/2604.02176 一篇很棒的论文!“高频文本 → 更低困惑度 → 更好的 LLM 表现”这一洞察既简洁又强大。

这项工作给了我极大的启发,因此我开发了 AdamOpt —— 一个开源工具,将亚当定律转化为一个实用的一键式优化流程:

它的功能:

adamopt optimize "你的提示词" → 自动将低频瓶颈词/短语替换为更高频的同义词 三种模式:保守型(词级,≥99% 语义保真度)、平衡型(词+短语)、激进型(完全重写) 自动锁定实体、数字、逻辑关键词和约束条件——语义完整性始终得以保证 支持中英双语,可离线运行,零 LLM API 成本 来自该工具的实际效果:

“optical causation…azure…celestial firmament” → “light cause…blue…sky” — sfreq +2735% “详尽阐述” → “详细讲” — sfreq +48.8%(其中“务必”和“3点”已自动锁定) “In order to comprehend the methodology” → “to understand the way” — sfreq +2150% 85 项测试全部通过,采用 MIT 许可证。模块 1-2 已完成;模块 3-5(语义验证、带 CTFT 排序的批量 SFT 数据处理、API & Web 演示)开放贡献。

代码库: https://github.com/happyii/AdamOpt

如果你正在处理提示词或微调数据,欢迎尝试一下。PR、问题反馈和 Star 都非常欢迎——让我们一起让提示词优化成为一个已解决的问题。🚀

相似文章

optimize_anything:用于优化任意文本参数的通用API

arXiv cs.CL

本文介绍了optimize_anything,一个基于LLM的通用文本工件优化系统,在包括智能体架构发现、调度、CUDA内核生成和装箱在内的多种任务上取得了最先进的结果,展示了通用文本优化的能力。

AI生成文本检测中语言特征的系统性分析:跨领域与跨模型研究

arXiv cs.CL

一项大规模实证研究对284个语言特征在27个大语言模型和10个文本领域中的表现进行了分析,以评估哪些特征能够可靠地检测AI生成文本。研究发现,词汇丰富度指标是跨领域和跨模型最稳健的信号,而许多其他已提出的指标则高度依赖具体上下文。

大语言模型中的语言习得装置

arXiv cs.CL

本文提出了一种受LAD启发的预预训练方法,使用一种名为MP-Struct的形式语言,该语言编码了类自然语言结构。研究表明,这种方法提高了token效率,并赋予了模型类似人类的对结构不合理语言的抵抗力,挑战了先前关于有效预预训练语言的假设。