通过语言表征塑造图式:拓展LLM智能的下一前沿
摘要
本文指出,设计先进的语言表征以塑造认知图式,是在不扩展参数规模的前提下拓展LLM智能的关键前沿。文章提供了形式化定义与实证证据,表明不同的语言结构会显著影响模型性能与内部特征激活。
查看缓存全文
缓存时间: 2026/05/12 10:53
论文页面 - 通过语言表示塑造图式:扩展 LLM 智能的下一前沿
来源:https://huggingface.co/papers/2605.09271
摘要
语言表示设计显著影响大语言模型的性能和内部特征激活,为在不进行规模扩展或参数修改的情况下增强模型智能提供了一条有前景的研究方向。
尽管自然语言是 大语言模型 (LLMs) 的默认媒介,但其有限的表达能力为复杂问题解决创造了深层次的瓶颈。虽然人工智能的最新进展在很大程度上依赖于规模扩展,但仅仅内化知识并不能保证其有效应用。本文将 语言表示 定义为用于映射和建模现实世界的语言和符号结构,并认为通过先进的 语言表示 塑造 图式 (Schema) 是扩展 LLM 智能的下一个前沿。我们认为,LLM 的 知识激活 和组织——即其 图式 ——很大程度上取决于用于表示给定任务的语言的结构和符号复杂度。本文既提供了这一主张的形式化定义,也提供了支持它的实证证据。借助一种新的形式化方法,我们提出了多条证据来支持我们的立场:首先,我们回顾了最近的 实证实践 和 新兴方法论,这些表明即使不修改模型参数或规模,也可以通过深思熟虑的 语言表示 设计实现显著的性能提升。其次,我们进行了 受控实验,表明在相同底层任务的不同 语言表示 下,LLM 性能及其 内部特征激活 会发生变化。综上所述,这些发现凸显了 语言表示 设计作为未来研究的一个有前途的方向。
查看 arXiv 页面 (https://arxiv.org/abs/2605.09271) 查看 PDF (https://arxiv.org/pdf/2605.09271) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.09271)
在您的 Agent 中获取此论文:
hf papers read 2605\.09271
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2605.09271 即可从此页面链接。
引用此论文的数据集 0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.09271 即可从此页面链接。
引用此论文的 Spaces 0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2605.09271 即可从此页面链接。
包含此论文的收藏集 0
没有收藏集包含此论文
将此论文添加至 收藏集 即可从此页面链接。
相似文章
LLM神经解剖学第三部分 - LLMs似乎以几何而非语言思考
研究人员分析了LLMs在8种语言和多个模型中的内部表示,发现概念思考发生在transformer中间层的几何空间中,且与输入语言无关,这支持了类似于乔姆斯基理论的普遍深层结构假说,而非萨丕尔-沃尔夫语言相对论。
强化学习能否教会大型语言模型进行长程推理?表达力是关键
本文介绍了 ScaleLogic 框架,该框架证明了强化学习的训练计算资源消耗遵循与大型语言模型推理深度相关的幂律分布。文章强调,逻辑表达力对于提升下游迁移能力和训练效率至关重要。
学习如何让大语言模型进行推理
OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。
论大语言模型的固有可解释性:设计原则和架构调查
一份综合调查,回顾了大语言模型(LLM)固有可解释性的最新进展,将方法分为五个设计范式:功能透明性、概念对齐、表示可分解性、显式模块化和潜在稀疏性诱导。论文解决了在模型架构中直接构建透明性,而不是依赖事后解释方法的挑战。
揭示大语言模型中的数学推理:内部机制的方法学研究
本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。