通过语言表征塑造图式:拓展LLM智能的下一前沿

Hugging Face Daily Papers 论文

摘要

本文指出,设计先进的语言表征以塑造认知图式,是在不扩展参数规模的前提下拓展LLM智能的关键前沿。文章提供了形式化定义与实证证据,表明不同的语言结构会显著影响模型性能与内部特征激活。

尽管自然语言是LLMs的默认媒介,但其有限的表达能力为复杂问题求解带来了深层瓶颈。尽管近期AI的进展高度依赖规模扩展,但单纯的知识内化并不能保证其被有效调用与应用。本文将语言表征定义为用于映射和建模现实世界的语言与符号结构,并主张通过先进语言表征来塑造图式,是拓展LLM智能的下一前沿。我们提出,LLM的知识激活与组织机制——即其图式——在很大程度上取决于用于表征特定任务的语言在结构与符号层面的精细程度。本文不仅为该主张提供了形式化框架,还给出了支持该观点的实证证据。基于这一新形式化框架,我们提供了多维度证据以支撑这一立场:首先,我们回顾了近期的实证实践与新兴方法,表明即使不修改模型参数或规模,仅通过精心设计的语言表征也能实现显著的性能提升。其次,我们开展了对照实验,结果表明在面对同一底层任务时,采用不同的语言表征会导致LLM的性能及其内部特征激活情况发生显著变化。综合来看,这些发现凸显了语言表征设计作为未来研究极具潜力方向的价值。
查看原文
查看缓存全文

缓存时间: 2026/05/12 10:53

论文页面 - 通过语言表示塑造图式:扩展 LLM 智能的下一前沿

来源:https://huggingface.co/papers/2605.09271

摘要

语言表示设计显著影响大语言模型的性能和内部特征激活,为在不进行规模扩展或参数修改的情况下增强模型智能提供了一条有前景的研究方向。

尽管自然语言是 大语言模型 (LLMs) 的默认媒介,但其有限的表达能力为复杂问题解决创造了深层次的瓶颈。虽然人工智能的最新进展在很大程度上依赖于规模扩展,但仅仅内化知识并不能保证其有效应用。本文将 语言表示 定义为用于映射和建模现实世界的语言和符号结构,并认为通过先进的 语言表示 塑造 图式 (Schema) 是扩展 LLM 智能的下一个前沿。我们认为,LLM 的 知识激活 和组织——即其 图式 ——很大程度上取决于用于表示给定任务的语言的结构和符号复杂度。本文既提供了这一主张的形式化定义,也提供了支持它的实证证据。借助一种新的形式化方法,我们提出了多条证据来支持我们的立场:首先,我们回顾了最近的 实证实践新兴方法论,这些表明即使不修改模型参数或规模,也可以通过深思熟虑的 语言表示 设计实现显著的性能提升。其次,我们进行了 受控实验,表明在相同底层任务的不同 语言表示 下,LLM 性能及其 内部特征激活 会发生变化。综上所述,这些发现凸显了 语言表示 设计作为未来研究的一个有前途的方向。

查看 arXiv 页面 (https://arxiv.org/abs/2605.09271) 查看 PDF (https://arxiv.org/pdf/2605.09271) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.09271)

在您的 Agent 中获取此论文:

hf papers read 2605\.09271

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.09271 即可从此页面链接。

引用此论文的数据集 0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.09271 即可从此页面链接。

引用此论文的 Spaces 0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2605.09271 即可从此页面链接。

包含此论文的收藏集 0

没有收藏集包含此论文

将此论文添加至 收藏集 即可从此页面链接。

相似文章

LLM神经解剖学第三部分 - LLMs似乎以几何而非语言思考

Reddit r/LocalLLaMA

研究人员分析了LLMs在8种语言和多个模型中的内部表示,发现概念思考发生在transformer中间层的几何空间中,且与输入语言无关,这支持了类似于乔姆斯基理论的普遍深层结构假说,而非萨丕尔-沃尔夫语言相对论。

学习如何让大语言模型进行推理

OpenAI Blog

OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。

论大语言模型的固有可解释性:设计原则和架构调查

arXiv cs.CL

一份综合调查,回顾了大语言模型(LLM)固有可解释性的最新进展,将方法分为五个设计范式:功能透明性、概念对齐、表示可分解性、显式模块化和潜在稀疏性诱导。论文解决了在模型架构中直接构建透明性,而不是依赖事后解释方法的挑战。