形式化潜在思维:大语言模型中思维表征的四条公理

Hugging Face Daily Papers 论文

摘要

提出了一种用于大语言模型中潜在思维表征的公理化评估框架,揭示当前表征在23个推理任务中无法满足四个基本功能公理(Causality, Minimality, Separability, Stability),表明表征质量存在结构性差距。

我们为大语言模型中的潜在思维表征引入了一个公理化评估框架,该框架包含独立于下游基准分数的指标,并揭示了基准准确率所掩盖的表征失败。现有的评估将表征质量与模型能力混为一谈,因此失败不能归因于表征,而非处理它的模型。我们将四个功能公理(Causality, Minimality, Separability, Stability)形式化,并为每个公理定义了一个定量指标,直接基于表征计算,独立于下游准确率。我们对开源权重的大语言模型在23个推理任务(如空间推理、事实问答)上进行了审计。我们发现,没有一个候选表征能同时满足所有四条公理;表征能可靠地区分任务类型,但无法区分同一任务中的两个问题;并且表征编码的信息几乎不比输入嵌入中已有的信息多。这一失败在密集模型、推理蒸馏模型和强化学习训练模型系列中一致出现,表明该差距是结构性的,而非模型大小或训练过程的属性。
查看原文
查看缓存全文

缓存时间: 2026/06/29 02:00

论文页面 - 将潜在思维形式化:LLM中思维表征的四条公理

来源:https://huggingface.co/papers/2606.27378

摘要

一种公理化的评估框架揭示了LLMs在多种推理任务中潜在思维表征的系统性失败,表明当前表征无法在不同模型架构上一致地满足基本功能公理。

我们为LLMs中的潜在思维表征引入了一个公理化评估框架(https://huggingface.co/papers?q=axiomatic%20evaluation%20framework),该框架包含与下游基准分数无关的指标,并揭示了基准准确率所掩盖的表征失败。现有评估将表征质量与模型能力混为一谈,因此无法将失败归因于表征本身而非处理它的模型。我们将四个功能公理(因果性、最小性、可分离性和稳定性)形式化,并为每个公理定义了定量度量,这些度量直接计算自表征,独立于下游准确率。我们审计了23个推理任务(例如,空间推理、事实问答)上的开放权重LLMs。我们发现,没有候选表征能同时满足所有四个公理;表征能可靠地区分任务类型,但无法区分同一任务内的两个问题;而且表征编码的信息几乎不超过输入嵌入中已有的信息。这种失败在密集模型、推理蒸馏模型和RL训练模型家族中一致存在,表明该差距是结构性的,而非模型规模或训练过程的属性。

查看arXiv页面(https://arxiv.org/abs/2606.27378)查看PDF(https://arxiv.org/pdf/2606.27378)项目页面(https://fard-lab.github.io/formalize-thoughts/)GitHub(https://github.com/fard-lab/formalize-thoughts)添加到集合(https://huggingface.co/login?next=%2Fpapers%2F2606.27378)

在你的agent中获取此论文:

hf papers read 2606\.27378

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.27378以链接到此页面。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.27378以链接到此页面。

引用此论文的空间0

没有空间链接此论文

在空间README.md中引用arxiv.org/abs/2606.27378以链接到此页面。

包含此论文的集合0

没有集合包含此论文

将此论文添加到一个集合(https://huggingface.co/new-collection)中以链接到此页面。

相似文章

LGMT:基于逻辑的变形测试用于评估LLM推理可靠性

arXiv cs.AI

本文介绍了LGMT,这是一个利用一阶逻辑生成语义不变测试用例以评估LLM推理可靠性的框架。在六个LLM上的实验表明,LGMT暴露了静态基准遗漏的隐藏缺陷,提示评估应侧重于逻辑不变性下的鲁棒性。