COFT：面向大型语言模型公平思维链推理的反事实-共形解码

arXiv cs.CL 2026/06/01 04:00 论文

bias chain-of-thought decoding fairness conformal-prediction counterfactual large-language-models

摘要

COFT是一种无需训练的解码方法，通过应用令牌级公平控制和共形校准来减少大型语言模型思维链推理中的偏见，以最小的计算开销实现30-55%的偏见降低。

arXiv:2605.30641v1 公告类型：新摘要：大型语言模型（LLMs）在生成思维链（CoT）过程中可能揭示并放大社会偏见。我们提出了COFT（公平思维链），一种无需训练的解码方法，在解码时应用令牌级公平控制，为任何冻结的因果语言模型提供无分布边际有效性保证（在可交换性条件下）。COFT分三个阶段运行。首先，它通过将敏感片段替换为中性令牌来创建掩蔽反事实提示。其次，它通过轻量级logit融合比较事实和掩蔽的logit分布，以减弱属性驱动的偏见。第三，它使用双分支分裂共形校准来在用户选择的风险水平上认证每一步的候选令牌集。我们在六个模型和多个偏见基准上评估了COFT。我们的方法将标准偏见指标降低了30-55%（中位数38%），同时保持了任务效用和语言质量。推理准确率在运行间的噪声范围内保持不变。计算开销适中，相当于一次额外的缓存前向传递（<=11%）。COFT为更安全的CoT生成提供了一条清晰、可审计的路径，具有显著的偏见减少、可忽略的效用损失，并且不需要重新训练、辅助分类器或权重访问。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:26

# COFT：面向大型语言模型公平思维链推理的反事实共形解码
来源：https://arxiv.org/abs/2605.30641
查看PDF (https://arxiv.org/pdf/2605.30641)

> 摘要：大型语言模型（LLMs）在思维链（CoT）生成过程中可能揭示并放大社会偏见。我们提出COFT（Chain of Fair Thought，公平思维链），一种无需训练的解码方法，在解码时施加令牌级公平性控制，并为任何冻结的因果语言模型提供无分布假设的边缘效度保证（在交换性条件下）。COFT包含三个阶段。首先，通过将敏感跨度替换为中性令牌来构建掩码反事实提示。其次，通过轻量级logits融合比较事实分布与掩码logits分布，以削弱属性驱动的偏见。第三，使用双分支分裂共形校准，在用户选择的风险水平下认证每步候选令牌集。我们在六个模型和多个偏见基准上评估COFT。我们的方法将标准偏见指标降低30-55%（中位数38%），同时保持任务效用和语言质量。推理精度在逐次运行的噪声范围内保持不变。计算开销适中，相当于一次额外的缓存前向传播（≤11%）。COFT提供了一条清晰、可审计的路径，用于生成更安全的CoT，显著减少偏见、效用损失极小，且无需重新训练、辅助分类器或权重访问。

## 提交历史

来自：Arya Fayyazi \[查看邮件 (https://arxiv.org/show-email/c4a9d3d9/2605.30641)\] **\[v1\]** 2026年5月28日星期四 22:52:15 UTC (2,107 KB)

COFT：面向大型语言模型公平思维链推理的反事实-共形解码

相似文章

基于代理上下文的链式思维微调长上下文推理

OpenCoF：通过视频生成学习推理

CASE: 因果对齐与结构强化以提升思维链忠实性

思考先于约束：面向大型语言模型的统一解码框架

通过协作逐步多教师解码蒸馏长链思维推理

提交意见反馈