calibration

#calibration

当Top-1失效时：为掩码扩散语言模型校准LoRA监控器

arXiv cs.LG ↗ · 15小时前缓存

本文研究了top-1崩溃率作为短视界LoRA微调离散扩散语言模型的稳定性监控器的有效性，发现其精度为零，并提出最大梯度范数作为更可靠的替代方案，在LLaDA系列模型上具有更高的精度和F1分数。

0 人收藏 0 人点赞

#calibration

CALIBER：语言模型中推理前后的置信度校准

arXiv cs.CL ↗ · 15小时前缓存

本文介绍了CALIBER，一种通过获取推理前后的置信度估计并匹配信息状态的监督目标来校准推理语言模型置信度的方法。它在多个基准测试上显著降低了期望校准误差（最多52.5%），并取得了强劲的Brier分数和AUROC。

0 人收藏 0 人点赞

#calibration

校准用于智能体编码任务的2位GGUF量化（<10Gb）

Reddit r/LocalLLaMA ↗ · 6天前

本文介绍Qwopus3.6-27B-Coder模型的校准2位GGUF量化版本，用于智能体编码任务。实验表明，IQ2_M量化（9.74 GiB）在SWE-rebench基准测试中达到63%的通过率，与Q5_K_M量化相当，但模型大小仅为其一半。

0 人收藏 0 人点赞

#calibration

自我评价之言：大语言模型在机器翻译中的口头化置信度研究

arXiv cs.CL ↗ · 2026-06-17 缓存

本文研究了从大语言模型中提取机器翻译输出置信度的口头化方法，并将其与内部token概率进行了比较。研究发现，尽管两种方法在错误检测和校准方面表现相似，但内部置信度与口头化置信度之间几乎没有相关性。

0 人收藏 0 人点赞

#calibration

选择性信号分类中的虚假安全感：对风险控制的边界紧密性与可交换性的审计

arXiv cs.LG ↗ · 2026-06-16 缓存

本文审计了信号域检测器中用于选择性分类的无分布风险控制方法的可靠性，发现朴素阈值法常常超出其声称的预算，并且可交换性违反导致证书失败。

0 人收藏 0 人点赞

#calibration

弥合反思差距：智能体强化学习中的免费校准奖励

arXiv cs.AI ↗ · 2026-06-15 缓存

LLM 智能体在观察到环境反馈后常常错误评估自身性能，这一问题被称为反思差距。RefGRPO 通过在强化学习中引入零成本校准奖励和动态调度来解决此问题，将不足自信率从 44.4% 降低至 7.7%，并在文本到 SQL 基准上提升了任务准确率。

0 人收藏 0 人点赞

#calibration

恢复知识追踪中被搁置的区分能力：基于经验贝叶斯收缩的逐项偏差校正

arXiv cs.LG ↗ · 2026-06-15 缓存

本文介绍了 SLC（状态空间逻辑校正），该方法通过卡尔曼平滑器进行经验贝叶斯收缩，纠正知识追踪模型中的逐项逻辑偏差，从而在 AUC 指标上优于全局校准技术。

0 人收藏 0 人点赞

#calibration

基于多视图高斯过程的非参数机器文本检测

arXiv cs.LG ↗ · 2026-06-15 缓存

本文提出了一种非参数多视图高斯过程框架，用于检测机器生成的文本，该框架对诸如释义等对抗性操作具有鲁棒性。通过结合互补特征并提供校准的不确定性，它在保留攻击上优于现有检测器。

0 人收藏 0 人点赞

#calibration

TuneJury: 一个用于改进音乐生成偏好对齐的开放度量

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

TuneJury 是一个开源的成对奖励模型，用于文本到音乐生成，提供校准的偏好评分，并泛化到多个下游应用。

0 人收藏 0 人点赞

#calibration

AI代理的战略决策支持

arXiv cs.AI ↗ · 2026-06-12 缓存

本文提出了一个针对AI代理的战略决策支持框架，通过构建一个优化问题来最小化支持使用量，同时控制遗漏支持错误。作者开发了一种在线算法和校准方法，并在信息收集、人机协作和工具使用等多个场景中展示了其有效性。

0 人收藏 0 人点赞

#calibration

推理中的校准漂移：Chain-of-Thought 预算如何导致大型语言模型过度自信

arXiv cs.CL ↗ · 2026-06-11 缓存

本文识别了推理中的校准漂移（CDUR），即增加思维链推理预算会导致大型语言模型在错误答案上系统性地过度自信，并提出了一个假设锁定模型（Hypothesis Lock-In）和一个校准感知的停止规则（CABStop）来缓解该问题。

0 人收藏 0 人点赞

#calibration

朝向校准、公平且准确的深度伪造检测

arXiv cs.LG ↗ · 2026-06-10 缓存

介绍Face-Fairness (FF)，一种用于深度伪造检测中偏见缓解的即插即用框架，其中Face-Feature Tuning (FFT)作为首个无需人口统计标签的公平性方法，能够提升群体准确率并缩小不同人口统计群体间的性能差距。

0 人收藏 0 人点赞

#calibration

校准过度自信而不牺牲置信度：面向LLMs的探针条件化头部干预

arXiv cs.LG ↗ · 2026-06-10 缓存

本文介绍了一种推理时方法——探针条件化头部干预（PCHI），该方法通过在模型可能错误但保持高置信度时条件性地重新缩放注意力头输出，有选择地减少对错误答案的过度自信，同时不会显著降低对正确答案的置信度。

0 人收藏 0 人点赞

#calibration

混合专家语言模型中机器遗忘的路由感知专家校准

arXiv cs.CL ↗ · 2026-06-10 缓存

论文提出TRACE，一种用于混合专家语言模型中机器遗忘的方法，通过重新加权词元级保留损失来校准保留正则化，以解决遗忘-保留路由不匹配问题。实验表明，在多个MoE大语言模型上改善了遗忘-效用权衡。

0 人收藏 0 人点赞

#calibration

使用概率程序训练大型语言模型的归纳推理

arXiv cs.CL ↗ · 2026-06-10 缓存

本文介绍了基于程序的后验训练（PPT），一种利用LLM生成的概率程序来创建分布目标，以微调归纳推理的方法，从而提高了在保留任务和人类对齐基准上的估计准确性和校准能力。

0 人收藏 0 人点赞

#calibration

FAIR-Calib：面向扩散大语言模型训练后量化的前沿感知不稳定性重加权校准

arXiv cs.LG ↗ · 2026-06-08 缓存

本文提出了FAIR-Calib，一种用于扩散大语言模型的两阶段训练后量化框架，解决了迭代精炼过程中令牌提交的不稳定性问题。在低比特量化下，它在LLaDA和Dream模型上取得了最先进的结果。

0 人收藏 0 人点赞

#calibration

TRIAGE：利用LLM对不规则采样的医学时间序列进行可解释风险预测的辩证推理

Hugging Face Daily Papers ↗ · 2026-06-08 缓存

TRIAGE是一个框架，训练LLM从不规则采样的医学时间序列中生成辩证推理以进行连续风险评分，从而改善校准性和可解释性。

0 人收藏 0 人点赞

#calibration

@HuggingPapers: NVIDIA 刚刚在 Hugging Face 上发布了 Anchor Lab 数据集——真实世界的机器人测量数据，用于校准模拟以…

X AI KOLs Following ↗ · 2026-06-05 缓存

NVIDIA 在 Hugging Face 上发布了 Anchor Lab 数据集，该数据集包含真实机器人测量数据，用于校准仿真，以实现零样本的 sim-to-real 部署。

0 人收藏 0 人点赞

#calibration

最佳AI“科学评论员”也是最有自信的——一个关于校准度与技能的基准测试

Reddit r/artificial ↗ · 2026-06-05

文章介绍了Refute基准测试，该测试评估LLM在评论科学论文摘要方面的能力及其校准度。结果显示，最好的批评模型在犯错时往往也最有自信。

0 人收藏 0 人点赞

#calibration

LLM代理中的忠实不确定性：实践中校准与效用权衡

Reddit r/MachineLearning ↗ · 2026-06-04

一位从业者讨论了LLM代理中的校准与效用权衡，分享了基于验证器的流水线经验，该流水线将幻觉工具调用减少了约60%，但引入了延迟成本并丢失了简单的正确答案。

0 人收藏 0 人点赞

calibration

提交意见反馈