标签
本文研究了top-1崩溃率作为短视界LoRA微调离散扩散语言模型的稳定性监控器的有效性,发现其精度为零,并提出最大梯度范数作为更可靠的替代方案,在LLaDA系列模型上具有更高的精度和F1分数。
本文介绍了CALIBER,一种通过获取推理前后的置信度估计并匹配信息状态的监督目标来校准推理语言模型置信度的方法。它在多个基准测试上显著降低了期望校准误差(最多52.5%),并取得了强劲的Brier分数和AUROC。
本文介绍Qwopus3.6-27B-Coder模型的校准2位GGUF量化版本,用于智能体编码任务。实验表明,IQ2_M量化(9.74 GiB)在SWE-rebench基准测试中达到63%的通过率,与Q5_K_M量化相当,但模型大小仅为其一半。
本文研究了从大语言模型中提取机器翻译输出置信度的口头化方法,并将其与内部token概率进行了比较。研究发现,尽管两种方法在错误检测和校准方面表现相似,但内部置信度与口头化置信度之间几乎没有相关性。
本文审计了信号域检测器中用于选择性分类的无分布风险控制方法的可靠性,发现朴素阈值法常常超出其声称的预算,并且可交换性违反导致证书失败。
LLM 智能体在观察到环境反馈后常常错误评估自身性能,这一问题被称为反思差距。RefGRPO 通过在强化学习中引入零成本校准奖励和动态调度来解决此问题,将不足自信率从 44.4% 降低至 7.7%,并在文本到 SQL 基准上提升了任务准确率。
本文介绍了 SLC(状态空间逻辑校正),该方法通过卡尔曼平滑器进行经验贝叶斯收缩,纠正知识追踪模型中的逐项逻辑偏差,从而在 AUC 指标上优于全局校准技术。
本文提出了一种非参数多视图高斯过程框架,用于检测机器生成的文本,该框架对诸如释义等对抗性操作具有鲁棒性。通过结合互补特征并提供校准的不确定性,它在保留攻击上优于现有检测器。
TuneJury 是一个开源的成对奖励模型,用于文本到音乐生成,提供校准的偏好评分,并泛化到多个下游应用。
本文提出了一个针对AI代理的战略决策支持框架,通过构建一个优化问题来最小化支持使用量,同时控制遗漏支持错误。作者开发了一种在线算法和校准方法,并在信息收集、人机协作和工具使用等多个场景中展示了其有效性。
本文识别了推理中的校准漂移(CDUR),即增加思维链推理预算会导致大型语言模型在错误答案上系统性地过度自信,并提出了一个假设锁定模型(Hypothesis Lock-In)和一个校准感知的停止规则(CABStop)来缓解该问题。
介绍Face-Fairness (FF),一种用于深度伪造检测中偏见缓解的即插即用框架,其中Face-Feature Tuning (FFT)作为首个无需人口统计标签的公平性方法,能够提升群体准确率并缩小不同人口统计群体间的性能差距。
本文介绍了一种推理时方法——探针条件化头部干预(PCHI),该方法通过在模型可能错误但保持高置信度时条件性地重新缩放注意力头输出,有选择地减少对错误答案的过度自信,同时不会显著降低对正确答案的置信度。
论文提出TRACE,一种用于混合专家语言模型中机器遗忘的方法,通过重新加权词元级保留损失来校准保留正则化,以解决遗忘-保留路由不匹配问题。实验表明,在多个MoE大语言模型上改善了遗忘-效用权衡。
本文介绍了基于程序的后验训练(PPT),一种利用LLM生成的概率程序来创建分布目标,以微调归纳推理的方法,从而提高了在保留任务和人类对齐基准上的估计准确性和校准能力。
本文提出了FAIR-Calib,一种用于扩散大语言模型的两阶段训练后量化框架,解决了迭代精炼过程中令牌提交的不稳定性问题。在低比特量化下,它在LLaDA和Dream模型上取得了最先进的结果。
TRIAGE是一个框架,训练LLM从不规则采样的医学时间序列中生成辩证推理以进行连续风险评分,从而改善校准性和可解释性。
NVIDIA 在 Hugging Face 上发布了 Anchor Lab 数据集,该数据集包含真实机器人测量数据,用于校准仿真,以实现零样本的 sim-to-real 部署。
文章介绍了Refute基准测试,该测试评估LLM在评论科学论文摘要方面的能力及其校准度。结果显示,最好的批评模型在犯错时往往也最有自信。
一位从业者讨论了LLM代理中的校准与效用权衡,分享了基于验证器的流水线经验,该流水线将幻觉工具调用减少了约60%,但引入了延迟成本并丢失了简单的正确答案。