标签
本文实证研究了在无需训练的LLM压缩方法ROCKET中,使分配成本与输出空间目标对齐是否能提升压缩模型保真度。结果显示准确率与困惑度之间存在权衡,且在高压缩比下效果更为显著。
介绍PEBS,一种用于RLHF中奖励模型校准的每个评分者经验贝叶斯收缩估计器,在PRISM上将用户内RMSE降低了超过8.5%,在PluriHarms上降低了超过9.6%。
新研究指出,规模化AI模型中看似出现的“全局收敛”实际是模型宽度和深度选择偏差造成的统计幻觉,一旦校准即消失。
Qwen3.5 0.8B使用SpectralQuant的校准感知Q4_K_M量化版,与标准llama.cpp Q4_K_M量化版相比,恢复了96.5%的BF16性能差距。
本文提出了Robust-TO,一个智能视频理解框架,它整合了每帧的可信度来解决盲信任问题,在真实扰动下实现了显著的精度提升。
本文评估了用于测量大语言模型(LLM)越狱研究中攻击成功率(ASR)的自动化评判器的可靠性,发现安全分类器和LLM作为评判器都存在严重的校准和对抗鲁棒性问题,从而削弱了所报告的ASR数值的可信度。
本文研究了在大型语言模型(LLM)中剪枝注意力层对解释忠实性和置信度校准的影响,发现准确率通常保持较高,但可解释性和可靠性下降,凸显了模型置信度、可解释性与准确率之间的失调。
本文提出了一种方法,通过使用分裂共形预测对原始误差传播曲线进行校准,并利用等变性将证书传输到整个群轨道,来认证具有已知群对称性的潜在世界模型的信任地平线。该方法提供了有限样本保证,并在对称的2D和3D基板上展示了非空洞的证书。
本文研究了top-1崩溃率作为短视界LoRA微调离散扩散语言模型的稳定性监控器的有效性,发现其精度为零,并提出最大梯度范数作为更可靠的替代方案,在LLaDA系列模型上具有更高的精度和F1分数。
本文介绍了CALIBER,一种通过获取推理前后的置信度估计并匹配信息状态的监督目标来校准推理语言模型置信度的方法。它在多个基准测试上显著降低了期望校准误差(最多52.5%),并取得了强劲的Brier分数和AUROC。
本文介绍Qwopus3.6-27B-Coder模型的校准2位GGUF量化版本,用于智能体编码任务。实验表明,IQ2_M量化(9.74 GiB)在SWE-rebench基准测试中达到63%的通过率,与Q5_K_M量化相当,但模型大小仅为其一半。
本文研究了从大语言模型中提取机器翻译输出置信度的口头化方法,并将其与内部token概率进行了比较。研究发现,尽管两种方法在错误检测和校准方面表现相似,但内部置信度与口头化置信度之间几乎没有相关性。
本文审计了信号域检测器中用于选择性分类的无分布风险控制方法的可靠性,发现朴素阈值法常常超出其声称的预算,并且可交换性违反导致证书失败。
LLM 智能体在观察到环境反馈后常常错误评估自身性能,这一问题被称为反思差距。RefGRPO 通过在强化学习中引入零成本校准奖励和动态调度来解决此问题,将不足自信率从 44.4% 降低至 7.7%,并在文本到 SQL 基准上提升了任务准确率。
本文介绍了 SLC(状态空间逻辑校正),该方法通过卡尔曼平滑器进行经验贝叶斯收缩,纠正知识追踪模型中的逐项逻辑偏差,从而在 AUC 指标上优于全局校准技术。
本文提出了一种非参数多视图高斯过程框架,用于检测机器生成的文本,该框架对诸如释义等对抗性操作具有鲁棒性。通过结合互补特征并提供校准的不确定性,它在保留攻击上优于现有检测器。
TuneJury 是一个开源的成对奖励模型,用于文本到音乐生成,提供校准的偏好评分,并泛化到多个下游应用。
本文提出了一个针对AI代理的战略决策支持框架,通过构建一个优化问题来最小化支持使用量,同时控制遗漏支持错误。作者开发了一种在线算法和校准方法,并在信息收集、人机协作和工具使用等多个场景中展示了其有效性。
本文识别了推理中的校准漂移(CDUR),即增加思维链推理预算会导致大型语言模型在错误答案上系统性地过度自信,并提出了一个假设锁定模型(Hypothesis Lock-In)和一个校准感知的停止规则(CABStop)来缓解该问题。
介绍Face-Fairness (FF),一种用于深度伪造检测中偏见缓解的即插即用框架,其中Face-Feature Tuning (FFT)作为首个无需人口统计标签的公平性方法,能够提升群体准确率并缩小不同人口统计群体间的性能差距。