标签
介绍了一种有序分类的共形预测方法,该方法使用排序概率分数作为非一致性函数,生成以中位数为中心的连续预测集,并在预测集宽度与有序错误覆盖之间实现了有利平衡。
本文通过贝叶斯控制器将编码代理的编排形式化为成本敏感的序贯假设检验,该控制器动态决定何时收集证据、细化、验证或停止。在六个生成器和九个基准测试上的实验表明,当验证成本高昂且批评者信息丰富但不完美时,贝叶斯控制最为有价值。
本文介绍了CALIBER,一种通过获取推理前后的置信度估计并匹配信息状态的监督目标来校准推理语言模型置信度的方法。它在多个基准测试上显著降低了期望校准误差(最多52.5%),并取得了强劲的Brier分数和AUROC。
本文提出了一个用于AI辅助法律发现的Human-on-the-Loop编排框架,引入了代理故障分类法和四层验证架构,以降低特权放弃风险。
提出REEF-GP,一种事后不确定性量化框架,通过将高斯过程拟合到冻结神经算子的残差上并利用其内部嵌入,以低成本实现几何感知且校准的不确定性。
一种用于从OCO-2光谱中概率反演CO2柱浓度的深度学习框架,采用拉普拉斯近似和归一化流,相比传统方法实现了更快的推理和更好的不确定性量化。
本文提出了一种通用的自适应序贯采样方法,用于构建多项式混沌展开代理模型,以改善多输出工程结构中的不确定性量化,同时平衡方差贡献和空间探索。
本文使用机制可解释性和保形不确定性量化方法,对基于学习的远程单次条纹投影轮廓测量中的形状先验捷径进行了诊断与修复。所提出的PhiCalNet架构通过将深度回归替换为包裹相位输出和可微标定层,使物体平均绝对误差降低了3.3倍。
本文提出了一个针对AI代理的战略决策支持框架,通过构建一个优化问题来最小化支持使用量,同时控制遗漏支持错误。作者开发了一种在线算法和校准方法,并在信息收集、人机协作和工具使用等多个场景中展示了其有效性。
本文提出了针对偏微分方程的结构保持神经替代模型,该模型集成了Gaussian process regression以提供可处理的不确定性量化,从而能够实现具有闭式误差估计的实时仿真。
提出了将分裂共形预测首次应用于基于神经算子的物理模拟,提供了具有有限样本覆盖保证的无分布预测区间,并利用MC Dropout不确定性生成自适应宽度的区间。
Co-GLANCE 是一种用于异构机器人团队的实时机载感知与决策系统,它将视觉语言模型的能力蒸馏为高效模型,并利用保形预测与选择性弃权来量化并解决感知不确定性,相比基于云端的视觉语言模型基线高出 25-36%,同时延迟降低了 350 倍。
本文提出全局-局部不确定性(GLU),一种无监督单次评分方法,融合词元级局部熵与隐藏状态几何全局熵,用于LLM不确定性量化,证明两者近乎正交,共同捕捉自信但错误的失效模式。
本文提出了一种基于条件归一化流的不确定性感知多保真度框架,用于改进复杂多尺度系统的降阶模型(ROM)的预测准确性。该方法学习从低保真度到高保真度系数的概率映射,并在涡旋合并问题上进行了验证,展示了改进的准确性和不确定性量化。
本文介绍了GNOVA,一种GRU-神经常微分方程变分自编码器框架,用于从常规临床数据中重建和预测阿尔茨海默病的认知轨迹,无需昂贵的神经影像或生物标志物,在ADNI数据集上实现了低误差和不确定性估计。
关于符号回归中不确定性量化的全面综述,回顾了频率学派、贝叶斯以及模型选择方法,以解决在现实决策过程中缺乏可靠性支持的问题。
本文提出TRUST方法,将不确定性量化融入强化学习奖励设计,以改进LLM智能体的工具调用决策,提升决策质量并保持可靠的不确定性估计。
本文介绍了A4D,一个将视觉观察映射到围绕可供性(例如“可移动”)构建的共享潜在空间中的框架,用于机器人规划。它在现有可供性上实现了94%的推理准确率,比现有最优方法高出15%,并且实现了100倍的推理速度提升,对未见过的物体功能具有更强的泛化能力。
本文提出了一种扩展的结构化空间先验族,结合总变分(TV)与ℓ_p范数,用于贝叶斯T1映射,实现不确定性量化。该方法在合成和真实MRI数据集上进行了评估,显示出改善的空间一致性和降低的不确定性。
ADAPTOOD 是一种新颖框架,利用数据不确定性量化分布偏移的严重程度,并指导心电图时间序列模型在分布外设置下的微调。它将不确定性估计与低秩模型更新和自适应超参数优化相结合,在现有OOD自适应方法基础上实现了高达7%的准确率提升和12.9%的精确度提升。