标签
介绍了一种有序分类的共形预测方法,该方法使用排序概率分数作为非一致性函数,生成以中位数为中心的连续预测集,并在预测集宽度与有序错误覆盖之间实现了有利平衡。
本文提出了一种方法,通过使用分裂共形预测对原始误差传播曲线进行校准,并利用等变性将证书传输到整个群轨道,来认证具有已知群对称性的潜在世界模型的信任地平线。该方法提供了有限样本保证,并在对称的2D和3D基板上展示了非空洞的证书。
Foresight 是一个用于长时域机器人操作的故障检测框架,它利用基于动作条件的世界模型潜在表示和功能性保形预测来监控轨迹,仅使用最终任务标签进行训练。在仿真和真实机器人任务中均展示了最先进的性能。
本文审计了信号域检测器中用于选择性分类的无分布风险控制方法的可靠性,发现朴素阈值法常常超出其声称的预算,并且可交换性违反导致证书失败。
提出了将分裂共形预测首次应用于基于神经算子的物理模拟,提供了具有有限样本覆盖保证的无分布预测区间,并利用MC Dropout不确定性生成自适应宽度的区间。
本文介绍了LiverRisk,一个用于NAFLD风险预测的机器学习框架,它结合了梯度提升决策树和一致性预测,为个体风险评估提供校准后的无分布覆盖保证,在内部和外部队列上均实现了高AUROC。
本文主张采用序贯推断框架来增强LLM的可信度,通过将交互建模为依赖随机过程,确保在重复使用下的有效性,并实现行为变化的在线监控。
UNIQ引入了一种用于离线强化学习的共形校准方法,该方法基于不确定性对每个状态自适应调整保守性,在部分D4RL基准测试上优于IQL,同时保持内存效率。
RRISE引入了一种学习的代理估计器,将随机平滑认证鲁棒性的蒙特卡洛采样成本降低到单次前向传播,在将每次查询多达10^4次评估替换为一次前向传播的同时,精度保持在0.84个百分点以内。
Ghost Annotator框架结合了共形预测与协同过滤,对内容审核中的LLM行为与人类标签变化进行建模,揭示了大型模型中存在的结构性人口统计偏见。
EnergyMamba提出了一种新颖的时空框架,将图增强选择性状态空间模型与自适应共形分位数回归相结合,实现准确可靠的能源消耗预测并给出不确定性估计,在佛罗里达、纽约和加利福尼亚的真实数据集上取得了性能提升。
COFT是一种无需训练的解码方法,通过应用令牌级公平控制和共形校准来减少大型语言模型思维链推理中的偏见,以最小的计算开销实现30-55%的偏见降低。
介绍Conf-Gen,一个将共形风险控制适配到生成模型的框架,为大语言模型、图像生成器和AI智能体提供形式化的不确定性保证。
本文介绍了一种经验贝叶斯共形预测框架,该框架使用 r 值将评分变异性纳入非一致性得分中,从而提升排序稳定性并缩减集合大小,同时保持对视觉与语言模型的覆盖。
本研究评估了五种用于慢性肾脏病风险预测的机器学习分类器,发现近乎完美的内部性能在分布偏移下失效。强调在临床部署前需要校准稳定性和共形覆盖迁移。
介绍了Conformal Selective Acting (CSA),一种用于RLVR训练的LLM的部署时包装器,它提供了对单个流的任意时刻有效的选择性风险控制,从而在不进行池化或长期平均的情况下,能够在受监管环境中安全部署。
PASC提出了一种用于多阶段NLP和LLM流水线的共形预测方法,该方法提供跨所有阶段的有限样本、无分布假设的联合覆盖保证,相比Bonferroni和独立CP等基线方法,实现了更高的经验覆盖率和效率。
SAGA引入了一种仅解码器变压器,用于终身收入的多步概率预测,并配合自适应共形预测提供可靠的预测区间。基于大型瑞典注册数据集训练,相较于传统参数模型和基线模型取得了显著改进。
本文提出了可重复使用的经过认证的运行时监控器,用于过去时间信号时序逻辑(ptSTL),这些监控器使用语义潜在表示来评估不同规格而无需重新训练,并在行人交叉路口和Waymo驾驶数据上进行了验证。
本文提出了一种基于保形预测的多智能体系统错误归因框架,为识别智能体轨迹中的决定性错误提供统计保证。该方法通过在连续预测集中隔离错误,实现了自动恢复与调试。