标签
本文提出了一种决策理论框架,仅利用模型输出和结果来检测预测模型中的数据泄露,证明了某些泄露类型无需外部基准或训练代码即可识别。
本文主张,在AI价值对齐中聚合道德评估时必须考虑语境因素,表明忽略语境可能导致违反弱帕累托原则,类似于辛普森悖论。
本文形式化了监督学习中贝叶斯充分表示(Bayes-sufficient representations)的概念,定义了在给定损失函数下,一个表示何时恰好保留了贝叶斯最优预测所需的信息。文章引入了贝叶斯商(Bayes quotient)作为依赖于损失函数的典范对象,并将该框架与性质激发(property elicitation)相关联,通过实验阐明了充分性、最小性与冗余保留信息之间的区别。
本文提出了一种基于树结构的形式化框架,用于对多智能体人机交互中的互补性进行建模,并证明了在自然条件下,互补性在回归任务中可以实现,但在分类任务中受到阻碍——这些条件涉及局部聚合规则和损失函数。
研究人员在圣彼得堡博弈中评估了28个LLM,以区分风险决策中的结果层面相似性与机制层面一致性,发现LLM通常产生类似人类的出价,但缺乏潜在的人类一致推理机制。该研究表明,行为对齐可能是表面的,敦促高风险评估应超越结果相似性。
本文通过为私有随机决策理论在线学习提供最优间隔依赖遗憾算法,解决了COLT开放问题,达到了阶 (log K)/Δ_min + (log K)/ε 的下界。
本文展示了首个 infra-Bayesian 强化学习智能体的实现,证明其在最坏情况遗憾上优于经典 RL,并能最优地处理纽科姆问题,为模型误设定下的鲁棒性迈出了一步。
本文推导了人机团队的紧密理论界限,证明了基于置信度的聚合何时能产生互补效应,并确立了在特定错误相关性下的不可能性结果。