标签
PolitNuggets是一个多语言基准,用于评估大型推理模型在代理框架中发现和综合长尾政治事实的能力,通过为400位全球精英构建传记。该基准引入了如FactNet等评估协议,并揭示了当前系统在细粒度细节和效率方面存在困难。
本文研究了大型推理模型中的安全失效问题,即尽管最终答案安全,但推理轨迹中仍会出现有害内容,并提出了一种自适应多原则引导方法来缓解这些风险。
CiPO是一种新颖的机器遗忘框架,用于大型推理模型,它利用迭代偏好优化和反事实推理轨迹,在保持推理能力的同时选择性移除不想要的知识。该方法通过生成逻辑上有效的替代推理路径,解决了依赖于链式思维推理的模型中的遗忘挑战。