标签
本文提出了一种针对智能体系统的离线偏好轨迹评估方法,通过时间偏好而非二元成功指标来比较轨迹。研究表明,该方法将平局比例从约75%降低到35%,从而提升了跨多样化基准的区分能力和数据效率。
本文表明,对于具有多模态后验的逆问题,像RMSE和MAE这样的点态指标在结构上具有误导性,因为最优点估计会压缩后验并扭曲谱特征。为此,本文提出了一种三部分评估协议,使用逐事件分布准确性、谱保真度诊断和基于覆盖的校准来应对这些失败。
本文提出使用带有发音特征的音素识别来评估语音发音合成,解决了点对点距离等传统指标的局限性。在单说话人RT-MRI数据集上的实验表明,该方法能够捕捉语音细节并改进评估。
本文挑战了当前视觉语言模型忠实地融合多模态数据的假设,提出了一种基于信息论的 Modality Translation Protocol,并引入了新指标(Toll、Curse、Fallacy of Seeing)来评估可信度,而非传统的多模态增益。
讨论传统指标(如准确率和点击率)在评估AI代理建议方面的不足,提出更全面的长期评估方法,包括用户理解、权衡和现实问题解决能力。
本文提出了两个新指标——知识可分性得分(KSS)和知识持久性得分(KPS)——用于评估大语言模型在多语言机器遗忘中的跨语言信息删除,弥补了以往单语言评估协议的不足。
Artificial Analysis 推出了 Coding Agent Index,这是一套新的基准测试套件,结合了 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2 和 SWE-Atlas-QnA,旨在评估 AI 编程代理在多样化任务中的表现。
本文介绍了 MIND(Monge 初始距离),这是一种用于评估生成模型的新指标,比标准的 Fréchet 初始距离(FID)具有更高的样本效率、更快的速度以及更强的鲁棒性。
本文批判了自动语音识别(ASR)评估中使用单一参考真实标准的做法,指出这会导致对失语症患者说话人的认识论不公。文章提出了一种新指标——认识论不公距离(EID),并提倡使用WER-Range(词错率范围)来考虑多样化的转录惯例。
DeltaRubric 是一篇研究论文,介绍了一种使用单一多模态大语言模型(MLLM)的两步多模态偏好评估方法,通过联合规划与验证来提高奖励建模的可靠性。
本文介绍了 FD-loss,一种通过将总体规模与批次规模解耦,从而将 Fréchet 距离作为视觉生成的训练目标进行优化的方法。研究证明该方法能提高生成器的质量,并指出 FID 可能无法始终准确反映视觉质量。
OpenAI 分享了在语言模型安全性和滥用方面吸取的经验教训,讨论了衡量风险的挑战、现有基准的局限性,以及他们开发的新型毒性和政策违规评估指标。该文章还强调了对劳动力市场影响的担忧,以及继续研究大规模AI部署社会影响测量的必要性。
# 测试对未知对手的鲁棒性 来源:[https://openai.com/index/testing-robustness/](https://openai.com/index/testing-robustness/) OpenAI 我们开发了一种方法来评估神经网络分类器是否能可靠地抵御训练期间未见过的对抗性攻击。我们的方法产生了一个新的指标 UAR(未知攻击鲁棒性),它评估单个模型对意外攻击的鲁棒性,并强调了需要在更多样化的未知攻击范围内测量性能
本文提出使用退火重要性采样(Annealed Importance Sampling)来评估基于解码器的生成模型(VAE、GAN等)的对数似然,解决了难以计算似然估计的问题。作者验证了该方法的有效性,并提供了评估代码来分析模型性能、过拟合情况和模式覆盖度。