标签
本文介绍了TheraJudge和TheraAgent,这是一个利用多维度人类对齐评估来改进大语言模型治疗性回复生成的框架,在质量和安全性方面取得了显著提升。
详细介绍了一种训练小型LLM评判器来评估智能体输出的方法,取代了昂贵的前沿模型,并附带一个用于部署的Claude Code插件。
本文引入了LLM数学推理中的策略多样性概念,表明表面多样性指标是不可靠的替代指标,而直接优化策略多样性仍是一个开放问题。
Hamel Husain 分享了一份 AI 评估课程的闪卡和见解,主张在实际的 LLM 评估中使用二元评判而非李克特量表。
本文介绍了“二阶偏见”,即LLM在判断有偏见内容时所表现出的偏见,并提出了一种基于认识论权利的推理任务来评估它。实验表明,该任务能够规避安全护栏,并揭示LLM评判者中系统性的群体偏见。
关于在生产环境中评估AI代理的个人经验教训,包括将症状映射到各层、使用轨迹评估、校准LLM评判者、将失败转化为测试用例以及进行对抗性测试。
本文介绍了一种心理测量数据表协议,用于将LLM裁判作为测量工具进行评估,测量暗电流、位置虚假偏好、稳定交叉敏感性和目标敏感性。基于三个开放权重模型的案例研究揭示了裁判质量和行为的显著差异。
RealMath-Eval是一个包含224份真实高中数学考试答题的基准测试,揭示了显著的“评估差距”:相较于由LLM生成的合成解决方案(MSE约1.17),最先进的LLM评判者在真实人类推理上的表现较差(MSE约2.96),原因在于人类错误模式具有更高的多样性和惊异度。
Aigon 是一款开源工具,可在同一功能上并行运行多个 AI 编码智能体(功能通过 Markdown 规范定义),并使用 LLM 评审选出最佳实现,配备可视化看板和可选调度功能。
对RAG客户支持聊天机器人的详细评估揭示:检索问题常被误认为是LLM问题,启发式评估器具有误导性,去重可提升质量,严格基于文档的约束会在帮助性和准确性之间取舍,而模型扫查可在提升性能的同时大幅降低成本。
Brex 开源 CrabTrap,一个以 LLM 为裁判的 HTTP 代理,在流量抵达生产服务前对 AI Agent 的请求进行过滤与安全检查。
一份每日被反复转发的11个精选链接,帮你掌握AI评估技术,涵盖评估方法、可观测性、LLM-as-judge与智能体评估。