llm-judge

标签

Cards List
#llm-judge

基于认识论权利的LLM二阶偏见评估

arXiv cs.CL · 9小时前 缓存

本文介绍了“二阶偏见”,即LLM在判断有偏见内容时所表现出的偏见,并提出了一种基于认识论权利的推理任务来评估它。实验表明,该任务能够规避安全护栏,并揭示LLM评判者中系统性的群体偏见。

0 人收藏 0 人点赞
#llm-judge

在生产环境中评估AI代理之前我希望知道的事情

Reddit r/AI_Agents · 17小时前

关于在生产环境中评估AI代理的个人经验教训,包括将症状映射到各层、使用轨迹评估、校准LLM评判者、将失败转化为测试用例以及进行对抗性测试。

0 人收藏 0 人点赞
#llm-judge

LLM裁判存在暗电流:用于LLM-as-a-Judge评估的心理测量数据表

arXiv cs.CL · 昨天 缓存

本文介绍了一种心理测量数据表协议,用于将LLM裁判作为测量工具进行评估,测量暗电流、位置虚假偏好、稳定交叉敏感性和目标敏感性。基于三个开放权重模型的案例研究揭示了裁判质量和行为的显著差异。

0 人收藏 0 人点赞
#llm-judge

RealMath-Eval:为何最先进的评判者难以应对真实人类推理

arXiv cs.AI · 2026-06-10 缓存

RealMath-Eval是一个包含224份真实高中数学考试答题的基准测试,揭示了显著的“评估差距”:相较于由LLM生成的合成解决方案(MSE约1.17),最先进的LLM评判者在真实人类推理上的表现较差(MSE约2.96),原因在于人类错误模式具有更高的多样性和惊异度。

0 人收藏 0 人点赞
#llm-judge

构建了一个开源、规范驱动的 AI 开发工具,可在同一功能上并行运行多个智能体,并由 LLM 评审选出最佳实现

Reddit r/AI_Agents · 2026-05-25

Aigon 是一款开源工具,可在同一功能上并行运行多个 AI 编码智能体(功能通过 Markdown 规范定义),并使用 LLM 评审选出最佳实现,配备可视化看板和可选调度功能。

0 人收藏 0 人点赞
#llm-judge

评估了一个RAG聊天机器人,最昂贵的模型表现最差。关于真正影响性能的因素的笔记。

Reddit r/LocalLLaMA · 2026-05-15

对RAG客户支持聊天机器人的详细评估揭示:检索问题常被误认为是LLM问题,启发式评估器具有误导性,去重可提升质量,严格基于文档的约束会在帮助性和准确性之间取舍,而模型扫查可在提升性能的同时大幅降低成本。

0 人收藏 0 人点赞
#llm-judge

CrabTrap:用 LLM 做裁判的 HTTP 代理,为生产环境中的 AI Agent 保驾护航

Hacker News Top · 2026-04-21 缓存

Brex 开源 CrabTrap,一个以 LLM 为裁判的 HTTP 代理,在流量抵达生产服务前对 AI Agent 的请求进行过滤与安全检查。

0 人收藏 0 人点赞
#llm-judge

@pauliusztin_:每天都有100+人问我“怎么学AI评估?”我每次都把11个链接直接粘贴:1. AI评估与可观测(系列)

X AI KOLs Timeline · 2026-04-21

一份每日被反复转发的11个精选链接,帮你掌握AI评估技术,涵盖评估方法、可观测性、LLM-as-judge与智能体评估。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈