llm-judge

#llm-judge

训练治疗性评判器与多智能体系统以实现与人类对齐的心理健康支持

arXiv cs.CL ↗ · 4天前缓存

本文介绍了TheraJudge和TheraAgent，这是一个利用多维度人类对齐评估来改进大语言模型治疗性回复生成的框架，在质量和安全性方面取得了显著提升。

0 人收藏 0 人点赞

#llm-judge

@akshay_pachaar: 如果你使用LLM作为评判，这篇内容就是为你准备的。（请收藏）大多数团队通过调用一个前沿…

X AI KOLs Following ↗ · 4天前缓存

详细介绍了一种训练小型LLM评判器来评估智能体输出的方法，取代了昂贵的前沿模型，并附带一个用于部署的Claude Code插件。

0 人收藏 0 人点赞

#llm-judge

我们测量的是策略还是措辞？LLM数学推理中表面多样性与策略多样性之间的差距

Hugging Face Daily Papers ↗ · 6天前缓存

本文引入了LLM数学推理中的策略多样性概念，表明表面多样性指标是不可靠的替代指标，而直接优化策略多样性仍是一个开放问题。

0 人收藏 0 人点赞

#llm-judge

@HamelHusain: 是的！二元评判对大多数人来说实用得多，因为李克特量表（或评分）有太多陷阱。所有…

X AI KOLs Timeline ↗ · 2026-06-28 缓存

Hamel Husain 分享了一份 AI 评估课程的闪卡和见解，主张在实际的 LLM 评估中使用二元评判而非李克特量表。

0 人收藏 0 人点赞

#llm-judge

基于认识论权利的LLM二阶偏见评估

arXiv cs.CL ↗ · 2026-06-17 缓存

本文介绍了“二阶偏见”，即LLM在判断有偏见内容时所表现出的偏见，并提出了一种基于认识论权利的推理任务来评估它。实验表明，该任务能够规避安全护栏，并揭示LLM评判者中系统性的群体偏见。

0 人收藏 0 人点赞

#llm-judge

在生产环境中评估AI代理之前我希望知道的事情

Reddit r/AI_Agents ↗ · 2026-06-16

关于在生产环境中评估AI代理的个人经验教训，包括将症状映射到各层、使用轨迹评估、校准LLM评判者、将失败转化为测试用例以及进行对抗性测试。

0 人收藏 0 人点赞

#llm-judge

LLM裁判存在暗电流：用于LLM-as-a-Judge评估的心理测量数据表

arXiv cs.CL ↗ · 2026-06-16 缓存

本文介绍了一种心理测量数据表协议，用于将LLM裁判作为测量工具进行评估，测量暗电流、位置虚假偏好、稳定交叉敏感性和目标敏感性。基于三个开放权重模型的案例研究揭示了裁判质量和行为的显著差异。

0 人收藏 0 人点赞

#llm-judge

RealMath-Eval：为何最先进的评判者难以应对真实人类推理

arXiv cs.AI ↗ · 2026-06-10 缓存

RealMath-Eval是一个包含224份真实高中数学考试答题的基准测试，揭示了显著的“评估差距”：相较于由LLM生成的合成解决方案（MSE约1.17），最先进的LLM评判者在真实人类推理上的表现较差（MSE约2.96），原因在于人类错误模式具有更高的多样性和惊异度。

0 人收藏 0 人点赞

#llm-judge

构建了一个开源、规范驱动的 AI 开发工具，可在同一功能上并行运行多个智能体，并由 LLM 评审选出最佳实现

Reddit r/AI_Agents ↗ · 2026-05-25

Aigon 是一款开源工具，可在同一功能上并行运行多个 AI 编码智能体（功能通过 Markdown 规范定义），并使用 LLM 评审选出最佳实现，配备可视化看板和可选调度功能。

0 人收藏 0 人点赞

#llm-judge

评估了一个RAG聊天机器人，最昂贵的模型表现最差。关于真正影响性能的因素的笔记。

Reddit r/LocalLLaMA ↗ · 2026-05-15

对RAG客户支持聊天机器人的详细评估揭示：检索问题常被误认为是LLM问题，启发式评估器具有误导性，去重可提升质量，严格基于文档的约束会在帮助性和准确性之间取舍，而模型扫查可在提升性能的同时大幅降低成本。

0 人收藏 0 人点赞

#llm-judge

CrabTrap：用 LLM 做裁判的 HTTP 代理，为生产环境中的 AI Agent 保驾护航

Hacker News Top ↗ · 2026-04-21 缓存

Brex 开源 CrabTrap，一个以 LLM 为裁判的 HTTP 代理，在流量抵达生产服务前对 AI Agent 的请求进行过滤与安全检查。

0 人收藏 0 人点赞

#llm-judge

@pauliusztin_：每天都有100+人问我“怎么学AI评估？”我每次都把11个链接直接粘贴：1. AI评估与可观测（系列）

X AI KOLs Timeline ↗ · 2026-04-21

一份每日被反复转发的11个精选链接，帮你掌握AI评估技术，涵盖评估方法、可观测性、LLM-as-judge与智能体评估。

0 人收藏 0 人点赞

llm-judge

提交意见反馈