llm-judge

标签

Cards List
#llm-judge

评估了一个RAG聊天机器人,最昂贵的模型表现最差。关于真正影响性能的因素的笔记。

Reddit r/LocalLLaMA · 15小时前

对RAG客户支持聊天机器人的详细评估揭示:检索问题常被误认为是LLM问题,启发式评估器具有误导性,去重可提升质量,严格基于文档的约束会在帮助性和准确性之间取舍,而模型扫查可在提升性能的同时大幅降低成本。

0 人收藏 0 人点赞
#llm-judge

CrabTrap:用 LLM 做裁判的 HTTP 代理,为生产环境中的 AI Agent 保驾护航

Hacker News Top · 2026-04-21 缓存

Brex 开源 CrabTrap,一个以 LLM 为裁判的 HTTP 代理,在流量抵达生产服务前对 AI Agent 的请求进行过滤与安全检查。

0 人收藏 0 人点赞
#llm-judge

@pauliusztin_:每天都有100+人问我“怎么学AI评估?”我每次都把11个链接直接粘贴:1. AI评估与可观测(系列)

X AI KOLs Timeline · 2026-04-21

一份每日被反复转发的11个精选链接,帮你掌握AI评估技术,涵盖评估方法、可观测性、LLM-as-judge与智能体评估。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈