quality-scoring

标签

Cards List
#quality-scoring

PoQ-Judge:一种面向去中心化LLM推理中成本感知质量证明的多架构评估框架

arXiv cs.CL · 13小时前 缓存

介绍了PoQ-Judge,一种采用无参考评判模型(TextCNN、MiniLM、DeBERTa)的多架构评估框架,用于去中心化LLM推理中的成本感知质量证明,实现了与地面真值代理的高相关性,同时消除了对参考答案的需求。

0 人收藏 0 人点赞
#quality-scoring

AgentLens: 揭示 SWE-Agent 评估中的 Lucky Pass 问题

Hugging Face Daily Papers · 2026-05-13 缓存

AgentLens 是一个用于软件工程智能体轨迹过程级评估的框架,揭示了超过 10% 的通过轨迹表现出 'Lucky Pass' 行为。它引入了 AgentLens-Bench,一个带有质量评分标注的数据集,并表明按质量评分排序可以显著改变模型排名。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈