quality-scoring

#quality-scoring

PoQ-Judge：一种面向去中心化LLM推理中成本感知质量证明的多架构评估框架

arXiv cs.CL ↗ · 13小时前缓存

介绍了PoQ-Judge，一种采用无参考评判模型（TextCNN、MiniLM、DeBERTa）的多架构评估框架，用于去中心化LLM推理中的成本感知质量证明，实现了与地面真值代理的高相关性，同时消除了对参考答案的需求。

0 人收藏 0 人点赞

#quality-scoring

Hugging Face Daily Papers ↗ · 2026-05-13 缓存

AgentLens 是一个用于软件工程智能体轨迹过程级评估的框架，揭示了超过 10% 的通过轨迹表现出 'Lucky Pass' 行为。它引入了 AgentLens-Bench，一个带有质量评分标注的数据集，并表明按质量评分排序可以显著改变模型排名。

0 人收藏 0 人点赞