evaluation-benchmark

#evaluation-benchmark

TalentCLEF 2026 概述：面向人力资本管理的技能与职位名称智能

arXiv cs.CL ↗ · 9小时前缓存

本文概述了CLEF 2026上第二届TalentCLEF挑战赛，该挑战包含英语和西班牙语的职位-人员匹配与职位-技能匹配任务，吸引了超过400份提交。

0 人收藏 0 人点赞

#evaluation-benchmark

更少的上下文，更高的准确性：一种用于LLM代理的双时态记忆引擎，其中精简检索的上下文胜过了完整历史

arXiv cs.CL ↗ · 2026-06-10 缓存

本文介绍了Engram，一个开源的用于LLM代理的双时态记忆引擎，它通过检索一个紧凑的上下文片段（约9.6k token），在LongMemEval上以混合读取路径融合稠密、词汇、图和时间信号，比完整历史基线（79k token）高出10.4个准确率点。

0 人收藏 0 人点赞

#evaluation-benchmark

构建更好的Activation Oracles

arXiv cs.LG ↗ · 2026-06-03 缓存

本文介绍了对Activation Oracles (AOs)的改进，用于解释残差流激活，包括新的对话数据集、多层注入和基于策略的训练。作者还发布了AObench，这是首个用于评估AO质量的全面评估套件。

0 人收藏 0 人点赞

#evaluation-benchmark

CausaLab: 面向AI科学家的可扩展交互式因果发现环境

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

CausaLab 是一个可扩展的环境，用于评估LLM智能体在交互式因果发现中的表现，同时衡量预测准确性和对潜在因果机制的忠实复现。实验揭示了预测与机制复现之间的差距，突显了当前LLM智能体作为实验性因果推理者的局限性。

0 人收藏 0 人点赞

#evaluation-benchmark

@_akhaliq: LongMINT 在长时域代理系统中评估多目标干扰下的记忆

X AI KOLs Following ↗ · 2026-05-21 缓存

LongMINT 是一个基准测试，用于在长时域代理系统中评估多目标干扰下的记忆性能。

0 人收藏 0 人点赞

#evaluation-benchmark

EVA-Bench：评估语音代理的新型端到端框架

Hugging Face Daily Papers ↗ · 2026-05-13 缓存

EVA-Bench 提出了一个全面的端到端评估框架，用于评估语音代理，模拟真实的多轮对话，并通过新颖的准确度（EVA-A）和体验（EVA-X）指标衡量语音特定故障模式下的性能。该基准包含企业领域的 213 个场景以及用于口音和噪声鲁棒性的扰动套件，揭示了当前系统的显著差距。

0 人收藏 0 人点赞

#evaluation-benchmark

TeamBench：在强制角色分离下评估智能体协同

arXiv cs.AI ↗ · 2026-05-11 缓存

本文介绍了 TeamBench，这是一个用于评估在强制角色分离下智能体协同能力的基准测试，旨在解决仅靠提示词定义角色可能绕过预期约束的问题。

0 人收藏 0 人点赞

#evaluation-benchmark

DecodingTrust-Agent Platform (DTap)：一个针对 AI 智能体的可控交互式红队测试平台

Hugging Face Daily Papers ↗ · 2026-05-06 缓存

本文介绍了 DecodingTrust-Agent Platform (DTap)，这是一个用于跨多个领域评估 AI 智能体安全性的可控且交互式红队测试平台。文章还提出了 DTap-Red，一种用于发现攻击策略的自主智能体，以及 DTap-Bench，一个用于风险评估的大规模数据集。

0 人收藏 0 人点赞

#evaluation-benchmark

SWE-WebDevBench：评估编码智能体应用平台作为虚拟软件代理商的能力

Hugging Face Daily Papers ↗ · 2026-05-06 缓存

本文介绍了 SWE-WebDevBench，这是一个包含 68 项指标的综合框架，用于评估 AI 驱动的应用开发平台作为虚拟软件代理商的表现。研究强调了当前平台在规范理解、后端可靠性、生产就绪性和安全性方面存在的关键差距。

0 人收藏 0 人点赞

#evaluation-benchmark

OpenGame：面向游戏开发的开放智能体编码框架

Papers with Code Trending ↗ · 2026-04-20 缓存

OpenGame 是一个开源的智能体框架，旨在实现端到端的网页游戏创建。该框架由专用的 GameCoder-27B 模型驱动，并通过全新的 OpenGame-Bench 基准进行评估。

0 人收藏 0 人点赞

#evaluation-benchmark

衡量我们的模型在实际任务中的性能

OpenAI Blog ↗ · 2025-09-25 缓存

OpenAI 推出 GDPval，这是一个新的评估框架，用于衡量 AI 模型在涵盖美国 GDP 贡献最高的 9 个行业中 44 个职业的经济价值任务上的表现。该基准包括 1,320 个基于实际专业工作产物的专业化任务，代表了从学术基准向更现实的职业评估的进步。

0 人收藏 0 人点赞

evaluation-benchmark

提交意见反馈