evaluation-benchmark

标签

Cards List
#evaluation-benchmark

TalentCLEF 2026 概述:面向人力资本管理的技能与职位名称智能

arXiv cs.CL · 9小时前 缓存

本文概述了CLEF 2026上第二届TalentCLEF挑战赛,该挑战包含英语和西班牙语的职位-人员匹配与职位-技能匹配任务,吸引了超过400份提交。

0 人收藏 0 人点赞
#evaluation-benchmark

更少的上下文,更高的准确性:一种用于LLM代理的双时态记忆引擎,其中精简检索的上下文胜过了完整历史

arXiv cs.CL · 2026-06-10 缓存

本文介绍了Engram,一个开源的用于LLM代理的双时态记忆引擎,它通过检索一个紧凑的上下文片段(约9.6k token),在LongMemEval上以混合读取路径融合稠密、词汇、图和时间信号,比完整历史基线(79k token)高出10.4个准确率点。

0 人收藏 0 人点赞
#evaluation-benchmark

构建更好的Activation Oracles

arXiv cs.LG · 2026-06-03 缓存

本文介绍了对Activation Oracles (AOs)的改进,用于解释残差流激活,包括新的对话数据集、多层注入和基于策略的训练。作者还发布了AObench,这是首个用于评估AO质量的全面评估套件。

0 人收藏 0 人点赞
#evaluation-benchmark

CausaLab: 面向AI科学家的可扩展交互式因果发现环境

Hugging Face Daily Papers · 2026-05-28 缓存

CausaLab 是一个可扩展的环境,用于评估LLM智能体在交互式因果发现中的表现,同时衡量预测准确性和对潜在因果机制的忠实复现。实验揭示了预测与机制复现之间的差距,突显了当前LLM智能体作为实验性因果推理者的局限性。

0 人收藏 0 人点赞
#evaluation-benchmark

@_akhaliq: LongMINT 在长时域代理系统中评估多目标干扰下的记忆

X AI KOLs Following · 2026-05-21 缓存

LongMINT 是一个基准测试,用于在长时域代理系统中评估多目标干扰下的记忆性能。

0 人收藏 0 人点赞
#evaluation-benchmark

EVA-Bench:评估语音代理的新型端到端框架

Hugging Face Daily Papers · 2026-05-13 缓存

EVA-Bench 提出了一个全面的端到端评估框架,用于评估语音代理,模拟真实的多轮对话,并通过新颖的准确度(EVA-A)和体验(EVA-X)指标衡量语音特定故障模式下的性能。该基准包含企业领域的 213 个场景以及用于口音和噪声鲁棒性的扰动套件,揭示了当前系统的显著差距。

0 人收藏 0 人点赞
#evaluation-benchmark

TeamBench:在强制角色分离下评估智能体协同

arXiv cs.AI · 2026-05-11 缓存

本文介绍了 TeamBench,这是一个用于评估在强制角色分离下智能体协同能力的基准测试,旨在解决仅靠提示词定义角色可能绕过预期约束的问题。

0 人收藏 0 人点赞
#evaluation-benchmark

DecodingTrust-Agent Platform (DTap):一个针对 AI 智能体的可控交互式红队测试平台

Hugging Face Daily Papers · 2026-05-06 缓存

本文介绍了 DecodingTrust-Agent Platform (DTap),这是一个用于跨多个领域评估 AI 智能体安全性的可控且交互式红队测试平台。文章还提出了 DTap-Red,一种用于发现攻击策略的自主智能体,以及 DTap-Bench,一个用于风险评估的大规模数据集。

0 人收藏 0 人点赞
#evaluation-benchmark

SWE-WebDevBench:评估编码智能体应用平台作为虚拟软件代理商的能力

Hugging Face Daily Papers · 2026-05-06 缓存

本文介绍了 SWE-WebDevBench,这是一个包含 68 项指标的综合框架,用于评估 AI 驱动的应用开发平台作为虚拟软件代理商的表现。研究强调了当前平台在规范理解、后端可靠性、生产就绪性和安全性方面存在的关键差距。

0 人收藏 0 人点赞
#evaluation-benchmark

OpenGame:面向游戏开发的开放智能体编码框架

Papers with Code Trending · 2026-04-20 缓存

OpenGame 是一个开源的智能体框架,旨在实现端到端的网页游戏创建。该框架由专用的 GameCoder-27B 模型驱动,并通过全新的 OpenGame-Bench 基准进行评估。

0 人收藏 0 人点赞
#evaluation-benchmark

衡量我们的模型在实际任务中的性能

OpenAI Blog · 2025-09-25 缓存

OpenAI 推出 GDPval,这是一个新的评估框架,用于衡量 AI 模型在涵盖美国 GDP 贡献最高的 9 个行业中 44 个职业的经济价值任务上的表现。该基准包括 1,320 个基于实际专业工作产物的专业化任务,代表了从学术基准向更现实的职业评估的进步。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈