标签
本文概述了CLEF 2026上第二届TalentCLEF挑战赛,该挑战包含英语和西班牙语的职位-人员匹配与职位-技能匹配任务,吸引了超过400份提交。
本文介绍了Engram,一个开源的用于LLM代理的双时态记忆引擎,它通过检索一个紧凑的上下文片段(约9.6k token),在LongMemEval上以混合读取路径融合稠密、词汇、图和时间信号,比完整历史基线(79k token)高出10.4个准确率点。
本文介绍了对Activation Oracles (AOs)的改进,用于解释残差流激活,包括新的对话数据集、多层注入和基于策略的训练。作者还发布了AObench,这是首个用于评估AO质量的全面评估套件。
CausaLab 是一个可扩展的环境,用于评估LLM智能体在交互式因果发现中的表现,同时衡量预测准确性和对潜在因果机制的忠实复现。实验揭示了预测与机制复现之间的差距,突显了当前LLM智能体作为实验性因果推理者的局限性。
LongMINT 是一个基准测试,用于在长时域代理系统中评估多目标干扰下的记忆性能。
EVA-Bench 提出了一个全面的端到端评估框架,用于评估语音代理,模拟真实的多轮对话,并通过新颖的准确度(EVA-A)和体验(EVA-X)指标衡量语音特定故障模式下的性能。该基准包含企业领域的 213 个场景以及用于口音和噪声鲁棒性的扰动套件,揭示了当前系统的显著差距。
本文介绍了 TeamBench,这是一个用于评估在强制角色分离下智能体协同能力的基准测试,旨在解决仅靠提示词定义角色可能绕过预期约束的问题。
本文介绍了 DecodingTrust-Agent Platform (DTap),这是一个用于跨多个领域评估 AI 智能体安全性的可控且交互式红队测试平台。文章还提出了 DTap-Red,一种用于发现攻击策略的自主智能体,以及 DTap-Bench,一个用于风险评估的大规模数据集。
本文介绍了 SWE-WebDevBench,这是一个包含 68 项指标的综合框架,用于评估 AI 驱动的应用开发平台作为虚拟软件代理商的表现。研究强调了当前平台在规范理解、后端可靠性、生产就绪性和安全性方面存在的关键差距。
OpenGame 是一个开源的智能体框架,旨在实现端到端的网页游戏创建。该框架由专用的 GameCoder-27B 模型驱动,并通过全新的 OpenGame-Bench 基准进行评估。
OpenAI 推出 GDPval,这是一个新的评估框架,用于衡量 AI 模型在涵盖美国 GDP 贡献最高的 9 个行业中 44 个职业的经济价值任务上的表现。该基准包括 1,320 个基于实际专业工作产物的专业化任务,代表了从学术基准向更现实的职业评估的进步。