标签
Koval 是一个面向语音智能体的模拟与可观测性平台,帮助企业安全扩展语音应用。创始人 Brooke Hopkins 分享了语音作为 AI 自然交互界面的潜力,以及语音 AI 与自动驾驶在架构上的相似性。
本文对图宾根因果对数据集上的双变量因果方向方法进行了同手重新评估,引入了一种无参数压缩基线,其表现与SLOPE持平。文章记录了已发表准确率因协议差异而虚高的情况,并公开了所有代码和数据。
MEMPROBE是一个基准,通过从智能体交互后的记忆中重建隐藏用户状态,来评估大语言模型智能体的长期记忆能力。
MMed-Bench-IR是一个跨六种语言的多语言医学信息检索异构基准,评估跨语言对齐、概念区分和证据检索。它揭示了非英语查询的严重性能下降,凸显了现有仅英语评估的不足。
本文介绍了BehaviorBench,一个用于评估基础模型在行为科学任务(包括行为预测、战略决策、主体特征推断和行为知识应用)上表现的综合基准。它还介绍了Be.FM-1.5,一个经过微调的模型,实现了出色的分布对齐,突显了通用模型与行为适应模型之间的差距。
本文介绍了CAVEWOMAN,一种双通道评估协议,用于评估语言输入和输出压缩对LLM的影响。研究发现,输出压缩可降低成本,而输入压缩则会增加成本并降低准确性,挑战了常见的“穴居人风格”建议。
本文考察了精确匹配检索召回率作为长期工具使用代理下游政策分类性能代理指标的可靠性。在τ-bench上使用Qwen2.5分类器进行的实验表明,低条款召回率并不会显著降低分类器的准确率,这表明单独使用检索指标在评估政策信号时可能会产生误导。
本文对RAG系统在三种评估构念下的八种自动归因指标进行了审计,发现同一构念内没有单一指标能在数据集间迁移,挑战了将它们视为可互换的常见做法。
介绍了DiffusionBench,这是一个统一的基准,用于全面评估生成式扩散变换器,支持多种生成任务,并提供标准化的训练与评估。
介绍FFASR排行榜,这是一个开放、社区驱动的基准测试,用于在真实远场声学条件下评估自动语音识别模型,突显了近场和远场场景之间的显著性能差距。
LangChain的LangSmith使开发者能够将追踪用作欧盟AI法案的合规证据,并提供可定制的评估器,用于偏见、幻觉、毒性、准确性和对抗性输入等方面的评估。
一位开发者分享了微调小型开放模型时令人惊讶的经验教训,包括基础模型往往已经在预期改进点上达到极限,真正的弱点在于行为(屈服),而微调需要仔细的衡量和平衡。
研究人员引入了NanoGen,一个用于训练和评估扩散变换器的统一框架,并提出了DiffusionBench,一个结合了ImageNet类别条件和文本到图像生成的全面基准,以更好地评估生成建模的进展。
NatureBench是一个跨学科基准测试,包含来自《自然》出版物的90个科学任务,旨在评估AI编码代理实现真正发现的能力。当前代理主要通过方法转化而非科学创新取得成功。
本文探讨了为何独立的人工智能评估初创公司很少能成功,原因包括人才流向技术栈中更有利可图的部分、客户群体狭窄,以及优化压力削弱了评估的效用。
发布了 Loop 模板大全库(loop-library),覆盖工程、运维、评估、设计等50个具体场景,每个 Loop 具备反馈、判断、迭代闭环及四种 Skill 能力,支持模板匹配与自适应修改。