evaluation

#evaluation

@ycombinator: Tune in:

X AI KOLs Following ↗ · 5小时前缓存

Koval 是一个面向语音智能体的模拟与可观测性平台，帮助企业安全扩展语音应用。创始人 Brooke Hopkins 分享了语音作为 AI 自然交互界面的潜力，以及语音 AI 与自动驾驶在架构上的相似性。

0 人收藏 0 人点赞

#evaluation

你是评估整个框架还是它的各个部分？

Reddit r/AI_Agents ↗ · 6小时前

这是一个讨论问题，关于是评估机器学习框架的整体，还是分别评估其各个组成部分。

0 人收藏 0 人点赞

#evaluation

一把标尺：图宾根双变量因果方向的同手重新评估，附带无参数压缩基线

arXiv cs.LG ↗ · 18小时前缓存

本文对图宾根因果对数据集上的双变量因果方向方法进行了同手重新评估，引入了一种无参数压缩基线，其表现与SLOPE持平。文章记录了已发表准确率因协议差异而虚高的情况，并公开了所有代码和数据。

0 人收藏 0 人点赞

#evaluation

MEMPROBE：通过隐藏用户状态恢复探测智能体长期记忆

arXiv cs.CL ↗ · 18小时前缓存

MEMPROBE是一个基准，通过从智能体交互后的记忆中重建隐藏用户状态，来评估大语言模型智能体的长期记忆能力。

0 人收藏 0 人点赞

#evaluation

MMed-Bench-IR：一个用于多语言医学信息检索的异构基准

arXiv cs.CL ↗ · 18小时前缓存

MMed-Bench-IR是一个跨六种语言的多语言医学信息检索异构基准，评估跨语言对齐、概念区分和证据检索。它揭示了非英语查询的严重性能下降，凸显了现有仅英语评估的不足。

0 人收藏 0 人点赞

#evaluation

BehaviorBench：面向行为科学任务的基础模型基准测试

arXiv cs.CL ↗ · 18小时前缓存

本文介绍了BehaviorBench，一个用于评估基础模型在行为科学任务（包括行为预测、战略决策、主体特征推断和行为知识应用）上表现的综合基准。它还介绍了Be.FM-1.5，一个经过微调的模型，实现了出色的分布对齐，突显了通用模型与行为适应模型之间的差距。

0 人收藏 0 人点赞

#evaluation

CAVEWOMAN: 大型语言模型在语言输入和输出压缩下的行为研究

arXiv cs.CL ↗ · 18小时前缓存

本文介绍了CAVEWOMAN，一种双通道评估协议，用于评估语言输入和输出压缩对LLM的影响。研究发现，输出压缩可降低成本，而输入压缩则会增加成本并降低准确性，挑战了常见的“穴居人风格”建议。

0 人收藏 0 人点赞

#evaluation

当检索指标误导时：衡量长期工具使用代理中的政策信号

arXiv cs.CL ↗ · 18小时前缓存

本文考察了精确匹配检索召回率作为长期工具使用代理下游政策分类性能代理指标的可靠性。在τ-bench上使用Qwen2.5分类器进行的实验表明，低条款召回率并不会显著降低分类器的准确率，这表明单独使用检索指标在评估政策信号时可能会产生误导。

0 人收藏 0 人点赞

#evaluation

LLM归因指标能否迁移？跨数据集与构念的检索增强生成评估审计

arXiv cs.CL ↗ · 18小时前缓存

本文对RAG系统在三种评估构念下的八种自动归因指标进行了审计，发现同一构念内没有单一指标能在数据集间迁移，挑战了将它们视为可互换的常见做法。

0 人收藏 0 人点赞

#evaluation

DiffusionBench：迈向生成式扩散变换器的全面评估

Hacker News Top ↗ · 20小时前缓存

介绍了DiffusionBench，这是一个统一的基准，用于全面评估生成式扩散变换器，支持多种生成任务，并提供标准化的训练与评估。

0 人收藏 0 人点赞

#evaluation

FFASR排行榜发布：真实场景下的ASR评测

Hugging Face Blog ↗ · 22小时前缓存

介绍FFASR排行榜，这是一个开放、社区驱动的基准测试，用于在真实远场声学条件下评估自动语音识别模型，突显了近场和远场场景之间的显著性能差距。

0 人收藏 0 人点赞

#evaluation

OpenMythos 基准测试

Reddit r/LocalLLaMA ↗ · 昨天

OpenMythos 推出了一个新的开源基准测试，用于评估 AI 模型在神话知识方面的表现。

0 人收藏 0 人点赞

#evaluation

在生产环境中如何评估AI功能？

Reddit r/AI_Agents ↗ · 昨天

讨论AI功能部署到生产环境后的评估方法及挑战。

0 人收藏 0 人点赞

#evaluation

我对8个LLM在医疗记录方面进行了基准测试。幻觉罕见；遗漏需关注。

Reddit r/LocalLLaMA ↗ · 昨天

对8个LLM在医疗记录中的基准测试发现，幻觉很少，但遗漏需要引起注意。

0 人收藏 0 人点赞

#evaluation

@LangChain: 当欧盟AI法案生效时，合规性将成为一项持续的衡量义务。借助LangSmith，您可以……

X AI KOLs Following ↗ · 昨天缓存

LangChain的LangSmith使开发者能够将追踪用作欧盟AI法案的合规证据，并提供可定制的评估器，用于偏见、幻觉、毒性、准确性和对抗性输入等方面的评估。

0 人收藏 0 人点赞

#evaluation

@no_stp_on_snek：微调小型开放模型时真正让我惊讶的事情。注意，我在这方面还算新手，所以有些内容可能看起来很显而易见……

X AI KOLs Timeline ↗ · 昨天缓存

一位开发者分享了微调小型开放模型时令人惊讶的经验教训，包括基础模型往往已经在预期改进点上达到极限，真正的弱点在于行为（屈服），而微调需要仔细的衡量和平衡。

0 人收藏 0 人点赞

#evaluation

DiffusionBench：扩散变换器的全面评估

Hugging Face Daily Papers ↗ · 昨天缓存

研究人员引入了NanoGen，一个用于训练和评估扩散变换器的统一框架，并提出了DiffusionBench，一个结合了ImageNet类别条件和文本到图像生成的全面基准，以更好地评估生成建模的进展。

0 人收藏 0 人点赞

#evaluation

NatureBench：编码代理能否达到《自然》系列论文已发表的最优水平？

Hugging Face Daily Papers ↗ · 昨天缓存

NatureBench是一个跨学科基准测试，包含来自《自然》出版物的90个科学任务，旨在评估AI编码代理实现真正发现的能力。当前代理主要通过方法转化而非科学创新取得成功。

0 人收藏 0 人点赞

#evaluation

为什么评估初创公司会失败（2025）

Hacker News Top ↗ · 昨天缓存

本文探讨了为何独立的人工智能评估初创公司很少能成功，原因包括人才流向技术栈中更有利可图的部分、客户群体狭窄，以及优化压力削弱了评估的效用。

0 人收藏 0 人点赞

#evaluation

@aigclink: Loop模板大全库：loop-library，目前覆盖工程、运维、评估、设计、内容等50个具体场景每个Loop设置了反馈、判断、迭代的完整闭环，并配备了查找、审计、适配、设计四种能力的Skill 告诉AI要干什么，它帮你从目录里匹配最合…

X AI KOLs Timeline ↗ · 2天前缓存

发布了 Loop 模板大全库（loop-library），覆盖工程、运维、评估、设计等50个具体场景，每个 Loop 具备反馈、判断、迭代闭环及四种 Skill 能力，支持模板匹配与自适应修改。

0 人收藏 0 人点赞

evaluation

提交意见反馈