benchmark

标签

Cards List
#benchmark

GLM-5.2 在 45 个 terminal-bench 编码代理任务上与 Claude Opus 持平,成本不到一半(内含完整方法及失败日志)

Reddit r/ArtificialInteligence · 4小时前

GLM-5.2 以更低成本在 45 个编码代理任务上与 Claude Opus 持平,其中 43 个任务结果完全相同。

0 人收藏 0 人点赞
#benchmark

你是评估整个框架还是它的各个部分?

Reddit r/AI_Agents · 7小时前

这是一个讨论问题,关于是评估机器学习框架的整体,还是分别评估其各个组成部分。

0 人收藏 0 人点赞
#benchmark

我对同一项目测试了8个AI编程代理。结果:四分之一个可用于生产,总成本1.94美元。

Reddit r/ArtificialInteligence · 15小时前

对8个AI编程代理在构建VPS管理工具包上的基准测试发现,四个实现中只有一个可投入生产,总成本1.94美元,规划与代码成本比为1:28。

0 人收藏 0 人点赞
#benchmark

用于设备端故障检测的轻量级Transformer模型:资源受限部署的基准研究

arXiv cs.LG · 19小时前 缓存

一项基准研究,在三个公开数据集上对比了传统机器学习方法(随机森林、XGBoost、SVM、逻辑回归)与轻量级Transformer变体(DistilBERT、TinyBERT、MobileBERT)在设备端故障检测中的表现。传统机器学习在远小得多的资源占用下实现了有竞争力的准确率,而TinyBERT-4L是最便于部署的Transformer模型。

0 人收藏 0 人点赞
#benchmark

一把标尺:图宾根双变量因果方向的同手重新评估,附带无参数压缩基线

arXiv cs.LG · 19小时前 缓存

本文对图宾根因果对数据集上的双变量因果方向方法进行了同手重新评估,引入了一种无参数压缩基线,其表现与SLOPE持平。文章记录了已发表准确率因协议差异而虚高的情况,并公开了所有代码和数据。

0 人收藏 0 人点赞
#benchmark

MEMPROBE:通过隐藏用户状态恢复探测智能体长期记忆

arXiv cs.CL · 19小时前 缓存

MEMPROBE是一个基准,通过从智能体交互后的记忆中重建隐藏用户状态,来评估大语言模型智能体的长期记忆能力。

0 人收藏 0 人点赞
#benchmark

AGORA: 基于档案的智能体工作场所文档推理基准

arXiv cs.CL · 19小时前 缓存

AGORA 是一个新的基准,用于评估大型语言模型在工作场所文档上进行基于档案的推理任务,包含 362 个问题,涉及 9,664 份真实文档。最强模型仅达到 59.4% 的准确率,凸显出巨大的改进空间。

0 人收藏 0 人点赞
#benchmark

AutoSpecNER:用于车辆规格提取的细粒度命名实体识别数据集

arXiv cs.CL · 19小时前 缓存

介绍AutoSpecNER,一个由专家标注的车辆列表细粒度命名实体识别数据集,包含659条广告,标注了15种实体类型。基准测试结果显示,DeBERTa取得了90%的微平均F1分数,优于基于规则的方法和大型语言模型。

0 人收藏 0 人点赞
#benchmark

MMed-Bench-IR:一个用于多语言医学信息检索的异构基准

arXiv cs.CL · 19小时前 缓存

MMed-Bench-IR是一个跨六种语言的多语言医学信息检索异构基准,评估跨语言对齐、概念区分和证据检索。它揭示了非英语查询的严重性能下降,凸显了现有仅英语评估的不足。

0 人收藏 0 人点赞
#benchmark

SP-Mind:用于空间蛋白质组学分析的自主推理智能体

arXiv cs.AI · 19小时前 缓存

SP-Mind是一个自主AI智能体,统一了空间蛋白质组学分析流程,将自然语言查询转换为端到端的分析工作流,无需微调,并在新的SP-Bench基准测试中取得了最先进的性能。

0 人收藏 0 人点赞
#benchmark

BehaviorBench:面向行为科学任务的基础模型基准测试

arXiv cs.CL · 19小时前 缓存

本文介绍了BehaviorBench,一个用于评估基础模型在行为科学任务(包括行为预测、战略决策、主体特征推断和行为知识应用)上表现的综合基准。它还介绍了Be.FM-1.5,一个经过微调的模型,实现了出色的分布对齐,突显了通用模型与行为适应模型之间的差距。

0 人收藏 0 人点赞
#benchmark

MedBench v5:面向临床多模态模型的动态、过程导向且具有幻觉感知能力的基准测试

arXiv cs.CL · 19小时前 缓存

MedBench v5 是一个面向临床多模态模型的动态、过程导向的基准测试,集成了幻觉检测和压力测试,超越静态问答,评估在信息流压力下的推理和稳定性。

0 人收藏 0 人点赞
#benchmark

Metis:桥接文本与代码记忆以实现自我进化智能体

arXiv cs.CL · 19小时前 缓存

Metis 开展了一项对比文本记忆与代码记忆的受控研究,发现两者具有互补的权衡特性。它提出了一种分层双表示记忆系统,在 AppWorld 基准测试中,任务准确率最高提升 20.6%,执行成本最高降低 22.8%。

0 人收藏 0 人点赞
#benchmark

T2D-Bench:基于多层临床-生活方式知识图谱的2型糖尿病大语言模型输出证据门控评估

arXiv cs.AI · 19小时前 缓存

T2D-Bench是一个基于多层临床-生活方式知识图谱的基准测试,用于评估大语言模型在2型糖尿病方面的输出。结果显示,当前大语言模型约有三分之一的情况未能通过证据路径检查。

0 人收藏 0 人点赞
#benchmark

语言模型代理能否成为机械可解释性中有用的电路解释器?

arXiv cs.AI · 19小时前 缓存

本文研究了语言模型代理能否自动化机械可解释性中的解释阶段,为此引入了AgenticInterpBench基准(包含84个半合成电路)和HyVE解释器(通过迭代假设、验证和解释电路组件)。实验显示出潜力,但可靠的验证仍是关键障碍。

0 人收藏 0 人点赞
#benchmark

LLM归因指标能否迁移?跨数据集与构念的检索增强生成评估审计

arXiv cs.CL · 19小时前 缓存

本文对RAG系统在三种评估构念下的八种自动归因指标进行了审计,发现同一构念内没有单一指标能在数据集间迁移,挑战了将它们视为可互换的常见做法。

0 人收藏 0 人点赞
#benchmark

RIFT-Bench:面向智能体AI系统的动态红队测试方法

arXiv cs.AI · 19小时前 缓存

RIFT-Bench是一种新的基准测试方法论,用于对智能体AI系统进行动态红队测试,通过图表示统一不同架构的安全性评估,并支持自动化发现和扫描漏洞。

0 人收藏 0 人点赞
#benchmark

@_TobiasLee: 来自字节跳动的 Seed 2.1 在我们两项基准测试中取得了令人瞩目的成绩。Claw-Eval (多模态,https://claw-eval.…

X AI KOLs Timeline · 19小时前 缓存

字节跳动的 Seed 2.1 模型在多模态智能体(Claw-Eval)和长视频理解(Video-MME)基准测试中取得了强劲的结果,尽管在感知和智能体能力之间仍存在差距。

0 人收藏 0 人点赞
#benchmark

@ModelScope2022: Qwen-AgentWorld 刚刚在 ModelScope 上发布了两项更新!一个开放的 35B 总参数量/3B 激活参数的 MoE 世界模型,支持 256K 上下文…

X AI KOLs Timeline · 20小时前 缓存

Qwen-AgentWorld 发布了一个开放的 35B 总参数量/3B 激活参数的 MoE 世界模型,支持 256K 上下文,同时推出了一个涵盖 7 个领域的基准测试,在 AgentWorldBench 上取得了最先进的性能。

0 人收藏 0 人点赞
#benchmark

Qwen-AgentWorld: 通用智能体的语言世界模型

Hacker News Top · 21小时前 缓存

Qwen-AgentWorld 引入了适用于智能体环境的语言世界模型,涵盖七个领域,并具备长链思维推理能力。该工作包含一个新基准 AgentWorldBench,并且表明世界建模能够提升下游智能体的性能。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈