benchmark

#benchmark

OpenMythos 基准测试

Reddit r/LocalLLaMA ↗ · 3小时前

OpenMythos 推出了一个新的开源基准测试，用于评估 AI 模型在神话知识方面的表现。

0 人收藏 0 人点赞

#benchmark

GLM-5.2的人类评估

Reddit r/LocalLLaMA ↗ · 14小时前

作者称赞GLM-5.2（一个MIT开源权重模型）在人类评估基准中表现出色，声称其能与Claude等最佳闭源模型相媲美。

0 人收藏 0 人点赞

#benchmark

它能媲美Mythos吗？

Hacker News Top ↗ · 17小时前缓存

作者测试其他AI模型是否能匹配Mythos在寻找安全漏洞方面的卓越能力，建立了一个由Mythos发现的漏洞基准，并测试了像Opus这样的模型。初步结果表明Mythos可能具有独特的能力。

0 人收藏 0 人点赞

#benchmark

@ashfold: 揭晓一下答案。我们在做dim-agent的benchmark的过程中，发现DSv4的成绩一直在升级。 The whales are cooking!

X AI KOLs Timeline ↗ · 19小时前缓存

While running the dim-agent benchmark, the author noticed that DSv4's scores have been consistently improving, hinting at significant progress in model development.

0 人收藏 0 人点赞

#benchmark

阿里巴巴AI视频模型全球排名升至第二，OpenAI的Sora与字节跳动的Seedance排名下滑（14分钟阅读）

TLDR AI ↗ · 22小时前缓存

阿里巴巴发布HappyHorse 1.1，这是一次重大AI视频生成模型升级，现已通过API提供，在竞争对手Sora和Seedance表现不佳的情况下，全球排名升至第二。

0 人收藏 0 人点赞

#benchmark

更新后的GPT-5.5 Cyber在CyberGym中击败Mythos 5

Reddit r/singularity ↗ · 昨天

更新后的GPT-5.5 Cyber模型在CyberGym基准测试中超越了Mythos 5。

0 人收藏 0 人点赞

#benchmark

GLM-5.2 UD-IQ1_M 在 llama.cpp 上的运行 — 5090 + 3090 Ti 速度测试 (~ 579 t/s 预填充 @ 8k 上下文, ~324 t/s 预填充 @ 57k 上下文, ~10.6 t/s 解码)

Reddit r/LocalLLaMA ↗ · 昨天

GLM-5.2 在 llama.cpp 上使用 RTX 5090 和 RTX 3090 Ti 运行的速度测试结果，显示在 8k 上下文中预填充速度高达 579 t/s，解码速度约为 10.6 t/s。

0 人收藏 0 人点赞

#benchmark

@HuggingPapers: Ai2 刚刚在 Hugging Face 上发布了 TMax 27B，一个 27B 的终端代理，在 Terminal Bench 2.0 上达到 42.7%，与……相媲美

X AI KOLs Following ↗ · 昨天缓存

Ai2 发布了 TMax 27B，一个 27B 的终端代理，在 Terminal Bench 2.0 上取得了 42.7% 的成绩，与比其大 40 倍的模型相媲美。

0 人收藏 0 人点赞

#benchmark

Qwen3.6-35B-A3B APEX 在单张 RTX 3090 上——充分发挥其潜力

Reddit r/LocalLLaMA ↗ · 昨天

在 RTX 3090 上运行 Qwen3.6-35B-A3B APEX 模型的详细指南：比较两个 llama.cpp 分支及量化方法，以达到最佳速度与质量。

0 人收藏 0 人点赞

#benchmark

@manateelazycat: 百度这个 AI 黄埔军校来了大神？在 DeepSeek OCR 基础上开源的Unlimited OCR 出手就是王炸在它自己的公布数据里，OmniDocBench v1.5 取得了 93.23 分，超过了 DeepSeek OCR 和…

X AI KOLs Timeline ↗ · 昨天缓存

开源OCR模型Unlimited OCR基于DeepSeek OCR，仅3B参数便在OmniDocBench v1.5上取得93.23分，超越DeepSeek OCR和Gemini 2.5等对手。

0 人收藏 0 人点赞

#benchmark

Fable 5不再是第一了！？根据公司公告，Sakana的Fugu在某些情况下击败了它

Reddit r/artificial ↗ · 昨天

根据Sakana AI的公司博客，其新模型Fugu在LiveCodeBench和Terminal Bench 2.1上以微小的优势超越了Fable 5，尽管结果尚未得到独立确认。

0 人收藏 0 人点赞

#benchmark

@BohuTANG: 之前还想跨模型互相做 Review，这个方式对我来说太慢了，现在发现了一个新的方式：/harden ，同一个模型两轮收敛，效果非常好，感兴趣的可以试试这个skill

X AI KOLs Timeline ↗ · 昨天缓存

BohuTANG introduces /harden, a method for same-model two-round convergence, and highlights the evot agent engine which completes complex tasks with fewer tokens and lower cost than alternatives like Claude Code.

0 人收藏 0 人点赞

#benchmark

能力强但粗心：计算机使用代理是否遵循情境完整性？

Hugging Face Daily Papers ↗ · 昨天缓存

本文介绍了AgentCIBench，一个用于评估计算机使用代理隐私风险的基准测试，发现15个前沿代理中有11个在超过50%的场景中泄露信息。

0 人收藏 0 人点赞

#benchmark

HAKARI-Bench：在统一条件下比较检索架构和效率设置的轻量级基准测试

Hugging Face Daily Papers ↗ · 昨天缓存

HAKARI-Bench是一个轻量级基准测试，用于在多种配置和语言下比较检索方法，支持高效的模型选择和性能分析。它能在保持高相关性的同时，比运行完整基准测试（如MTEB）更快地复现其结果。

0 人收藏 0 人点赞

#benchmark

EnterpriseClawBench：基于真实工作会话的智能体基准测试

Hugging Face Daily Papers ↗ · 昨天缓存

EnterpriseClawBench 提出了一个基于真实工作场景的企业智能体基准，包含 852 个可复现任务以及超越单一性能分数的综合评估指标。

0 人收藏 0 人点赞

#benchmark

Inception Labs 的 Mercury 2 AI 在 Google 的 DiffusionGemma 擅长的领域击败了它（4分钟阅读）

TLDR AI ↗ · 昨天缓存

Inception Labs 发布了 Mercury 2，这是一个扩散语言模型，每秒可生成约1000个token，在 AIME 2026 基准测试中以 90% 对 69.1% 的得分优于 Google 的 DiffusionGemma，不过 DiffusionGemma 是免费且开源权重的，而 Mercury 2 是付费且闭源权重的 API 模型。

0 人收藏 0 人点赞

#benchmark