benchmark

标签

Cards List
#benchmark

OpenMythos 基准测试

Reddit r/LocalLLaMA · 3小时前

OpenMythos 推出了一个新的开源基准测试,用于评估 AI 模型在神话知识方面的表现。

0 人收藏 0 人点赞
#benchmark

GLM-5.2的人类评估

Reddit r/LocalLLaMA · 14小时前

作者称赞GLM-5.2(一个MIT开源权重模型)在人类评估基准中表现出色,声称其能与Claude等最佳闭源模型相媲美。

0 人收藏 0 人点赞
#benchmark

它能媲美Mythos吗?

Hacker News Top · 17小时前 缓存

作者测试其他AI模型是否能匹配Mythos在寻找安全漏洞方面的卓越能力,建立了一个由Mythos发现的漏洞基准,并测试了像Opus这样的模型。初步结果表明Mythos可能具有独特的能力。

0 人收藏 0 人点赞
#benchmark

@ashfold: 揭晓一下答案。 我们在做dim-agent的benchmark的过程中,发现DSv4的成绩一直在升级。 The whales are cooking!

X AI KOLs Timeline · 19小时前 缓存

While running the dim-agent benchmark, the author noticed that DSv4's scores have been consistently improving, hinting at significant progress in model development.

0 人收藏 0 人点赞
#benchmark

阿里巴巴AI视频模型全球排名升至第二,OpenAI的Sora与字节跳动的Seedance排名下滑(14分钟阅读)

TLDR AI · 22小时前 缓存

阿里巴巴发布HappyHorse 1.1,这是一次重大AI视频生成模型升级,现已通过API提供,在竞争对手Sora和Seedance表现不佳的情况下,全球排名升至第二。

0 人收藏 0 人点赞
#benchmark

更新后的GPT-5.5 Cyber在CyberGym中击败Mythos 5

Reddit r/singularity · 昨天

更新后的GPT-5.5 Cyber模型在CyberGym基准测试中超越了Mythos 5。

0 人收藏 0 人点赞
#benchmark

GLM-5.2 UD-IQ1_M 在 llama.cpp 上的运行 — 5090 + 3090 Ti 速度测试 (~ 579 t/s 预填充 @ 8k 上下文, ~324 t/s 预填充 @ 57k 上下文, ~10.6 t/s 解码)

Reddit r/LocalLLaMA · 昨天

GLM-5.2 在 llama.cpp 上使用 RTX 5090 和 RTX 3090 Ti 运行的速度测试结果,显示在 8k 上下文中预填充速度高达 579 t/s,解码速度约为 10.6 t/s。

0 人收藏 0 人点赞
#benchmark

@HuggingPapers: Ai2 刚刚在 Hugging Face 上发布了 TMax 27B,一个 27B 的终端代理,在 Terminal Bench 2.0 上达到 42.7%,与……相媲美

X AI KOLs Following · 昨天 缓存

Ai2 发布了 TMax 27B,一个 27B 的终端代理,在 Terminal Bench 2.0 上取得了 42.7% 的成绩,与比其大 40 倍的模型相媲美。

0 人收藏 0 人点赞
#benchmark

Qwen3.6-35B-A3B APEX 在单张 RTX 3090 上——充分发挥其潜力

Reddit r/LocalLLaMA · 昨天

在 RTX 3090 上运行 Qwen3.6-35B-A3B APEX 模型的详细指南:比较两个 llama.cpp 分支及量化方法,以达到最佳速度与质量。

0 人收藏 0 人点赞
#benchmark

@manateelazycat: 百度这个 AI 黄埔军校来了大神? 在 DeepSeek OCR 基础上开源的Unlimited OCR 出手就是王炸 在它自己的公布数据里,OmniDocBench v1.5 取得了 93.23 分,超过了 DeepSeek OCR 和…

X AI KOLs Timeline · 昨天 缓存

开源OCR模型Unlimited OCR基于DeepSeek OCR,仅3B参数便在OmniDocBench v1.5上取得93.23分,超越DeepSeek OCR和Gemini 2.5等对手。

0 人收藏 0 人点赞
#benchmark

Fable 5不再是第一了!?根据公司公告,Sakana的Fugu在某些情况下击败了它

Reddit r/artificial · 昨天

根据Sakana AI的公司博客,其新模型Fugu在LiveCodeBench和Terminal Bench 2.1上以微小的优势超越了Fable 5,尽管结果尚未得到独立确认。

0 人收藏 0 人点赞
#benchmark

@BohuTANG: 之前还想跨模型互相做 Review,这个方式对我来说太慢了,现在发现了一个新的方式:/harden ,同一个模型两轮收敛,效果非常好 ,感兴趣的可以试试这个skill

X AI KOLs Timeline · 昨天 缓存

BohuTANG introduces /harden, a method for same-model two-round convergence, and highlights the evot agent engine which completes complex tasks with fewer tokens and lower cost than alternatives like Claude Code.

0 人收藏 0 人点赞
#benchmark

能力强但粗心:计算机使用代理是否遵循情境完整性?

Hugging Face Daily Papers · 昨天 缓存

本文介绍了AgentCIBench,一个用于评估计算机使用代理隐私风险的基准测试,发现15个前沿代理中有11个在超过50%的场景中泄露信息。

0 人收藏 0 人点赞
#benchmark

HAKARI-Bench:在统一条件下比较检索架构和效率设置的轻量级基准测试

Hugging Face Daily Papers · 昨天 缓存

HAKARI-Bench是一个轻量级基准测试,用于在多种配置和语言下比较检索方法,支持高效的模型选择和性能分析。它能在保持高相关性的同时,比运行完整基准测试(如MTEB)更快地复现其结果。

0 人收藏 0 人点赞
#benchmark

EnterpriseClawBench:基于真实工作会话的智能体基准测试

Hugging Face Daily Papers · 昨天 缓存

EnterpriseClawBench 提出了一个基于真实工作场景的企业智能体基准,包含 852 个可复现任务以及超越单一性能分数的综合评估指标。

0 人收藏 0 人点赞
#benchmark

Inception Labs 的 Mercury 2 AI 在 Google 的 DiffusionGemma 擅长的领域击败了它(4分钟阅读)

TLDR AI · 昨天 缓存

Inception Labs 发布了 Mercury 2,这是一个扩散语言模型,每秒可生成约1000个token,在 AIME 2026 基准测试中以 90% 对 69.1% 的得分优于 Google 的 DiffusionGemma,不过 DiffusionGemma 是免费且开源权重的,而 Mercury 2 是付费且闭源权重的 API 模型。

0 人收藏 0 人点赞
#benchmark

本地文本到图像模型对比:终极测试。

Reddit r/LocalLLaMA · 2天前

用户使用192个提示词对本地文本到图像模型进行了全面对比,评估了文本渲染、人脸、人体解剖、空间构图等能力,结果和提示词已在imagebench.ai上公开。

0 人收藏 0 人点赞
#benchmark

用于Claude Code、Hermes和OpenClaw Agent的开源自然时序记忆库

Reddit r/ArtificialInteligence · 2天前

agentmemory是一个开源库,为Claude Code、Hermes和OpenClaw等AI代理提供自然时序记忆。它采用三层架构,结合混合检索(BM25、向量、知识图谱)和艾宾浩斯衰减,在达到上下文限制前,可实现约92%的令牌减少和200倍的更多工具调用。

0 人收藏 0 人点赞
#benchmark

最佳本地视觉模型——第二次基准测试更新——2026年6月21日

Reddit r/LocalLLaMA · 2天前

本文介绍了本地视觉语言模型基准测试的第二次更新,比较了23个模型在30张图像上的表现(使用修订设置),并为不同VRAM层级提供了性能建议。主要发现包括:推理模式会损害视觉性能,且MoE模型在感知任务上表现不如密集模型。

0 人收藏 0 人点赞
#benchmark

双Radeon R9700——在llama.cpp上运行Qwen 3.6 27B Q8 MTP

Reddit r/LocalLLaMA · 2天前

关于在使用ROCm的llama.cpp上,于双AMD Radeon R9700配置下运行Qwen 3.6 27B Q8模型的技术报告,包括性能基准测试和配置详情。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈