标签
作者测试其他AI模型是否能匹配Mythos在寻找安全漏洞方面的卓越能力,建立了一个由Mythos发现的漏洞基准,并测试了像Opus这样的模型。初步结果表明Mythos可能具有独特的能力。
While running the dim-agent benchmark, the author noticed that DSv4's scores have been consistently improving, hinting at significant progress in model development.
阿里巴巴发布HappyHorse 1.1,这是一次重大AI视频生成模型升级,现已通过API提供,在竞争对手Sora和Seedance表现不佳的情况下,全球排名升至第二。
更新后的GPT-5.5 Cyber模型在CyberGym基准测试中超越了Mythos 5。
GLM-5.2 在 llama.cpp 上使用 RTX 5090 和 RTX 3090 Ti 运行的速度测试结果,显示在 8k 上下文中预填充速度高达 579 t/s,解码速度约为 10.6 t/s。
Ai2 发布了 TMax 27B,一个 27B 的终端代理,在 Terminal Bench 2.0 上取得了 42.7% 的成绩,与比其大 40 倍的模型相媲美。
在 RTX 3090 上运行 Qwen3.6-35B-A3B APEX 模型的详细指南:比较两个 llama.cpp 分支及量化方法,以达到最佳速度与质量。
开源OCR模型Unlimited OCR基于DeepSeek OCR,仅3B参数便在OmniDocBench v1.5上取得93.23分,超越DeepSeek OCR和Gemini 2.5等对手。
根据Sakana AI的公司博客,其新模型Fugu在LiveCodeBench和Terminal Bench 2.1上以微小的优势超越了Fable 5,尽管结果尚未得到独立确认。
BohuTANG introduces /harden, a method for same-model two-round convergence, and highlights the evot agent engine which completes complex tasks with fewer tokens and lower cost than alternatives like Claude Code.
本文介绍了AgentCIBench,一个用于评估计算机使用代理隐私风险的基准测试,发现15个前沿代理中有11个在超过50%的场景中泄露信息。
HAKARI-Bench是一个轻量级基准测试,用于在多种配置和语言下比较检索方法,支持高效的模型选择和性能分析。它能在保持高相关性的同时,比运行完整基准测试(如MTEB)更快地复现其结果。
EnterpriseClawBench 提出了一个基于真实工作场景的企业智能体基准,包含 852 个可复现任务以及超越单一性能分数的综合评估指标。
Inception Labs 发布了 Mercury 2,这是一个扩散语言模型,每秒可生成约1000个token,在 AIME 2026 基准测试中以 90% 对 69.1% 的得分优于 Google 的 DiffusionGemma,不过 DiffusionGemma 是免费且开源权重的,而 Mercury 2 是付费且闭源权重的 API 模型。
用户使用192个提示词对本地文本到图像模型进行了全面对比,评估了文本渲染、人脸、人体解剖、空间构图等能力,结果和提示词已在imagebench.ai上公开。
agentmemory是一个开源库,为Claude Code、Hermes和OpenClaw等AI代理提供自然时序记忆。它采用三层架构,结合混合检索(BM25、向量、知识图谱)和艾宾浩斯衰减,在达到上下文限制前,可实现约92%的令牌减少和200倍的更多工具调用。
本文介绍了本地视觉语言模型基准测试的第二次更新,比较了23个模型在30张图像上的表现(使用修订设置),并为不同VRAM层级提供了性能建议。主要发现包括:推理模式会损害视觉性能,且MoE模型在感知任务上表现不如密集模型。
关于在使用ROCm的llama.cpp上,于双AMD Radeon R9700配置下运行Qwen 3.6 27B Q8模型的技术报告,包括性能基准测试和配置详情。