ai-benchmarks

#ai-benchmarks

Humanity's Last Exam 当前基准测试成绩思考？

Reddit r/singularity ↗ · 4天前

讨论近期AI模型在'Humanity's Last Exam'基准测试中的得分，指出从2024年5月GPT-4o的2.7%提升至2026年6月左右45%，并对该考试的难度提出疑问。

0 人收藏 0 人点赞

#ai-benchmarks

Reddit r/ArtificialInteligence ↗ · 2026-05-25 缓存

阿里Qwen3.7-Max模型在陌生T-Head PPU硬件上，无需人工引导，自主优化生产内核长达35小时，进行1158次工具调用，实现10倍速度提升，展示了持续的自主智能体行为。

0 人收藏 0 人点赞

#ai-benchmarks

TechCrunch AI ↗ · 2026-05-14 缓存

前Meta新闻主管坎贝尔·布朗创办了Forum AI，旨在评估基础模型在地缘政治、心理健康等高风险话题上的准确性，通过专家主导的基准测试来提升AI的真实性。

0 人收藏 0 人点赞

#ai-benchmarks

X AI KOLs Following ↗ · 2026-05-12

来自interfaze_ai的新AI模型声称在OCR、视觉和语音转文字任务上超越领先模型（sonnet 4.6、gemini 3 flash、gpt 5.4 mini）。

0 人收藏 0 人点赞

#ai-benchmarks

Reddit r/ArtificialInteligence ↗ · 2026-05-07

本文讨论了AI基准测试高分与实际真实表现之间日益扩大的差距，重点强调了诸如一致性、延迟和上下文处理等问题。

0 人收藏 0 人点赞

#ai-benchmarks

The Batch ↗ · 2026-01-02 缓存

Andrew Ng 提出了一个新的“Turing-AGI Test”，旨在让系统在联网环境下执行实际工作任务，以更准确地评估通用人工智能水平。他指出，“AGI”一词目前已被过度炒作，亟需精确定义，以免利益相关方对 AI 的实际能力产生误判。

0 人收藏 0 人点赞

#ai-benchmarks

Anthropic Research ↗ · 昨天缓存

Anthropic与研究人员合作，在三个新的漏洞利用开发基准（ExploitBench、ExploitGym、SCONE-bench）上对Claude Mythos Preview进行基准测试，发现其性能优于所有其他模型，并展示了LLM漏洞利用能力的重大飞跃。

0 人收藏 0 人点赞