ai-benchmarks

标签

Cards List
#ai-benchmarks

Humanity's Last Exam 当前基准测试成绩思考?

Reddit r/singularity · 4天前

讨论近期AI模型在'Humanity's Last Exam'基准测试中的得分,指出从2024年5月GPT-4o的2.7%提升至2026年6月左右45%,并对该考试的难度提出疑问。

0 人收藏 0 人点赞
#ai-benchmarks

阿里Qwen3.7-Max在陌生硬件上自主运行35小时,持续自我优化

Reddit r/ArtificialInteligence · 2026-05-25 缓存

阿里Qwen3.7-Max模型在陌生T-Head PPU硬件上,无需人工引导,自主优化生产内核长达35小时,进行1158次工具调用,实现10倍速度提升,展示了持续的自主智能体行为。

0 人收藏 0 人点赞
#ai-benchmarks

谁来决定AI告诉你什么?前Meta新闻主管坎贝尔·布朗有话要说

TechCrunch AI · 2026-05-14 缓存

前Meta新闻主管坎贝尔·布朗创办了Forum AI,旨在评估基础模型在地缘政治、心理健康等高风险话题上的准确性,通过专家主导的基准测试来提升AI的真实性。

0 人收藏 0 人点赞
#ai-benchmarks

@aaron_epstein: 新发布的模型在OCR、视觉和STT任务上击败了sonnet 4.6、gemini 3 flash和gpt 5.4 mini @interfaze_ai

X AI KOLs Following · 2026-05-12

来自interfaze_ai的新AI模型声称在OCR、视觉和语音转文字任务上超越领先模型(sonnet 4.6、gemini 3 flash、gpt 5.4 mini)。

0 人收藏 0 人点赞
#ai-benchmarks

还有人觉得AI基准测试在预测实际性能方面越来越没用了吗?

Reddit r/ArtificialInteligence · 2026-05-07

本文讨论了AI基准测试高分与实际真实表现之间日益扩大的差距,重点强调了诸如一致性、延迟和上下文处理等问题。

0 人收藏 0 人点赞
#ai-benchmarks

新年特辑!来自 David Cox、Adji Bousso Dieng、Juan M. Lavista Ferres、Tanmay Gupta、Pengtao Xie 和 Sharon Zhou 对 2026 年的展望

The Batch · 2026-01-02 缓存

Andrew Ng 提出了一个新的“Turing-AGI Test”,旨在让系统在联网环境下执行实际工作任务,以更准确地评估通用人工智能水平。他指出,“AGI”一词目前已被过度炒作,亟需精确定义,以免利益相关方对 AI 的实际能力产生误判。

0 人收藏 0 人点赞
#ai-benchmarks

2026年5月22日 Frontier Red Team 评估LLMs开发漏洞利用的能力

Anthropic Research · 昨天 缓存

Anthropic与研究人员合作,在三个新的漏洞利用开发基准(ExploitBench、ExploitGym、SCONE-bench)上对Claude Mythos Preview进行基准测试,发现其性能优于所有其他模型,并展示了LLM漏洞利用能力的重大飞跃。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈