Seed IQ ARC-AGI 3 声称

Reddit r/ArtificialInteligence 新闻

摘要

一名 Reddit 用户驳斥了 Seed IQ (AGX) 关于以满分解决 ARC-AGI-3 基准测试的声称,认为拒绝提交到允许闭源提交的 Kaggle 排行榜表明这是一个骗局。

我最近在这个子版块上看到了一篇关于 Seed IQ 的帖子,我想对此发表看法,因为看到社区变成这样让我感到难过。 我目前是 ARC-AGI-3 竞赛的参与者。这个基准测试现在是完全交互式的,旨在针对隐藏的评估集测试真实的流体智力,而且规则极其简单明了。 最近,出现了一波关于 Seed IQ(来自 AGX)的垃圾帖子,声称他们的闭源“控制引擎”神奇地以满分解决了这个基准测试。 当人们问为什么他们不在官方的 Kaggle 排行榜上时,他们的借口总是说 ARC 规则规定要上榜必须交出整个代码库并开源你的知识产权,而他们拥有价值数十亿美元的商业资产,不能放弃。 他们甚至自己说愿意放弃奖金。 请注意,要上榜并不需要开源。Kaggle 规则第 3.8 节下的开源要求\*仅\*在你接受奖金时才适用。 你可以提交一个容器化的模型来针对隐藏的评估集运行,让你的验证分数固定在排行榜顶部供全世界查看,然后直接拒绝现金奖金提名。 你的知识产权在提交过程中完全安全。Kaggle 笔记本完全在隔离的黑盒环境中运行。除非你明确选择发布,否则公众永远不会看到你的代码、权重或专有逻辑。 此外,高分可能会触发审计以确保无人作弊,但在审计期间窃取知识产权是非法的。 如果 Seed IQ 真的拥有一个超越最先进水平的系统,他们现在就可以把编译好的模型放入笔记本,向社区证明,完全隐藏他们的知识产权,然后直接放弃奖金支票。 我看到过很多他们的垃圾帖子以及创始人在 LinkedIn 上的帖子,说实话,看到这个行业的成年人如此行事让我很失望。 一旦有人要求基本的技术验证或指出他们的 Kaggle 逻辑毫无道理,他们就变得极其敌对和粗鲁。 归根结底,他们的声称是否属实其实并不重要。我只是认为社区应该了解这个骗局是如何运作的。 如果一个模型不针对隐藏测试集运行,尤其是当平台提供了内置方式来完全保护你的代码时,这些声称就毫无意义。 我们不应该让有毒的炒作和虚假的阻碍破坏一个优秀的基准测试。
查看原文

相似文章

AGI 🚀

Reddit r/singularity

本文提及 AGI(通用人工智能),可能是一篇关于 AGI 进展或相关推测的简短帖子或公告,除标题外可获取的内容有限。

安卓会梦想破解游戏吗?用BenchJack系统化审计AI智能体基准测试

arXiv cs.AI

本文介绍BenchJack,一种自动化红队系统,通过识别奖励黑客漏洞来系统化审计AI智能体基准测试。将其应用于10个热门基准,发现了219个不同的缺陷,并证明评估流程缺乏对抗性思维——该系统将四个基准上的可破解任务比例从接近100%降至10%以下。

@ryaneshea: 今天我发布了 AI IQ —— 前沿 AI 模型,按照人类智商量表进行评分。摒弃无尽的排行榜表格,AI IQ 展示了:• 模型在智商正态分布曲线上的位置 • 前沿智商随时间的变化 • 模型在智商和情商方面的对比 • 实践中获取智能的成本。包括 GPT-5.5、Claude Opus 4.7、Gemini 3.1、Grok 4.3、Kimi K2.6、Qwen 3.6、DeepSeek V4、Muse Spark 等。链接在首评中。好奇哪张图表最让你惊讶。

X AI KOLs Following

作者推出了“AI IQ”,这是一款新工具,按人类智商量表对前沿 AI 模型进行评分,提供模型性能、智能成本以及情商对比的可视化图表,而非传统的排行榜表格。