衡量通向AGI的进展:一个认知框架
摘要
Google DeepMind发布了一篇论文,提出了一个衡量通向通用人工智能(AGI)进展的认知框架,识别了十项关键认知能力,并发起了一场Kaggle黑客马拉松以构建相关评估方法。
我们推出了一套衡量通向AGI进展的框架,并启动了一场Kaggle黑客马拉松,以构建相关的评估方法。
查看缓存全文
缓存时间: 2026/05/08 09:11
# 衡量通往 AGI 的进展:认知框架
来源:https://blog.google/innovation-and-ai/models-and-research/google-deepmind/measuring-agi-cognitive-framework/
我们推出一个衡量通往 AGI 进展的框架,并举办 Kaggle 黑客马拉松,以构建相关的评估方法。
Oran Kelly
Google DeepMind 产品经理
## 概要
Google DeepMind 希望借助认知科学来帮助衡量通用人工智能(AGI)的进展。他们的新论文《衡量通往 AGI 的进展:一种认知分类学》提出了一个理解 AI 系统认知能力的框架。你可以通过参加 Kaggle 黑客马拉松,为关键认知能力设计评估方法,有机会瓜分 20 万美元奖金池。
摘要由 Google AI 生成。生成式 AI 处于实验阶段。
图片中,若干矩形沿对角线排列,每个矩形内有旋涡图案。
您的浏览器不支持音频元素。
收听文章
内容由 Google AI 生成。生成式 AI 处于实验阶段
[[duration]] 分钟
通用人工智能(AGI)有望加速科学发现,帮助解决人类最紧迫的一些问题。但要知道我们离这一关键里程碑还有多远可能很困难,因为目前缺乏评估系统通用智能的经验工具。追踪通往 AGI 的进展需要多种方法和途径,我们相信认知科学是其中重要的一环。
因此,今天我们发布了一篇新论文《衡量通往 AGI 的进展:一种认知分类学》(https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/measuring-progress-toward-agi/measuring-progress-toward-agi-a-cognitive-framework.pdf),为理解 AI 系统的认知能力提供了科学基础。
与论文同步,我们与 Kaggle 合作举办黑客马拉松(http://kaggle.com/competitions/kaggle-measuring-agi),邀请研究社区帮助构建所需的评估方法,将这一框架付诸实践。
## 解构通用智能
我们的框架借鉴了心理学、神经科学和认知科学数十年的研究,构建了一套认知分类学。它识别出 10 项关键认知能力,我们假设这些能力对 AI 系统的通用智能至关重要:
1. **感知(Perception)**:从环境中提取和处理感官信息
2. **生成(Generation)**:产生文本、语音和行为等输出
3. **注意(Attention)**:将认知资源集中于重要事项
4. **学习(Learning)**:通过经验和指导获取新知识
5. **记忆(Memory)**:随时间存储和提取信息
6. **推理(Reasoning)**:通过逻辑推断得出有效结论
7. **元认知(Metacognition)**:对自身认知过程的了解与监控
8. **执行功能(Executive functions)**:规划、抑制和认知灵活性
9. **问题解决(Problem solving)**:为特定领域的问题找到有效解决方案
10. **社会认知(Social cognition)**:处理、解读社交信息,并在社交情境中做出恰当反应
气泡图,所有气泡连接至中心气泡"认知能力"。每个气泡列出一种认知能力。
为理解 AI 在这些认知能力上的表现,我们提出了一个三阶段评估方案,将系统性能与人类能力进行基准对比:
1. 在涵盖每项能力的广泛认知任务套件上评估 AI 系统,使用留出测试集防止数据污染
2. 从具有人口统计学代表性的成年人群体中,收集相同任务的人类基线数据
3. 将每个 AI 系统在每项能力上的表现,映射到人类表现的分布中进行对比
## 从理论到实践
定义这些认知能力是重要的第一步,但衡量进展我们需要的不仅仅是框架。为将理论付诸实践,我们推出了新的 Kaggle 黑客马拉松——"衡量通往 AGI 的进展:认知能力"(http://kaggle.com/competitions/kaggle-measuring-agi)。该黑客马拉松鼓励社区为五项评估差距最大的认知能力设计评估方法:学习、元认知、注意、执行功能和社会认知。
参与者可以使用 Kaggle 新推出的 Community Benchmarks(https://blog.google/innovation-and-ai/technology/developers-tools/kaggle-community-benchmarks/)平台,针对一系列前沿模型构建和测试他们的评估方法。
我们提供的总奖金池为 20 万美元:五个赛道中每个赛道的前两名提交作品各获 1 万美元,四项最佳整体提交作品各获 2.5 万美元大奖。提交时间为 3 月 17 日至 4 月 16 日,结果将于 6 月 1 日公布。前往 Kaggle 网站(http://kaggle.com/competitions/kaggle-measuring-agi)开始构建吧。
## 将更多 Google 资讯发送到您的收件箱
完成。只需再一步。
请查收邮件以确认订阅。
您已订阅我们的新闻通讯。
您也可以使用以下方式订阅
### 相关报道
相似文章
重新思考我们如何衡量AI智能
Google DeepMind和Kaggle推出了Kaggle Game Arena,一个开源的AI基准测试平台,让大型语言模型在策略游戏中进行对抗,从而提供动态的、可验证的能力评估。该平台通过提供明确的胜负条件和清晰的性能信号,克服了传统基准测试的局限性。
从AGI到ASI
谷歌DeepMind的一份研究报告探讨了从人类级通用人工智能(AGI)到超级人工智能(ASI)的转变,讨论了扩展、范式转变、递归改进和多智能体集体等潜在路径,以及瓶颈和开放研究问题。
你认为哪家AI实验室会率先实现AGI?
一个论坛讨论猜测哪家AI实验室会率先实现AGI,提及了Google过去的预测、OpenAI和Anthropic的最新能力,以及DeepMind的Demis Hassabis极具竞争性的个性。
为 AGI 及其未来做好准备
OpenAI 阐述了为 AGI 做准备的战略,强调通过真实世界反馈循环进行渐进式部署,随着系统接近 AGI 能力而提高谨慎程度,以及开发更好的对齐技术以确保 AI 系统保持可控和安全。
走向AGI的负责任之路
DeepMind发布了一套关于AGI安全与安保的综合方案,阐述了系统性框架来应对滥用、失对齐、意外事故和结构性风险,为即将到来的通用人工智能做准备。