标签
探讨了AI发展的加速趋势,指出随着新功能迅速成为标配,前沿模型的寿命可能越来越短。并提出了关于如何保持竞争力的问题。
Geoffrey Hinton强调Adam Brown的讲座,讲述了LLMs在物理学上从学前水平进步到博士水平的能力,扩展定律和基准测试显示其快速进展。
Dan Shipper 采访了 Surge AI 首席执行官 Edwin Chen,探讨人工智能的发展、通用人工智能的可能性,以及这对人类动机和独特性的影响。他们还讨论了人工智能解决新型数学问题的能力、优化参与度的陷阱,以及为什么人工智能在写作方面仍然存在困难。
几乎所有AI模型和智能体的进步都依赖于评估(evals)。通过评估理解工作流程和智能体性能将成为企业推动自动化的核心能力。
文章总结了关于超级智能(ASI)的讨论,包括其定义、可能的时间线、算法突破的必要性、AI的能力局限、经济影响以及对国家和领导人的建议。专家们认为ASI可能在3-4年内到来,但面临算法和非平稳性挑战,且财富分配不均问题需要政策介入。
Sonnet 3.5 发布后两年,其引发的 Cursor 病毒式采用如今已被开源权重模型超越,这些模型可在消费级硬件上运行。这是开源 AI 的关键时刻。
展示了三年来的AI进步:左侧为ModelScope,右侧为Grok Imagine 1.5。
Claude Fable 在“人类最后的考试”(Humanity's Last Exam)基准测试中取得 53% 的成绩,比预期的 2025 年底里程碑更早达到,表明 AI 进展迅速。
谷歌DeepMind的一份研究报告探讨了从人类级通用人工智能(AGI)到超级人工智能(ASI)的转变,讨论了扩展、范式转变、递归改进和多智能体集体等潜在路径,以及瓶颈和开放研究问题。
Anthropic 分享了内部基准测试结果,展示了AI编码能力的显著提升:2024年5月,Claude Opus 4 在机器学习代码优化任务上平均加速约3倍;而今年4月发布的新模型 Mythos Preview 达到了约52倍加速,相比之下,一位熟练人类工程师需要4-8小时才能实现4倍加速。
一位用户反思了因延迟尝试AI而带来的惊叹感,与早期用户的不满形成对比,将这种憎恨归因于时间偏见,并引用了Will MacAskill关于AI进展的文章。
文章认为,在2026年,AI价值的关键区分因素不是模型能力,而是通过像MCP这样的集成协议实现的数据访问,这些协议将模型连接到真实的业务数据(如CRM和会计软件),从而使连接的工作流比基准测试分数更重要。
斯坦福 NLP 毕业生 Yann Dubois 在与 Matt Turck 的对话中讨论了为何 AI 进步突然变得真实,以及发布 GPT-5.5 的情感过山车。
观察者注意到模型如何从使用 Python 解决简单任务,逐渐发展到使用子调用来解决更困难的任务。
Anjney Midha 分享了一个关于AI进展的推测时间线,从2022年ChatGPT在消费者端的成功,到2029年的先进制造和材料2.0,由研发的寒武纪大爆发驱动。
本文批评了常见的AI论点,即所有指数增长最终都会变成S形曲线,指出虽然个别技术会达到平台期,但新的突破可能会创造新的S形曲线,因此AI进展未必会永久停滞。
OpenAI发布了一份关于AI进展和建议的立场文件,讨论了AI系统超越图灵测试里程碑的快速发展,对2026-2028年发现能力的预测,以及他们对安全和对齐研究的承诺,以应对AI能力不断增强的情况。