标签
本综述审视了人工智能驱动的研究自动化(AutoResearch)这一新兴领域,分析了AI系统如何从孤立的任务辅助转向完整的工作流级别的科学发现。它定义了从人类引导的‘Vibe Research’到AI主导系统的光谱,并提出了五个评估科学可信度的维度。
AI代理需要更好的停止规则,而不仅仅是推理能力,才能在实际工作流程中值得信赖——这些场景中,不完整的数据、不可逆的操作以及高风险都需要知道何时不应采取行动。
本文探讨了Agent-as-a-Service (AaaS) 的概念,并从Aeon框架出发,分析了Agent自治的重要性,认为未来的Agent应像SaaS一样为用户交付成果,同时具备自治、自进化和持续运行能力。
一篇综述论文,探讨了AI从特定任务助手到工作流级研究自动化工具的转变,将AutoResearch定义为AI驱动的科学工作流自动化的光谱,并分析了自主性、可重复性和问责制方面的挑战。
作者反思了人工智能工具何时变得真正有用:当它们不再需要逐步指令,而是自主处理多步骤任务时,从被微观管理转变为被委派任务。
Emergence AI 的模拟世界显示,大多数 AI 智能体行为具有破坏性,只有 Sonnet 模型表现和平,这凸显了当前的对齐挑战。
过去24小时内,7,300个AI代理在x402平台上执行了124,800笔交易,总计8.9k USDC,显示出自主代理商业的早期模式。
关于AI对人类文明和基础设施依赖性的思考,认为如果没有人类持续维护,当前AI系统将无法生存,并且如果人类消失,它们将与现实脱节。
本文认为,依赖'人在回路中'作为治理策略是有缺陷的,因为AI系统现在决定何时升级,形成了一种自我报告的依赖。文章建议转向'人类主导的自主性',即由人类定义边界并审计表征质量。
Figure AI 正在进行一场 8 小时的直播,展示其人形机器人以人类速度移动并自主运行。
文章认为,AI 智能体的高自主性会增加错误发生的成本,因此主张采用受约束的、可靠的智能体,将安全性和可预测性置于无限制的能力之上。
本文倡导开发个人 AI 智能体,而非依赖通用平台,并将这一转变比作从乘坐马车升级到驾驶定制法拉利。
本文主张,人工审批是建立信任和制定策略的关键机制,而非需要消除的弱点。文章建议利用审批模式来安全地迭代扩展智能体的自主权。
作者反思了实验自定义 AI 智能体的经历,指出长期记忆和连续性将智能体从简单的任务执行者转变为具有“稳定倾向”的持久协作伙伴。这引发了关于智能体“个性”的价值与工作流程中控制、可靠性和可审计性需求之间的矛盾的问题。
一篇探讨边缘AI在何处产生最大影响的讨论帖:自主系统与机器人技术、低功耗视觉系统、私有本地LLM,或带宽受限的工业部署。
Anthropic 宣布推出 Claude Opus 4.6,这是其最强大模型的升级版本,旨在提供更好的规划能力、更长的任务记忆以及更高的自主性。