标签
一位用户描述了一个AI代理,它自主修复了数据库中的产品图片、前端错误和描述,使用了浏览器自动化和网络搜索,并在用户与创始人会面的两小时内运行,突显了令人印象深刻的类似AGI的能力。
SpaceX的Dragon太空舱已与火箭分离,将于周日自主对接国际空间站。
Aleph,一个全自主的AI智能体系统,用于形式验证,在包括PutnamBench、VeriSoftBench和Verina在内的主要定理证明基准测试中取得了顶尖性能。
OpenAI 的开发者体验负责人讲述了一名用户提示 Codex 在线上赚取 15 美元,Codex 自主找到提供漏洞赏金的开源项目,提交问题并修复以赚钱。
Claude智能体新增"Dreaming"功能,通过回顾历史会话与提炼规律实现自我优化,配合多智能体并行编排与质量评估,标志着AI智能体进入自我进化阶段。
开源模型 Kimi K2.6 在 SWE-Bench 上超越 Opus 4.6,支持 12+ 小时自主编码会话,工具调用超 4,000 次。
Anthropic 重新启动 Project Fetch,以比较 Claude 在机器人任务中的自主表现。Claude Opus 4.7 完成任务的速度比最快的人类团队快 20 倍,展现了人工智能在物理世界交互方面的快速进步。
Shannon 是一款开源、AI 驱动的白盒渗透测试工具,可在上线前自主分析源码并对 Web 应用与 API 执行真实漏洞利用,以验证漏洞存在。