标签
i10X 发布了 Superagent,一款 AI 首席幕僚,通过协调多种工具和智能体来自动化业务目标,并为关键行动设置人工审批关口。
构建可复用的Claude Code Agent循环指南,通过替换检查脚本即可用于不同任务,如修复Bug、优化速度或降低成本。
DeepSeek-V4-Fable 是建立在 DeepSeek-V4-Flash 上的 Claude-5-Fable 的蒸馏变体,专为自主进攻性安全研究、CTF 问题解决和受控环境利用规划而设计,具有严格的授权要求。
本文分享了使用Codex /goal模式进行长时间无人值守编程的实战经验,包括如何编写有效prompt、使用持久化项目记忆防止跑偏,以及关键设置和注意事项。
DeepSeek研究员陈德里开源了Deli AutoResearch SKILL,这是一份SKILL.md协议文件,定义了AI长期自主研究的运行规则,包括状态持久化、停滞检测、心跳机制等,旨在将自主科研从愿景拆解为可持续运行的工程化闭环。
作者构建了一个基于GPT-5.5的自主Codex代理循环运行器,用于测试,目前处于公开测试阶段,提供50次免费运行机会。
Skales是一款私密的本地AI桌面代理,适用于Windows、macOS、Linux和Android。它能够执行自主任务,支持多种AI提供商,并强调隐私保护及离线能力。
depthfirst的自主安全代理在FFmpeg中发现了21个零日漏洞,其中几个已潜伏了15到20年,概念验证演示了远程代码执行的可能性。这些发现凸显了AI驱动的安全代理在发现之前谷歌和Anthropic的深入分析都未能发现的严重漏洞方面的能力。
Microsoft Research 推出 Arbor,一个使用持久假设树精炼进行累积学习的通用自主研究代理,在六个研究任务上超越 Codex 和 Claude Code,并在 MLE-Bench Lite 上达到 86% 的 Any-Medal。
本文介绍了Moonshine,一个自主生成猜想的数学研究代理,通过从经典雅可比猜想推导出神经雅可比猜想并用大语言模型证明了一个特例来加以说明。
Nous Research 的 Hermes Agent 是一款开源自主 AI 代理,它在服务器上持续运行,跨会话记住每一次对话,并自主创建技能文件,使其与 Claude Code 和 Cursor 等基于会话的编码工具截然不同,属于一个根本不同的代理类别。
一个名为Annie的AI智能体自主将一份宝可梦红宝石GBA ROM重新编译成一个完整的混合WASM重编译器和GBA运行时,完成了一项通常需要专家团队数月、花费数万美元的任务。
由Weco构建的一个自主研究代理在OpenAI的Parameter Golf竞赛中按照合并记录数量成为顶级贡献者,展示了有效的人机协作。
Oh My Hermes 是一个为 Hermes AI 代理打造的工作流层,将其升级为能自动完成需求澄清、编码、部署、运维等20项技能的开发运维搭档,支持5个分工明确的代理协同工作。
介绍 Benchmark Agent,一个完全自主的系统,用于创建多样化的基准测试,只需最少的人工干预,支持跨领域的持续模型评估。
在 OpenAI 的 Parameter Golf 招聘挑战中,一个名为 Aiden 的自主研究智能体在运行 22 天后,超越了所有 1,016 名人类参与者。
Nous Research 发布了 Hermes Agent 的桌面更新,将其转变为一个始终在线的自主 AI 员工,拥有 166 项技能和持久记忆,可替代人类幕僚长。
一个来自人工生命模拟的智能体被改造成一个真实的自主智能体,在笔记本电脑上运行,具备文件系统、代码执行、浏览器控制和任务管理能力,展现出持久的内部驱动力。
EvoDS 是一款自演化自主数据科学智能体,通过强化学习驱动的技能获取与自适应上下文压缩进行改进,在基准测试上超越开源智能体 28.9%。
作者使用Claude Code配合浏览器扩展,自主地按照镜头列表为他们的应用创建了一个18分钟的教程,其中一些步骤需要人工干预。