标签
Sakana AI 发布了 AI Scientist-v2,一个端到端的自动化科研系统,能够从生成研究假设到撰写论文自动完成,并已通过同行评审被 ICLR2025 Workshop 接收。
RocketSmith是一个自主系统,利用大语言模型自动进行高功率火箭的设计与增材制造,成功实现了飞行测试,仿真结果与预测远地点的匹配度达到80%。
OpenMontage 是全球首个开源 Agentic 视频生产系统,通过一句话描述自动完成从研究、脚本到配音、合成的全流程,支持 12 大 Pipeline 和 52 个工具,成本低至几毛钱,GitHub 已获超 16k Star。
A 22-chapter skeleton course on building production AI agents, using an innovative approach where the AI partner fills in details. The course covers tool calling, agent loops, memory, multi-agent collaboration, and more.
介绍ModSleuth,一个智能系统,通过分析公开制品递归重建LLM开发中的大规模依赖图,揭示多跳许可证义务和文档不一致性。
一份关于构建安全Agentic系统的指南,包含沙盒隔离、并行子智能体、带控制策略的工具调用、推理路由以及防范注入和权限提升攻击,由Evangelos Pappas发布。
介绍 Benchmark Agent,一个完全自主的系统,用于创建多样化的基准测试,只需最少的人工干预,支持跨领域的持续模型评估。
Adaptive Auto-Harness 是一个框架,用于在开放式任务流上部署的智能体系统的持续自我改进,通过状态性多智能体进化器、harness树和人工引导钩子超越基线。
一位开发者分享了他们使用 Qwen 3.6 27B 构建具有长期和短期记忆的本地自主代理的经验,指出记忆显著提升了代理的有用性和真实感。他们邀请其他构建类似代理的人讨论记忆技术以及潜在的智能体聚会。
剑桥大学助理教授Elliott Wu团队发布Articraft——一个agentic coding系统,可自动生成带零件、关节和真实运动的可交互3D资产,并开源Articraft-10K数据集,大幅降低机器人训练和物理AI的资产门槛。
微软的新型多模型自主安全系统(MDASH)在 CyberGym 排行榜上位列漏洞发现第一名,实现了 35 个零日发现,展示了先进的 AI 驱动的防御能力。
作者分享了一个使用 Python、Gemini 和 Ollama 构建的可本地运行的 AI 伴侣,其特色是基于全局工作空间理论和集成信息理论代理的定制认知架构,用于人格建模。