标签
Semantic Browsing 引入了一种方法,通过使用一个 Vision Language Model 和代理工作流,在文本到图像生成中实现基于语义决策的结构化、可解释的可控多样性。
一位开发者展示了使用CopilotKit将Attio CRM数据实时生成AI驱动的用户界面(UI)的概念验证集成,并在Codex原生应用中运行,以创建自适应工作流。
发布了一个自定义内核,进一步优化来自Lightricks的LTX-2.3,在GB10上实现了1.52倍加速,基于之前的torch.compile和cuDNN注意力优化。
Aflow是一个基于ACP的工作流原生Agent,帮助团队使用YAML工作流设计、运行、维护和改进持久的Agent流程,使会话易于共享和恢复。
PathoSage 提出了一个三阶段框架,用于病理学多模态推理,该框架将知识检索、证据收集和证据裁决分开,以减少幻觉并处理冲突证据,并包含一个无需训练的 Beta-Bernoulli 经验系统,用于建模工具可靠性。
Az8 Studio 是一个无限画布,带有互联节点,用于多模态 AI 视频管线,支持跨节点的上下文记忆、并行多模型编排以及持久化资产到智能体的工作流。它代表着从线性 AI 工具向空间智能体环境的转变。
讨论agentic workflow中常见的runtime问题(循环预算、工具权限、压缩状态丢失),推荐DenisSergeevitch的agents-best-practices资源,提供provider-neutral的参考,强调将权限、预算、观测作为显式机制。
Struct-Searcher 引入了一种基于信念修正理论的结构化主体工作流,用于多模态深度信息获取,相较于现有的视觉语言模型和深度研究智能体,实现了显著的准确率提升。
AIventure is an open-source dungeon crawler game from Google's Gemma team that integrates Gemma 4 to let players build web apps through NPC prompts, serving as a developer masterclass on agentic workflows and vibe-coding.
吴恩达推出AI Andrew,这是一个模仿其个性的AI伴侣,基于RAG和代理工作流构建,并邀请用户试用。
作者构建了一个代理系统,通过 cron 任务和 Web 服务自动生成并通过小票打印机为孩子们打印个性化的每日简报。
用户基准测试表明,Qwen 3.6 27B dense 模型(Q4 量化)能够在单张 RTX 3090 上通过单次提示自主生成一个完全可玩的多文件游戏,性能显著优于其前代版本,且无需任何人工干预。测试结果突显了在消费级硬件上本地代码生成和智能体能力方面的重大改进。
文章分析了 Anthropic 为何将 Claude Code 桌面应用的新 UI 设计得更简洁冷淡,指出这是为了适配 AI Agent 的视觉盲点,减少认知噪音以提高协同效率,并探讨了人机协作时代审美标准的重构。
作者分享了使用 Claude Code 和 Notion AI MCP 工作流的正面体验,将其描述为一种适用于日常工程任务的实用智能体工作流,并为他人提供了相关指南。
YC CEO Garry Tan分享了他如何利用Claude Code和OpenClaw在13年未写代码后重返开发一线,通过'Thin Harness + Fat Skills'方法论实现400倍效率提升,并开发了agentic新闻平台Garry's List和agent工作流框架Gstack。
# Hermes Agent v0.13.0("韧性版本")发布:持久看板、目标持久化与检查点回滚 Hermes Agent v0.13.0 正式发布,代号"The Tenacity Release"(韧性版本),本次更新带来了持久化看板(Durable Kanban)、持久目标(Persistent Goals)、Checkpoints v2(含回滚功能)以及 8 项 P0 级安全修复,将自身定位为与 Claude Code、Codex 等编码智能体并肩的**运行时持久层**。此次发布恰逢 DeepSeek V4-Pro、MiMo-V2.5-Pro 等支持百万级上下文窗口的低成本模型相继推出,使长期运行的智能体软件变得更具可行性。 ## 核心新特性 ### 持久看板(Durable Kanban) 任务状态不再随会话结束而丢失。看板数据现可跨会话持久保存,智能体可在中断后无缝恢复工作流,无需从头重建任务上下文。 ### 持久目标(Persistent Goals) 智能体的长期目标现在可以跨越多个会话持续存在。这意味着用户无需在每次启动时重新向智能体说明意图,系统能够自主维护目标状态并持续推进执行。 ### Checkpoints v2(含回滚) 升级后的检查点系统引入了**回滚能力**,允许将智能体状态恢复至任意历史检查点。这对于长时间运行的任务尤为关键——一旦某个执行分支出现错误,可直接回退而无需从零重启。 ### 8 项 P0 级安全修复 本次版本针对最高优先级安全漏洞进行了全面修复,共解决 8 个 P0 级问题,进一步强化了生产环境下的部署安全性。 ## 定位:运行时持久层 Hermes Agent 将自身明确定位为**运行时持久层**,与 Claude Code、Codex 等以代码生成为核心的编码智能体形成互补,而非竞争。其核心价值在于为智能体提供可靠的状态管理与执行连续性,解决长期任务中"断点续跑"这一关键工程问题。 ## 时机:百万上下文模型降低门槛 此次发布的时机颇具战略意义。随着 DeepSeek V4-Pro 和 MiMo-V2.5-Pro 等支持百万 token 上下文窗口的模型以极低成本落地,长时间运行的智能体任务从理论走向实践的障碍正在迅速消除。上下文容量的扩展与持久化基础设施的成熟,共同构成了**长期智能体软件**规模化应用的两大前提条件,而 Hermes Agent v0.13.0 正是在这一窗口期及时补上了基础设施侧的关键拼图。
本文介绍了一种自动研究框架,利用专家代理通过代码执行与反馈的经验闭环,迭代优化训练配方。该系统借助谱系反馈(lineage feedback),无需人工干预,即可在 Parameter Golf 和 NanoChat 等任务上自主提升性能。
一个 27B 参数的模型据称在基准测试中击败 Opus 4.5,引发社区质疑,大家呼吁用真实 Agent 工作流验证。
ECC 是一个开源、原生支持工具链的操作系统,用于代理工作,支持多种 AI 代理工具链,如 Claude Code、Cursor 和 GitHub Copilot。它提供技能、直觉、内存优化和安全扫描功能,用于构建生产级的 AI 代理。