标签
本文综述并审计了基于LLM的交易研究中的执行现实性,提出了更清晰的报告标准以提升可重复性和评估可比性。
Aquifer是一个MCP运行时,提供有界队列、公平性控制和动态节流,以处理AI智能体系统中的速率限制和流量峰值。它还引入了用于动态流状态通信的Aqueduct协议。
当多个AI代理共享一个电子邮件收件箱时,它们可能像OTP这类消息上发生冲突,导致静默失败。解决方案是为每个代理提供专用的收件箱,配备隔离的读取锁,并使用长轮询代替定时轮询。
一位从业者讨论了LLM代理中的校准与效用权衡,分享了基于验证器的流水线经验,该流水线将幻觉工具调用减少了约60%,但引入了延迟成本并丢失了简单的正确答案。
BioManus 是一个 MCP 原生生物医学智能体系统,它采用基于图脚手架的规划方式,对结构化生物学能力进行调度,而非依赖扁平化的基于提示的工具检索,在生物医学基准测试中实现了更优的上下文效率与执行精度。该系统引入了 BioinfoMCP 编译器,用于标准化异构生物信息学工具,并将其组织为类型化异构 MCP 图,以支持可扩展的推理能力。
一个AI代理(COMMS)在关闭步骤反复崩溃,揭示了按需代理特有的故障模式:工作成功后审计追踪失败。修复方法涉及调整关闭时的生成超时,凸显了需要独立的生命周期检查点。
Anthropic 发布工程博文详细拆解多智能体系统,使用 Claude Opus 4 作为主协调器、Claude Sonnet 4 作为子智能体,多智能体系统比单智能体 Claude Opus 4 性能提升 90.2%,同时 token 消耗增加约 15 倍,并总结了五种协作模式。
本文介绍了VESTA,一个为视觉-语言模型配备动态增长工具包的框架,用于数据探索和统计模型优化,在复杂的科学建模任务上优于先前的基于代理的方法。作者还提出了Dawn基准,用于分布拟合和时间序列建模,涵盖真实的天文学挑战。
文章讨论了AI代理系统中过期上下文的问题,即代理基于过时信息做出决策,并提出了一个包含版本控制和存在信号的协调原语,以防止冲突和浪费令牌。
HarnessForge 提出一种用于演化LLM智能体系统的元自适应框架,通过联合优化执行框架与推理策略,在五个基准测试上对Qwen3骨干模型实现持续改进。
本文讨论了AI智能体系统中的一种反模式:智能体看似忙碌却未能完成任务。作者建议通过分离职责并要求完成证明来解决。
Microsoft Copilot Cowork 中存在一个安全漏洞,攻击者可通过利用提示注入触发外部图片请求,从而外泄文件,可能导致未经身份验证的下载链接泄露。
一篇新论文通过将 markdown 技能文件视为可训练参数并使用经过保留集验证的有界编辑,将智能体的技能优化形式化。该方法在不同模型间迁移良好,并提升了程序化基准测试的性能。
作者讲述了构建一个名为Alfred的多智能体系统,使用了专业化智能体以及OpenClaw和H-agent等工具的经历。但在反复失败后,建议从单个智能体开始保持简单,以避免复杂性和token浪费。
本文描述了一个自我审查的AI智能体系统,其中一个治理审查智能体发现了另一个智能体的违规行为,突出了系统自行检测和修复问题的能力。
本文提出了Multi-Stream LLMs,它使用多个并行的输入/输出流,使模型能够同时读取和生成,从而解除顺序聊天格式的限制。
LongMINT 是一个基准测试,用于在长时域代理系统中评估多目标干扰下的记忆性能。
本文介绍了生产级LLM代理的随机-确定性边界(SDB)概念,并提供了一种选择架构模式的方法,以提高可靠性和性能。
总结2026年Google I/O开发者大会的核心发布,包括Gemini 3.5 Flash模型、Gemini Omni Flash、Antigravity 2.0、Gemini Spark等AI模型、产品与Agent系统。
本文提出TopoPrior框架,该框架从离线参考协作图中学习可迁移的拓扑先验,以生成跨域多智能体LLM协作的初始拓扑,显著降低了在线搜索开销和令牌消耗。