标签
本文介绍了一个自动化管道,用于优化企业AI代理中的自然语言技能描述以解决技能冲突,其性能与手动调优相当,速度提升32倍。消融实验表明,使用错误案例的单次LLM重写即可捕获大部分改进,而其他设计选择影响甚微。
一则推特帖子总结了 Latent.Space 播客一期节目(与 Databricks 联合创始人)的要点,涵盖 Databricks 为何击败 Snowflake、元工具链的兴起、Neon 的成功、通过 LTAP 实现 HTAP、MosaicML 的命运,以及在大公司中保持初创文化。
EnterpriseClawBench 提出了一个基于真实工作场景的企业智能体基准,包含 852 个可复现任务以及超越单一性能分数的综合评估指标。
本文介绍了 Queen-Bee,一种用于企业 MCP 编排的受管控多智能体架构,该架构通过 BeeSpec 中间表示分离了规划与执行,在原型评估中实现了高任务成功率且零治理失败。
Tavily、Gradium、Nebius 和 Cursor 将于 5 月 29 日在柏林举办一场全天黑客马拉松,专注于构建能够交易和执行的自主 AI 智能体。活动内容包括技术讲座、开发实战和奖品。
LangChain 在 Interrupt 2026 上发布了 SmithDB(一款专为智能体可观测性设计的分布式数据库)、Context Hub(用于管理智能体上下文的中心化系统,附带开放记忆标准)以及 Deep Agents v0.6。同时还有来自企业案例研究和 Andrew Ng 与 Harrison Chase 的主题演讲。
一位企业代理开发者讨论了使用像Ling 1T 2.6这样的开源模型的权衡,强调了相比于专有API,优化和基准测试的高昂开销。