标签
一场比较Hyperagent等云原生代理平台与OpenClaw等本地优先方法安全风险的讨论,突显了便利性与控制权之间的权衡。
作者观察到,Zapier 能很好地处理固定工作流,但可变工作流才是他们想使用 AI 智能体的场景。
MIT团队发布了一篇关于Claude Code代理自我进化技能的论文,通过生成-测试-验证-协同进化框架,实现了71.1%的通过率,比Anthropic的技能创造者高出37个百分点。
关于公司应如何衡量AI智能体和技能在生产环境中的实际影响,而不是仅仅依赖基准测试结果的讨论。
奥里奥尔·维尼亚尔斯(Oriol Vinyals)关于 Google Gemini 模型、世界模型、多模态 AI、智能体以及持续学习和真正创新等挑战的讨论摘要。
介绍ToolBench-X,这是一个基准测试,用于评估各种工具环境可靠性隐患下的大语言模型代理,揭示了与干净环境相比性能上的显著差距。
DeepSeek Flash 是一款新的人工智能模型,能够将构建 AI 智能体的成本大幅降低 100 倍,可能彻底改变智能体市场。
OpenAI报告称,智能代理AI,特别是其Codex产品,正在改变工作方式,通过支持更长期的任务并成为跨部门(包括非技术部门)的主要AI工具,且在非开发者中迅速普及。
本文讨论了在AI时代构建原型和使用演示来实现功能产品市场契合度的重要性,并包含了Ruben Casas关于将高层次产品思维与动手实践相结合的观点。
NousResearch 介绍了一种创意构思技能,该技能将提示词路由到来自艺术家和思想家的22种创造性方法中,以平衡可行性和创造力。
推广一门结构化的MIT深度学习课程,内容涵盖基础、生成模型、智能体和序列问题。该课程旨在先建立实践理解,再进入高级主题。
OpenAI 2026年6月的更新将ChatGPT转变为一个主动代理,深度集成Gmail、Outlook和Slack,同时配合Dreaming V3内存大修,引发严重的隐私和安全问题,因为AI会持续监控并对用户的数字生活进行画像分析。
Haystack是一个开源AI框架,用于构建生产级的Agent和RAG流水线,支持多模态、对话式和内容生成应用。
本文考察了精确匹配检索召回率作为长期工具使用代理下游政策分类性能代理指标的可靠性。在τ-bench上使用Qwen2.5分类器进行的实验表明,低条款召回率并不会显著降低分类器的准确率,这表明单独使用检索指标在评估政策信号时可能会产生误导。
Claude Tag 为团队在Slack中使用Claude提供了一种新方式,让AI能够访问Box文件及其他企业内容,将企业内容转化为便携知识库。
OpenInspect 支持完全自托管的背景代理系统,在 Modal Endpoints 上使用 GLM-5.2,强调对推理基础设施的所有权。
新论文提出自压缩语言模型代理,该类代理可自行决定何时清理其推理和工具调用轨迹,以避免积累错误和过时信息。