构建了一个广播仪表盘,监测来自21个主要来源的AI代理发展动态——这是我正在追踪的内容以及缺失的部分
摘要
一位用户描述构建了一个广播仪表盘,追踪来自arXiv、GitHub和Hugging Face等21个来源的AI代理发展动态,指出了覆盖的强项和不足。
代理相关的发展是目前最难追踪的信号之一——它们同时分布在arXiv论文、GitHub仓库、模型发布说明、事件报告和政策文档中。我一直在运行一个数据管道,从arXiv(cs.AI/cs.LG/cs.CL)、Hugging Face每日论文、Semantic Scholar、GitHub Trending、AI事件数据库(AI Incident Database)、GovAI、CSET以及其他几个来源拉取数据。围绕代理的故事——工具使用、函数调用、多代理框架、推理基准——往往会很好地浮现,因为它们同时触及多个来源。对于这个社区来说,系统的薄弱之处在于:
- 代理基准测试(主要是当论文出现在arXiv上时能捕获,但基准排行榜的变化是不可见的)
- 未在GitHub上流行或未发表论文的开源框架发布
- 来自从业者的实际部署事件(AIID捕获的是正式报告,而非社区轶事)
真心好奇这里实际关注哪些来源以保持对代理领域的最新了解。根据版面规则,我会在评论中放下仪表盘链接。
相似文章
我构建了一个实时排名系统,涵盖所有AI代理和基础模型(开源)
一位开发者推出了AgentTape,这是一个实时排名网站,汇聚来自多个来源(GitHub、Hugging Face、OpenRouter等)的数据,对公开的AI代理和基础模型进行评分和比较,旨在提供超越基准测试的更全面评估。
@hwchase17: https://x.com/hwchase17/status/2053157547985834227
文章概述了一个系统的“智能体开发生命周期”(构建、测试、部署、监控),以有效创建和管理 AI 智能体,重点介绍了 LangChain、LangGraph 和 CrewAI 等关键框架。
MIT的研究人员记录了各大实验室正在部署的30个AI智能体。其中只有4个有公开文档说明该智能体的功能、不能做什么以及发生故障时的处理方式。
MIT研究人员编制了2025年AI Agent Index,记录了来自主要实验室的30个已部署的AI智能体,然而只有4个提供了公开文档,解释智能体的功能、局限性及故障模式,揭示了重大的透明度缺口。
一个AI新闻、博客、论文、仓库、工具和事件的聚合信息流——我建了它,现在却在思考学习是否才是更大的问题
AgenticBrew 是一个新的AI新闻聚合器,从数百个来源抓取信息并将相关故事聚类。现在,其创建者正在探索个性化学习路径功能,根据用户角色和AI认知水平帮助提升技能,并寻求社区意见。
[项目更新] Dunetrace:实时监控您的生产环境 AI Agent
Dunetrace 是一款专为生产环境 AI Agent 设计的开源实时监控工具。此次更新增加了跨 Agent 模式分析、与 Langfuse 的深度分析集成,以及对自定义 Agent 的支持。