标签
Latitude是一个开源的人工智能代理监控工具,提供针对基于LLM的代理的问题检测、追踪和评估,类似于Sentry对于AI的作用。
一条关于Latitude的推文,这是一个开源的智能体可观测性工具,可帮助可视化AI智能体的行为和token使用情况,并且能够直接在编辑器中捕获并修复重复出现的故障。
LangChain 和 Fireworks 微调了 Qwen 模型,用于检测代理轨迹中的“感知错误”,实现了 100 倍成本降低,同时保持前沿性能。该评判器模型旨在用错误信号丰富轨迹,以监控代理系统。
LangSmith Observability 为 AI 代理提供实时监控,帮助快速识别性能问题。
agent-pd 是一个开源的日志和监控工具,用于 Claude Code 代理,它记录所有工具和权限事件,并通过确定性检测器重放这些事件以捕获违规行为,而不会阻止任何操作。
Adrian 是一个开源 AI 代理运行时安全监控引擎,通过联合分析代理的行为日志和推理链进行异常检测,比纯行为检查准确率提升 35%,支持 LangChain 两行 SDK 接入。
一个日志钩子和CLI工具,能够将所有来自Claude Code代理及子代理的工具调用和权限事件记录到会话日志中,然后重放日志以审计不当行为,如未经授权的文件读取或权限提升。这是一个只记录不拦截的飞行记录器,而非阻止器。
Braintrust的Topics功能利用LLM摘要,使得生产环境中的代理追踪在大规模聚类和分类中变得可控,该方法受Anthropic的Clio方法启发。
提出 Agent-ToM,一种基于心智理论推理的学习监控框架,通过推断信念和意图来检测自主LLM智能体中的隐蔽恶意行为,性能优于基线监控器。
一款旨在检测智能体系统中静默协调失败(如无限循环和流量激增)的开源工具,未来计划推出 FinOps 功能以追踪成本并防止预算超支。
Dunetrace 是一款专为生产环境 AI Agent 设计的开源实时监控工具。此次更新增加了跨 Agent 模式分析、与 Langfuse 的深度分析集成,以及对自定义 Agent 的支持。