标签
文章认为,AI代理在生产中的主要失败点并非模型本身,而是缺乏基础设施,如停止按钮、账单监控以及工具调用的可追溯性。
一位工程师描述了他们的AI销售智能体如何自信地开具0.00美元的发票,原因是它将空值折扣字段误解为100%折扣,这凸显了调试智能体工作流的难度以及全面执行追踪的必要性。
介绍DeepEval的@observe装饰器,用于LLM应用的组件级追踪与评估,实现对检索器、工具和模型的细粒度洞察。
包括Jane Street、Goldman Sachs和JP Morgan在内的七家领先金融公司已在GitHub上开源了关键工程工具,如magic-trace、gs-quant和perspective,为跟踪、衍生品定价和实时市场监控提供高性能解决方案。
Motus Tracing 是一个完全开源的可观测层,专为 AI 代理设计,能够捕获每一次模型调用、工具调用、沙箱交互和错误,提供统一的跨度模型,支持本地开发和云部署,零设置成本。
一位开发者寻求推荐用于追踪、评估和调试代理工作流的开源替代LangSmith方案,并指出其付费墙限制。
Raindrop Workshop 是一个开源的 AI 代理本地调试器,提供令牌、工具调用和决策的实时流追踪,并与 Claude Code 等编码代理集成,支持自我修复的评估循环和重放。
一个新的开源工具可以通过查看追踪记录实现AI智能体的本地调试,允许使用codex和Claude code等工具自动编写评估并进行测试。
LangSmith Engine 将追踪从被动记录转变为递归智能体自我改进的驱动,自动识别失败并建议代码更改和评估。
VictoriaMetrics在KubeCon EU 2026上介绍了回溯采样,这一新方法与传统OpenTelemetry尾部采样相比,显著降低了流量、CPU和内存开销。
magic-trace是一款高分辨率追踪工具,使用Intel处理器追踪技术,以低开销捕获Linux进程的完整控制流快照,适用于调试和性能分析。