@DailyDoseOfDS_: 一个Python装饰器即可追踪LLM应用（开源）。大多数LLM评估将应用视为端到端黑箱。

X AI KOLs Timeline 2026/05/22 09:30 工具

python-decorator llm-apps tracing evals open-source deepeval rag

摘要

介绍DeepEval的@observe装饰器，用于LLM应用的组件级追踪与评估，实现对检索器、工具和模型的细粒度洞察。

一个Python装饰器即可追踪LLM应用（开源）。大多数LLM评估将应用视为端到端黑箱。但LLM应用需要组件级别的评估和追踪，因为问题可能出现在黑箱内部的任何地方，比如检索器、工具调用或LLM本身。在DeepEval中，只需3行代码即可实现： - 使用“@ observe”装饰器追踪单个LLM组件（工具、检索器、生成器）。 - 为每个部分附加不同的指标。 - 获得哪些部分正常、哪些有问题的可视化分解。完成！无需重构任何现有代码。以下是一个RAG应用的示例。 Deepeval完全开源，拥有超过1.5万颗星，您可以轻松地自行托管，确保数据留在您希望的位置。仓库链接在回复中！

查看原文

查看缓存全文

缓存时间: 2026/05/22 15:57

一个Python装饰器就能追踪LLM应用（开源）。

大多数LLM评估把应用当作端到端的黑盒来处理。

但LLM应用需要组件级别的评估和追踪，因为问题可能出在盒子内部的任何地方，比如检索器、工具调用，或者LLM本身。

在DeepEval中，你只需3行代码就能做到：

使用@ observe装饰器追踪单个LLM组件（工具、检索器、生成器）。
为每个部分附加不同的指标。
获得可视化的分解视图，了解哪些部分运行正常，哪些有问题。

搞定！

你不需要重构任何现有代码。

下面是一个RAG应用的示例。

Deepeval是100%开源的，拥有15000+颗星，你可以轻松自托管，数据完全由你掌控。

在回复中查看仓库链接！

@DailyDoseOfDS_: 一个Python装饰器即可追踪LLM应用（开源）。大多数LLM评估将应用视为端到端黑箱。

相似文章

@DailyDoseOfDS_: 将任意自回归LLM转换为扩散LM。dLLM是一个Python库，统一了扩散语言模型的训练与评估…

@svpino: 如何为基于LLM的应用实现全面可观测性和自动分析。只需一个库加一行代码…

@DailyDoseOfDS_: OpenAI 为此支付了 50 万美元！> 寻找 LLM 漏洞的 Kaggle 竞赛 DeepTeam 免费实现 20+…

@evanyou: https://x.com/evanyou/status/2060409444123729935

LURE：通过真实使用回放评估降低评估意识

提交意见反馈