@DailyDoseOfDS_: 一个Python装饰器即可追踪LLM应用(开源)。大多数LLM评估将应用视为端到端黑箱。

X AI KOLs Timeline 工具

摘要

介绍DeepEval的@observe装饰器,用于LLM应用的组件级追踪与评估,实现对检索器、工具和模型的细粒度洞察。

一个Python装饰器即可追踪LLM应用(开源)。 大多数LLM评估将应用视为端到端黑箱。 但LLM应用需要组件级别的评估和追踪,因为问题可能出现在黑箱内部的任何地方,比如检索器、工具调用或LLM本身。 在DeepEval中,只需3行代码即可实现: - 使用“@ observe”装饰器追踪单个LLM组件(工具、检索器、生成器)。 - 为每个部分附加不同的指标。 - 获得哪些部分正常、哪些有问题的可视化分解。 完成! 无需重构任何现有代码。 以下是一个RAG应用的示例。 Deepeval完全开源,拥有超过1.5万颗星,您可以轻松地自行托管,确保数据留在您希望的位置。 仓库链接在回复中!
查看原文
查看缓存全文

缓存时间: 2026/05/22 15:57

一个Python装饰器就能追踪LLM应用(开源)。

大多数LLM评估把应用当作端到端的黑盒来处理。

但LLM应用需要组件级别的评估和追踪,因为问题可能出在盒子内部的任何地方,比如检索器、工具调用,或者LLM本身。

在DeepEval中,你只需3行代码就能做到:

  • 使用@ observe装饰器追踪单个LLM组件(工具、检索器、生成器)。
  • 为每个部分附加不同的指标。
  • 获得可视化的分解视图,了解哪些部分运行正常,哪些有问题。

搞定!

你不需要重构任何现有代码。

下面是一个RAG应用的示例。

Deepeval是100%开源的,拥有15000+颗星,你可以轻松自托管,数据完全由你掌控。

在回复中查看仓库链接!

相似文章

LURE:通过真实使用回放评估降低评估意识

arXiv cs.CL

本文提出了LURE(真实使用回放评估),一种通过回放真实的智能体交互轨迹并在末尾附加评估提示来构建类似部署环境的真实评估的方法,与现有基准相比,降低了评估的可检测性。