@DailyDoseOfDS_: 一个Python装饰器即可追踪LLM应用(开源)。大多数LLM评估将应用视为端到端黑箱。
摘要
介绍DeepEval的@observe装饰器,用于LLM应用的组件级追踪与评估,实现对检索器、工具和模型的细粒度洞察。
一个Python装饰器即可追踪LLM应用(开源)。
大多数LLM评估将应用视为端到端黑箱。
但LLM应用需要组件级别的评估和追踪,因为问题可能出现在黑箱内部的任何地方,比如检索器、工具调用或LLM本身。
在DeepEval中,只需3行代码即可实现:
- 使用“@ observe”装饰器追踪单个LLM组件(工具、检索器、生成器)。
- 为每个部分附加不同的指标。
- 获得哪些部分正常、哪些有问题的可视化分解。
完成!
无需重构任何现有代码。
以下是一个RAG应用的示例。
Deepeval完全开源,拥有超过1.5万颗星,您可以轻松地自行托管,确保数据留在您希望的位置。
仓库链接在回复中!
查看缓存全文
缓存时间: 2026/05/22 15:57
一个Python装饰器就能追踪LLM应用(开源)。
大多数LLM评估把应用当作端到端的黑盒来处理。
但LLM应用需要组件级别的评估和追踪,因为问题可能出在盒子内部的任何地方,比如检索器、工具调用,或者LLM本身。
在DeepEval中,你只需3行代码就能做到:
- 使用
@ observe装饰器追踪单个LLM组件(工具、检索器、生成器)。 - 为每个部分附加不同的指标。
- 获得可视化的分解视图,了解哪些部分运行正常,哪些有问题。
搞定!
你不需要重构任何现有代码。
下面是一个RAG应用的示例。
Deepeval是100%开源的,拥有15000+颗星,你可以轻松自托管,数据完全由你掌控。
在回复中查看仓库链接!
相似文章
@DailyDoseOfDS_: 将任意自回归LLM转换为扩散LM。dLLM是一个Python库,统一了扩散语言模型的训练与评估…
dLLM是一个开源Python库,能以极少的计算资源将任意自回归语言模型转换为扩散语言模型,统一训练和评估。
@svpino: 如何为基于LLM的应用实现全面可观测性和自动分析。只需一个库加一行代码…
这条推文推广了一个库,只需一行代码即可为基于LLM的应用提供全面可观测性和自动分析,声称可以免费获取大量有价值的信息。
@DailyDoseOfDS_: OpenAI 为此支付了 50 万美元!> 寻找 LLM 漏洞的 Kaggle 竞赛 DeepTeam 免费实现 20+…
DeepTeam 是一款免费的开源工具,实现了 20 多种最先进的攻击技术,可检测包括偏见和个人信息(PII)泄露在内的 50 多种 LLM 漏洞,可在本地运行且无需数据集。
@evanyou: https://x.com/evanyou/status/2060409444123729935
一位开发者分享了一个有趣的案例:在浏览器中运行LLM以检查其内部工作原理,强调了客户端AI的一个有意义场景。
LURE:通过真实使用回放评估降低评估意识
本文提出了LURE(真实使用回放评估),一种通过回放真实的智能体交互轨迹并在末尾附加评估提示来构建类似部署环境的真实评估的方法,与现有基准相比,降低了评估的可检测性。