@DanKornas:LLM评估是大多数AI演示开始成为真正系统的地方。LLM-Evaluation是一个公共GitHub资源,包含研讨会幻灯片…

X AI KOLs Timeline 工具

摘要

一条推文宣布了LLM-Evaluation,这是一个公共GitHub仓库,包含用于评估LLM、生成式AI和RAG系统的研讨会幻灯片、示例笔记本、提示词和参考链接,旨在提供评估工作流的实用地图。

LLM评估是大多数AI演示开始成为真正系统的地方。 LLM-Evaluation是一个公共GitHub资源,包含用于评估LLM、生成式AI和RAG系统的研讨会幻灯片、示例笔记本、提示词和参考链接。 它帮助你超越随机的评估博客文章,提供一份实用的地图,包含演讲、笔记本、工具和示例,你可以用来研究评估工作流并比较不同方法。 主要特点: • 研讨会支持的材料 – 包含在评估和RAG研讨会中使用的幻灯片和笔记本 • 会议幻灯片存档 – 来自GenAI Summit、ODSC、Arize和MLOps Generative AI Summit会议的幻灯片、参考资料和视频 • 笔记本示例 – 涵盖LLM Evaluation Harness、Ragas、Agno/Langfuse、Guidance AI测试等 • RAG评估焦点 – 链接到使用Ragas、LangFuse、LangChain、Hugging Face、MLflow和评估飞轮(evaluation flywheels)的示例 • 包含现实检查 – README指出某些笔记本需要OpenAI API密钥,且仅供说明用途,不用于生产环境 免费公共GitHub仓库。 链接在回复中
查看原文
查看缓存全文

缓存时间: 2026/06/18 14:16

LLM 评估是大多数 AI 演示开始成为实际系统的起点。

LLM-Evaluation 是一个公共 GitHub 资源,包含工作坊幻灯片、示例笔记本、提示词以及评估 LLM、生成式 AI 和 RAG 系统的参考链接。

它通过提供由演讲、笔记本、工具和示例组成的实用图谱,帮助您超越随机的评估博客文章,以便您能够研究评估工作流并比较不同方法。

主要功能:

• 工作坊支持的材料——包含在评估和 RAG 工作坊中使用的幻灯片和笔记本 • 会议幻灯片档案——来自 GenAI Summit、ODSC、Arize 和 MLOps Generative AI Summit 会议的演示文稿、参考资料和视频 • 笔记本示例——涵盖 LLM Evaluation Harness、Ragas、Agno/Langfuse、Guidance AI 测试等 • RAG 评估重点——链接到使用 Ragas、LangFuse、LangChain、Hugging Face、MLflow 和评估飞轮的示例 • 包含实际检查——README 指出某些笔记本需要 OpenAI API 密钥,并且仅用于说明目的,不可用于生产环境

免费的公共 GitHub 仓库。 回复中的链接。

相似文章