@DanKornas:LLM评估是大多数AI演示开始成为真正系统的地方。LLM-Evaluation是一个公共GitHub资源,包含研讨会幻灯片…
摘要
一条推文宣布了LLM-Evaluation,这是一个公共GitHub仓库,包含用于评估LLM、生成式AI和RAG系统的研讨会幻灯片、示例笔记本、提示词和参考链接,旨在提供评估工作流的实用地图。
查看缓存全文
缓存时间: 2026/06/18 14:16
LLM 评估是大多数 AI 演示开始成为实际系统的起点。
LLM-Evaluation 是一个公共 GitHub 资源,包含工作坊幻灯片、示例笔记本、提示词以及评估 LLM、生成式 AI 和 RAG 系统的参考链接。
它通过提供由演讲、笔记本、工具和示例组成的实用图谱,帮助您超越随机的评估博客文章,以便您能够研究评估工作流并比较不同方法。
主要功能:
• 工作坊支持的材料——包含在评估和 RAG 工作坊中使用的幻灯片和笔记本 • 会议幻灯片档案——来自 GenAI Summit、ODSC、Arize 和 MLOps Generative AI Summit 会议的演示文稿、参考资料和视频 • 笔记本示例——涵盖 LLM Evaluation Harness、Ragas、Agno/Langfuse、Guidance AI 测试等 • RAG 评估重点——链接到使用 Ragas、LangFuse、LangChain、Hugging Face、MLflow 和评估飞轮的示例 • 包含实际检查——README 指出某些笔记本需要 OpenAI API 密钥,并且仅用于说明目的,不可用于生产环境
免费的公共 GitHub 仓库。 回复中的链接。
相似文章
@DanKornas: 跟踪LLM系统研究变得混乱,当论文、报告、框架和课程链接散落在各处…
LLMSys-PaperList 是一个在GitHub上精心策划的阅读列表,它将LLM系统研究论文和资源组织成实用的类别,如训练系统、服务系统和多模态覆盖,帮助AI/ML工程师和研究人员保持更新。
@DanKornas: 别再通过随机图表学习大语言模型系统设计了。genai-llm-ml-case-studies 是一个精心策划的 GitHub 合集,包含 500 多个…
一个精心策划的 GitHub 合集,包含来自 130 多家公司的 500 多个真实的 GenAI、LLM 和 ML 系统设计案例研究,按行业、用例、公司和架构模式组织。基于 MIT 许可证开源。
FactoryLLM: 一个用于在智能工厂中评估LLM的安全开源AI试验场
FactoryLLM是一个开源AI试验场,用于评估智能工厂故障诊断中基于LLM的RAG模型,支持本地LLM和双重评估指标。一项包含三个LLM的案例研究显示,在来自600页跨机器文档的30个维护查询中,接地性得分均超过0.88。
我们一直在分析人们如何在法律与合规任务中使用LLM(GDPR、AI法案等)。
对LLM在法律与合规任务中使用的分析显示,模型常常生成自信但无法验证的引用,引发了对AI输出可靠法律依据的质疑。
@DanKornas: LLM 可解释性是个深坑。这个仓库为你提供了地图。Awesome LLM Interpretability 是一个精选的 GitHub 列表……
这是一个精选的 GitHub 列表,汇总了 LLM 可解释性领域的工具、论文和社区,帮助研究人员高效地了解该领域。