@xdotli: 分享我的个人评估库 1/n

X AI KOLs Timeline 2026/06/24 08:04 工具

evals ai-evaluation resource-list curated-list ai-safety

摘要

一条推特串，分享了一个精心整理的个人库，包含关于AI评估（evals）的高质量博客、播客、论文和项目，并欢迎补充。

分享我的个人评估库 1/n 我整理了关于评估的最高质量博客、播客、论文和项目。欢迎补充！https://t.co/YAGJxKfOH1

查看原文

查看缓存全文

缓存时间: 2026/06/24 10:22

分享我的个人评估资料库 1/n

我整理了关于 evals 的最高质量的博客、播客、论文和项目。欢迎补充！

2/n

3/n

4/n

5/n

6/n

7/n

8/n

9/n

10/n

https://github.com/benchflow-ai/awesome-evals…

相似文章

X AI KOLs Timeline

分享一个精选的AI评估（evals）资源库，包含高质量博客、播客、论文和项目，由Xiangyi Li整理。

X AI KOLs Timeline

一份每日被反复转发的11个精选链接，帮你掌握AI评估技术，涵盖评估方法、可观测性、LLM-as-judge与智能体评估。

X AI KOLs Timeline

一条推文串，整理了AI工程的核心资源，涵盖数据集工程、评估、上下文工程、智能体记忆、MCP、可观测性、推理优化和安全性。

X AI KOLs Timeline

一条Twitter帖子列出了20个对AI工程至关重要的GitHub仓库，涵盖了本地AI代理、LLM、图像生成和工作流自动化方面的工具、框架和模型。

arXiv cs.AI

介绍 Every Eval Ever，一个用于标准化AI评估结果的共享架构和社区众包存储库，提供自动转换器和托管数据库，涵盖超过22,000个模型和2,200个基准。