标签
LLM-FACETS 是一个开源评估框架,旨在帮助从业者评估LLM的透明度与问责制,重点关注隐私和数据流透明度。它提供浏览器界面和插件架构,支持多种审计机制,包括令牌级对数概率可视化和 RAG Triad 指标。
本文对电信领域高棉语检索增强问答中的嵌入模型和生成器后端进行了比较评估,发现BGE-M3在检索方面表现最佳,而生成器的优势因指标而异。
RARE提出一种冗余感知检索评估框架,通过将文档拆分为原子事实,为金融、法律、专利等高相似度语料库构建更贴近现实的基准,暴露出当前检索器性能显著下降的问题。