TriEval：一种资源高效的LLM偏见、毒性及真实性评估流水线

arXiv cs.AI 2026/06/03 04:00 论文

llm-evaluation bias toxicity truthfulness open-source resource-efficient

摘要

TriEval是一个新的流水线，用于同时评估LLM的偏见、毒性和真实性，设计为资源高效并可在标准笔记本电脑上运行。已在Llama 3 8B、Mistral 7B、Gemma 2 9B和Claude Haiku上测试，并以开源形式发布。

arXiv:2606.03036v1 公告类型：新摘要：LLM已从基础聊天机器人演变为AI生态系统的支柱，现广泛应用于医疗、教育和政府服务。LLM的全面采用需要持续评估以确保其安全性和公平性。部署LLM后常见的问题包括输出不一致和错误信息的幻觉。尽管存在众多LLM评估工具，但大多数仅限于一次测试单个参数，或需要大多数研究人员无法获得的大量计算资源。TriEval通过同时评估LLM输出的多个参数（包括偏见、毒性和真实性）来解决这些挑战，同时最大限度地减少计算资源。该流水线兼容开源和闭源模型，并在没有GPU集群的标准笔记本电脑上运行。TriEval已在四种模型上测试：Llama 3 8B、Mistral 7B、Gemma 2 9B和Claude Haiku。结果显示开源和闭源模型之间存在明显差异，尤其是在毒性和真实性方面。TriEval已作为开源发布，以使计算资源有限的研究人员能够更广泛地使用。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:42

# TriEval：面向LLM偏见、毒性及真实性评估的资源高效流水线
来源：https://arxiv.org/abs/2606.03036
查看 PDF（https://arxiv.org/pdf/2606.03036）

> 摘要：大型语言模型已从基础聊天机器人演变为AI生态系统的核心，如今广泛应用于医疗、教育和政府服务等领域。这种全领域的部署要求对LLM进行持续评估，以确保其安全性与公平性。部署LLM后常见的问题包括输出不一致以及产生错误信息的幻觉。尽管存在众多LLM评估工具，但大多数工具一次只能测试单个参数，或需要大多数研究者难以企及的巨大计算资源。TriEval通过同时评估LLM输出在偏见、毒性和真实性等多个参数上的表现，同时最小化计算资源消耗，解决了这些挑战。该流水线兼容开源与闭源模型，可在不配备GPU集群的标准笔记本电脑上运行。TriEval已在Llama 3 8B、Mistral 7B、Gemma 2 9B和Claude Haiku四个模型上进行了测试。结果显示，开源与闭源模型之间存在明显差异，尤其在毒性和真实性方面。TriEval将以开源形式发布，以便计算资源有限的研究者能够更广泛地使用。

## 提交历史

来自：Manpreet Singh \[查看邮箱（https://arxiv.org/show-email/18805c49/2606.03036）\] **\[v1\]** 2026年6月2日，星期二，02:21:38 UTC（1,295 KB）

TriEval：一种资源高效的LLM偏见、毒性及真实性评估流水线

相似文章

TRIDENT：通过三维多样化红队数据合成增强大型语言模型安全性

TriVAL: 一个用于忠实自动优化建模的三重验证框架

Faithful uncertainty in LLM agents: calibration vs utility tradeoff in practice[D]

从基准测试到推理能力：大语言模型在越南法律文本上的双维度大规模评估

我分析了25,500次LLM简历筛选来测量招聘偏见，结果令人警醒。

提交意见反馈