TriEval:一种资源高效的LLM偏见、毒性及真实性评估流水线

arXiv cs.AI 论文

摘要

TriEval是一个新的流水线,用于同时评估LLM的偏见、毒性和真实性,设计为资源高效并可在标准笔记本电脑上运行。已在Llama 3 8B、Mistral 7B、Gemma 2 9B和Claude Haiku上测试,并以开源形式发布。

arXiv:2606.03036v1 公告类型:新 摘要:LLM已从基础聊天机器人演变为AI生态系统的支柱,现广泛应用于医疗、教育和政府服务。LLM的全面采用需要持续评估以确保其安全性和公平性。部署LLM后常见的问题包括输出不一致和错误信息的幻觉。尽管存在众多LLM评估工具,但大多数仅限于一次测试单个参数,或需要大多数研究人员无法获得的大量计算资源。TriEval通过同时评估LLM输出的多个参数(包括偏见、毒性和真实性)来解决这些挑战,同时最大限度地减少计算资源。该流水线兼容开源和闭源模型,并在没有GPU集群的标准笔记本电脑上运行。TriEval已在四种模型上测试:Llama 3 8B、Mistral 7B、Gemma 2 9B和Claude Haiku。结果显示开源和闭源模型之间存在明显差异,尤其是在毒性和真实性方面。TriEval已作为开源发布,以使计算资源有限的研究人员能够更广泛地使用。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:42

# TriEval:面向LLM偏见、毒性及真实性评估的资源高效流水线
来源:https://arxiv.org/abs/2606.03036
查看 PDF(https://arxiv.org/pdf/2606.03036)

> 摘要:大型语言模型已从基础聊天机器人演变为AI生态系统的核心,如今广泛应用于医疗、教育和政府服务等领域。这种全领域的部署要求对LLM进行持续评估,以确保其安全性与公平性。部署LLM后常见的问题包括输出不一致以及产生错误信息的幻觉。尽管存在众多LLM评估工具,但大多数工具一次只能测试单个参数,或需要大多数研究者难以企及的巨大计算资源。TriEval通过同时评估LLM输出在偏见、毒性和真实性等多个参数上的表现,同时最小化计算资源消耗,解决了这些挑战。该流水线兼容开源与闭源模型,可在不配备GPU集群的标准笔记本电脑上运行。TriEval已在Llama 3 8B、Mistral 7B、Gemma 2 9B和Claude Haiku四个模型上进行了测试。结果显示,开源与闭源模型之间存在明显差异,尤其在毒性和真实性方面。TriEval将以开源形式发布,以便计算资源有限的研究者能够更广泛地使用。

## 提交历史

来自:Manpreet Singh \[查看邮箱(https://arxiv.org/show-email/18805c49/2606.03036)\] **\[v1\]** 2026年6月2日,星期二,02:21:38 UTC(1,295 KB)

相似文章

我分析了25,500次LLM简历筛选来测量招聘偏见,结果令人警醒。

Reddit r/artificial

一项分析10个模型共25,500次LLM简历评估的研究发现,由“沉默偏见”驱动的偏见率高达45%,模型会编造听起来专业的借口来惩罚候选人。研究强调了公平性和稳定性的巨大差异,其中Claude、Mistral-Large和Llama 4最为稳定,而Qwen和较早期的Gemini模型则波动较大。