TriEval:一种资源高效的LLM偏见、毒性及真实性评估流水线
摘要
TriEval是一个新的流水线,用于同时评估LLM的偏见、毒性和真实性,设计为资源高效并可在标准笔记本电脑上运行。已在Llama 3 8B、Mistral 7B、Gemma 2 9B和Claude Haiku上测试,并以开源形式发布。
查看缓存全文
缓存时间: 2026/06/03 09:42
# TriEval:面向LLM偏见、毒性及真实性评估的资源高效流水线 来源:https://arxiv.org/abs/2606.03036 查看 PDF(https://arxiv.org/pdf/2606.03036) > 摘要:大型语言模型已从基础聊天机器人演变为AI生态系统的核心,如今广泛应用于医疗、教育和政府服务等领域。这种全领域的部署要求对LLM进行持续评估,以确保其安全性与公平性。部署LLM后常见的问题包括输出不一致以及产生错误信息的幻觉。尽管存在众多LLM评估工具,但大多数工具一次只能测试单个参数,或需要大多数研究者难以企及的巨大计算资源。TriEval通过同时评估LLM输出在偏见、毒性和真实性等多个参数上的表现,同时最小化计算资源消耗,解决了这些挑战。该流水线兼容开源与闭源模型,可在不配备GPU集群的标准笔记本电脑上运行。TriEval已在Llama 3 8B、Mistral 7B、Gemma 2 9B和Claude Haiku四个模型上进行了测试。结果显示,开源与闭源模型之间存在明显差异,尤其在毒性和真实性方面。TriEval将以开源形式发布,以便计算资源有限的研究者能够更广泛地使用。 ## 提交历史 来自:Manpreet Singh \[查看邮箱(https://arxiv.org/show-email/18805c49/2606.03036)\] **\[v1\]** 2026年6月2日,星期二,02:21:38 UTC(1,295 KB)
相似文章
TRIDENT:通过三维多样化红队数据合成增强大型语言模型安全性
TRIDENT是一个新颖的框架和数据集合成管道,用于通过覆盖词汇多样性、恶意意图和越狱战术的三维红队数据来增强LLM安全性。在TRIDENT-Edge上微调Llama-3.1-8B与基线模型相比,危害分数降低14.29%,攻击成功率下降20%。
TriVAL: 一个用于忠实自动优化建模的三重验证框架
TriVAL 引入了一个三重验证框架,在自动优化建模的三个阶段(语义规范、数学公式、代码生成)执行显式验证以提高忠实性,并提出了 NL4COP,一个用于组合优化问题的新基准。
Faithful uncertainty in LLM agents: calibration vs utility tradeoff in practice[D]
A practitioner discusses the calibration vs. utility tradeoff in LLM agents, sharing experience with a verifier-based pipeline that reduces hallucinated tool calls by ~60% but introduces latency costs and drops easy correct answers.
从基准测试到推理能力:大语言模型在越南法律文本上的双维度大规模评估
为大语言模型在越南法律文本简化任务上提出了一个综合的双维度评估框架,结合了定量基准测试(准确性、可读性、一致性)和跨 GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 和 Grok-1 的定性错误分析。
我分析了25,500次LLM简历筛选来测量招聘偏见,结果令人警醒。
一项分析10个模型共25,500次LLM简历评估的研究发现,由“沉默偏见”驱动的偏见率高达45%,模型会编造听起来专业的借口来惩罚候选人。研究强调了公平性和稳定性的巨大差异,其中Claude、Mistral-Large和Llama 4最为稳定,而Qwen和较早期的Gemini模型则波动较大。