当无基准存在时：验证无真实标签的LLM安全评分比较

Hugging Face Daily Papers 2026/05/07 00:00 论文

摘要

本文介绍了一个框架，用于在没有真实标签的情况下验证LLM安全评分比较，通过使用'工具有效性链'来建立部署证据。该方法通过一个名为SimpleAudit的本地优先工具在挪威安全包上进行了演示，并比较了Borealis和Gemma 3等模型。

许多部署场景必须在相关语言、行业或监管制度尚无标记基准的情况下，比较候选语言模型的安全性。我们将此场景形式化为无基准比较安全评分，并指定了将基于场景的审计解释为部署证据的合约条件。评分仅在固定的场景包、评分标准、审计者、评判者、采样配置和重运行预算下有效。由于没有标签可用，我们用工具有效性链替代了真实标签的一致性：对受控安全与消融对照的响应性、目标驱动方差对审计者和评判者人工制品的支配性，以及跨重运行的稳定性。我们在SimpleAudit中实例化了该链条，SimpleAudit是一个本地优先的评分工具，并在挪威安全包上进行了验证。安全目标与消融目标之间的分离AUROC值在0.89到1.00之间，目标身份是主要方差成分（η²约0.52），严重性轮廓在十次重运行后趋于稳定。将同一链条应用于Petri表明，该链条兼容两种工具。实质性差异出现在链条上游，即声明-合约执行和部署适配方面。一个挪威公共部门采购案例比较了Borealis和Gemma 3，展示了实际中的证据：较安全的模型取决于场景类别和风险度量。因此，分数、匹配的差值、临界率、不确定性以及所使用的审计者和评判者必须一起报告，而非合并为一个单一排名。

查看原文

查看缓存全文

缓存时间: 2026/05/08 10:54

论文页面 - 当没有基准存在时：验证无真实标签的比较性大语言模型安全评分

来源：https://huggingface.co/papers/2605.06652

摘要

在没有标注基准的情况下进行比较性安全评分，需要依赖基于场景的审计，并辅以衡量响应性、方差主导性和稳定性的有效性链，以建立部署证据。

许多部署场景在相关语言、行业或监管体系缺乏标注基准时，必须对候选语言模型进行安全比较。我们将此情境形式化为无基准比较性安全评分 (https://huggingface.co/papers?q=benchmarkless%20comparative%20safety%20scoring)，并规定了在何种契约下，基于场景的审计 (https://huggingface.co/papers?q=scenario-based%20audit) 可被解释为部署证据。评分仅在固定的场景包、评分标准、审计员、评判器、采样配置和重跑预算 (https://huggingface.co/papers?q=rerun%20budget) 下有效。由于没有真实标签可用，我们以工具有效性链 (https://huggingface.co/papers?q=instrumental-validity%20chain) 替代真实标签一致性：该链条包含对受控安全与消融对比的响应性、目标驱动方差 (https://huggingface.co/papers?q=target-driven%20variance) 对审计员和评判器伪影 (https://huggingface.co/papers?q=judge%20artifacts) 的主导性，以及跨重跑的稳定性。我们在 SimpleAudit（一个本地优先的评分工具 (https://huggingface.co/papers?q=local-first%20scoring%20instrument)）中实例化该链条，并在一个挪威语安全包 (https://huggingface.co/papers?q=safety%20pack) 上进行了验证。安全与消融目标的AUROC (https://huggingface.co/papers?q=AUROC) 值介于 0.89 到 1.00 之间，目标身份是主导方差成分（η²约 0.52），严重性分布在大约十次重跑后趋于稳定。将同一链条应用于 Petri 表明该链条兼容两种工具。实质性差异出现在链条上游，即主张-契约执行和部署适配方面。一个挪威公共部门采购案例（比较 Borealis 和 Gemma 3）展示了实际应用中的证据：更安全的模型取决于场景类别和风险度量。因此，评分、匹配差异、临界率、不确定性以及所使用的审计员和评判器必须一同报告，而非简化为单一排名。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06652) 查看 PDF (https://arxiv.org/pdf/2605.06652) GitHub (https://github.com/kelkalot/simpleaudit) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.06652)

在你的智能体中获取这篇论文：

hf papers read 2605.06652

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.06652 即可从本页链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.06652 即可从本页链接。

引用此论文的 Space0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2605.06652 即可从本页链接。

包含此论文的收藏0

没有包含此论文的收藏

将此论文添加到收藏 (https://huggingface.co/new-collection) 即可从本页链接。

当无基准存在时：验证无真实标签的LLM安全评分比较

论文页面 - 当没有基准存在时：验证无真实标签的比较性大语言模型安全评分

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏0

相似文章

Gate AI：LLM安全基准评估方法与结果

压力测试医学大语言模型揭示基准准确率之外的潜在安全病理

超越静态排行榜：LLM智能体评估的预测有效性

基准审计中的可靠性差距：分布偏移与规模作为污染检测的失效模式

IndustryBench：探测大语言模型在工业知识领域的边界

提交意见反馈