当无基准存在时:验证无真实标签的LLM安全评分比较

Hugging Face Daily Papers 论文

摘要

本文介绍了一个框架,用于在没有真实标签的情况下验证LLM安全评分比较,通过使用'工具有效性链'来建立部署证据。该方法通过一个名为SimpleAudit的本地优先工具在挪威安全包上进行了演示,并比较了Borealis和Gemma 3等模型。

许多部署场景必须在相关语言、行业或监管制度尚无标记基准的情况下,比较候选语言模型的安全性。我们将此场景形式化为无基准比较安全评分,并指定了将基于场景的审计解释为部署证据的合约条件。评分仅在固定的场景包、评分标准、审计者、评判者、采样配置和重运行预算下有效。由于没有标签可用,我们用工具有效性链替代了真实标签的一致性:对受控安全与消融对照的响应性、目标驱动方差对审计者和评判者人工制品的支配性,以及跨重运行的稳定性。 我们在SimpleAudit中实例化了该链条,SimpleAudit是一个本地优先的评分工具,并在挪威安全包上进行了验证。安全目标与消融目标之间的分离AUROC值在0.89到1.00之间,目标身份是主要方差成分(η²约0.52),严重性轮廓在十次重运行后趋于稳定。将同一链条应用于Petri表明,该链条兼容两种工具。实质性差异出现在链条上游,即声明-合约执行和部署适配方面。一个挪威公共部门采购案例比较了Borealis和Gemma 3,展示了实际中的证据:较安全的模型取决于场景类别和风险度量。因此,分数、匹配的差值、临界率、不确定性以及所使用的审计者和评判者必须一起报告,而非合并为一个单一排名。
查看原文
查看缓存全文

缓存时间: 2026/05/08 10:54

论文页面 - 当没有基准存在时:验证无真实标签的比较性大语言模型安全评分

来源:https://huggingface.co/papers/2605.06652

摘要

在没有标注基准的情况下进行比较性安全评分,需要依赖基于场景的审计,并辅以衡量响应性、方差主导性和稳定性的有效性链,以建立部署证据。

许多部署场景在相关语言、行业或监管体系缺乏标注基准时,必须对候选语言模型进行安全比较。我们将此情境形式化为无基准比较性安全评分 (https://huggingface.co/papers?q=benchmarkless%20comparative%20safety%20scoring),并规定了在何种契约下,基于场景的审计 (https://huggingface.co/papers?q=scenario-based%20audit) 可被解释为部署证据。评分仅在固定的场景包、评分标准、审计员、评判器、采样配置和重跑预算 (https://huggingface.co/papers?q=rerun%20budget) 下有效。由于没有真实标签可用,我们以工具有效性链 (https://huggingface.co/papers?q=instrumental-validity%20chain) 替代真实标签一致性:该链条包含对受控安全与消融对比的响应性、目标驱动方差 (https://huggingface.co/papers?q=target-driven%20variance) 对审计员和评判器伪影 (https://huggingface.co/papers?q=judge%20artifacts) 的主导性,以及跨重跑的稳定性。我们在 SimpleAudit(一个本地优先的评分工具 (https://huggingface.co/papers?q=local-first%20scoring%20instrument))中实例化该链条,并在一个挪威语安全包 (https://huggingface.co/papers?q=safety%20pack) 上进行了验证。安全与消融目标的AUROC (https://huggingface.co/papers?q=AUROC) 值介于 0.89 到 1.00 之间,目标身份是主导方差成分(η²约 0.52),严重性分布在大约十次重跑后趋于稳定。将同一链条应用于 Petri 表明该链条兼容两种工具。实质性差异出现在链条上游,即主张-契约执行和部署适配方面。一个挪威公共部门采购案例(比较 Borealis 和 Gemma 3)展示了实际应用中的证据:更安全的模型取决于场景类别和风险度量。因此,评分、匹配差异、临界率、不确定性以及所使用的审计员和评判器必须一同报告,而非简化为单一排名。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06652) 查看 PDF (https://arxiv.org/pdf/2605.06652) GitHub (https://github.com/kelkalot/simpleaudit) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.06652)

在你的智能体中获取这篇论文:

hf papers read 2605.06652

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.06652 即可从本页链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.06652 即可从本页链接。

引用此论文的 Space0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2605.06652 即可从本页链接。

包含此论文的收藏0

没有包含此论文的收藏

将此论文添加到收藏 (https://huggingface.co/new-collection) 即可从本页链接。

相似文章

Gate AI:LLM安全基准评估方法与结果

arXiv cs.LG

本文提出了一种针对LLM安全检测器的评估方法,旨在解决诸如按数据集调阈值、未公开操作点等系统性缺陷。该框架在16个基准上进行交叉验证,选取单一全局操作点,并包含多项泛化能力诊断指标。

超越静态排行榜:LLM智能体评估的预测有效性

Hugging Face Daily Papers

本文认为,针对LLM智能体基准测试的聚合得分排行榜未能捕捉到与部署相关的维度,并且表现出排名不稳定性。文章提出根据预测有效性(即样本内排名与样本外排名之间的相关性)来对配置进行排序,并引入了一个十二层级的测量体系以及可证伪的分布外准则。

IndustryBench:探测大语言模型在工业知识领域的边界

Hugging Face Daily Papers

本文介绍了 IndustryBench,这是一个针对中文工业采购问答的大语言模型基准测试,以国家标准为参照评估模型表现,突显了安全合规方面的差距。研究揭示,在考虑安全违规的情况下,扩展推理往往会导致安全调整后的评分降低,并改变模型的排名。