当无基准存在时:验证无真实标签的LLM安全评分比较
摘要
本文介绍了一个框架,用于在没有真实标签的情况下验证LLM安全评分比较,通过使用'工具有效性链'来建立部署证据。该方法通过一个名为SimpleAudit的本地优先工具在挪威安全包上进行了演示,并比较了Borealis和Gemma 3等模型。
查看缓存全文
缓存时间: 2026/05/08 10:54
论文页面 - 当没有基准存在时:验证无真实标签的比较性大语言模型安全评分
来源:https://huggingface.co/papers/2605.06652
摘要
在没有标注基准的情况下进行比较性安全评分,需要依赖基于场景的审计,并辅以衡量响应性、方差主导性和稳定性的有效性链,以建立部署证据。
许多部署场景在相关语言、行业或监管体系缺乏标注基准时,必须对候选语言模型进行安全比较。我们将此情境形式化为无基准比较性安全评分 (https://huggingface.co/papers?q=benchmarkless%20comparative%20safety%20scoring),并规定了在何种契约下,基于场景的审计 (https://huggingface.co/papers?q=scenario-based%20audit) 可被解释为部署证据。评分仅在固定的场景包、评分标准、审计员、评判器、采样配置和重跑预算 (https://huggingface.co/papers?q=rerun%20budget) 下有效。由于没有真实标签可用,我们以工具有效性链 (https://huggingface.co/papers?q=instrumental-validity%20chain) 替代真实标签一致性:该链条包含对受控安全与消融对比的响应性、目标驱动方差 (https://huggingface.co/papers?q=target-driven%20variance) 对审计员和评判器伪影 (https://huggingface.co/papers?q=judge%20artifacts) 的主导性,以及跨重跑的稳定性。我们在 SimpleAudit(一个本地优先的评分工具 (https://huggingface.co/papers?q=local-first%20scoring%20instrument))中实例化该链条,并在一个挪威语安全包 (https://huggingface.co/papers?q=safety%20pack) 上进行了验证。安全与消融目标的AUROC (https://huggingface.co/papers?q=AUROC) 值介于 0.89 到 1.00 之间,目标身份是主导方差成分(η²约 0.52),严重性分布在大约十次重跑后趋于稳定。将同一链条应用于 Petri 表明该链条兼容两种工具。实质性差异出现在链条上游,即主张-契约执行和部署适配方面。一个挪威公共部门采购案例(比较 Borealis 和 Gemma 3)展示了实际应用中的证据:更安全的模型取决于场景类别和风险度量。因此,评分、匹配差异、临界率、不确定性以及所使用的审计员和评判器必须一同报告,而非简化为单一排名。
查看 arXiv 页面 (https://arxiv.org/abs/2605.06652) 查看 PDF (https://arxiv.org/pdf/2605.06652) GitHub (https://github.com/kelkalot/simpleaudit) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.06652)
在你的智能体中获取这篇论文:
hf papers read 2605.06652
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2605.06652 即可从本页链接。
引用此论文的数据集0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.06652 即可从本页链接。
引用此论文的 Space0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2605.06652 即可从本页链接。
包含此论文的收藏0
没有包含此论文的收藏
将此论文添加到收藏 (https://huggingface.co/new-collection) 即可从本页链接。
相似文章
Gate AI:LLM安全基准评估方法与结果
本文提出了一种针对LLM安全检测器的评估方法,旨在解决诸如按数据集调阈值、未公开操作点等系统性缺陷。该框架在16个基准上进行交叉验证,选取单一全局操作点,并包含多项泛化能力诊断指标。
压力测试医学大语言模型揭示基准准确率之外的潜在安全病理
本文介绍了AI-MASLD,一个用于医学大语言模型的压力审计框架,揭示了基准准确率如何掩盖严重的安全故障,并展示了开放权重模型在安全维度上可以媲美或超越专有模型。
超越静态排行榜:LLM智能体评估的预测有效性
本文认为,针对LLM智能体基准测试的聚合得分排行榜未能捕捉到与部署相关的维度,并且表现出排名不稳定性。文章提出根据预测有效性(即样本内排名与样本外排名之间的相关性)来对配置进行排序,并引入了一个十二层级的测量体系以及可证伪的分布外准则。
基准审计中的可靠性差距:分布偏移与规模作为污染检测的失效模式
本文识别出分布偏移和规模约束是LLM基准审计中统计污染检测方法的关键失效模式。对27个模型评估三种范式的结果显示,在335次评估中仅有199次正确结果,表明存在系统性可靠性差距,使得这些方法无法替代透明数据溯源。
IndustryBench:探测大语言模型在工业知识领域的边界
本文介绍了 IndustryBench,这是一个针对中文工业采购问答的大语言模型基准测试,以国家标准为参照评估模型表现,突显了安全合规方面的差距。研究揭示,在考虑安全违规的情况下,扩展推理往往会导致安全调整后的评分降低,并改变模型的排名。