llm-safety

#llm-safety

编码器足够吗？LLM对抗评估中编码器与解码器安全评判器的系统比较

arXiv cs.CL ↗ · 20小时前缓存

本文系统比较了微调的编码器分类器（ModernBERT系列）与基于解码器的安全评判器在LLM对抗评估中的表现，发现编码器可以在不显著损失性能的情况下，提供一种成本和延迟更低的替代方案。

0 人收藏 0 人点赞

#llm-safety

你的越狱评判器有多可靠？自动化ASR评分的校准与对抗鲁棒性

arXiv cs.CL ↗ · 20小时前缓存

本文评估了用于测量大语言模型（LLM）越狱研究中攻击成功率（ASR）的自动化评判器的可靠性，发现安全分类器和LLM作为评判器都存在严重的校准和对抗鲁棒性问题，从而削弱了所报告的ASR数值的可信度。

0 人收藏 0 人点赞

#llm-safety

PolicyAlign: 基于直接策略的大型语言模型安全对齐

arXiv cs.CL ↗ · 20小时前缓存

PolicyAlign 提出了一种框架，通过合成指令生成和在线策略自蒸馏，直接将大型语言模型与自然语言安全策略对齐，在不依赖昂贵监督数据的情况下提升安全性。

0 人收藏 0 人点赞

#llm-safety

多语言语言模型中有毒内容检测与缓解策略综述

arXiv cs.CL ↗ · 20小时前缓存

本综述综合了关于多语言大语言模型中有毒内容检测与去毒化研究，梳理了威胁模型、任务形式、检测方法和缓解策略，同时指出了持续存在的挑战，如语言覆盖不均衡以及危害定义的文化依赖性。

0 人收藏 0 人点赞

#llm-safety

中间层知道什么：从熵动力学检测越狱攻击

arXiv cs.CL ↗ · 20小时前缓存

本文通过使用logit lens分析跨层的标记级预测熵轨迹，研究了越狱尝试如何被编码在大语言模型的内部表示中。研究发现，中间层的熵动力学比聚合统计更具区分性，提供了一种无需训练且跨多个模型一致的检测方法。

0 人收藏 0 人点赞

#llm-safety

AdversaBench: 自动化LLM红队测试的多裁判确认与跨模型迁移性

arXiv cs.AI ↗ · 昨天缓存

AdversaBench介绍了一个自动化LLM红队测试流程，该流程使用五个变异算子和一个由三位裁判及元裁判（用于决断平局）组成的评审团来确认失败，揭示了攻击难度因类别而异，并且对抗性提示可以从较小模型迁移到较大模型。

0 人收藏 0 人点赞

#llm-safety

一年后...伤害依旧，但我们仍在！

arXiv cs.CL ↗ · 昨天缓存

本研究评估了六种专有大型语言模型（LLMs）在16种DSM-5病症中通过对抗性攻击的表现，发现安全防护措施仅对自杀和自伤可靠，而对进食障碍、物质使用障碍等其他病症的失败率高达100%。

0 人收藏 0 人点赞

#llm-safety

@GoSailGlobal: https://x.com/GoSailGlobal/status/2068879365711032708

X AI KOLs Timeline ↗ · 3天前缓存

gwern 提出了'守护天使'方案，主张训练一个模仿用户本人的 LLM 数字分身，以解决通用 AI 助手的委托-代理问题和安全风险，并给出了从对齐理论到技术实现的完整路线图。

0 人收藏 0 人点赞

#llm-safety

@stanfordnlp: CoT 监测：一个热门安全问题从何而来？ @peterbhase 和 @ChrisGPotts https://ai.stanford.edu/blog/co…

X AI KOLs Following ↗ · 6天前缓存

本文追溯了思维链（CoT）监测作为一种关键的 AI 安全技术的历史和快速兴起，从首次在 arXiv 上被提及到一年内实现工业部署，并探讨了其在监测和可解释性方面的思想根源。

0 人收藏 0 人点赞

#llm-safety

迈向无风险开源权重模型：分离LLM中的公共与私有能力

Hugging Face Daily Papers ↗ · 2026-06-19 缓存

本文提出层级语言模型（TLMs），允许单套开源权重模型参数通过密钥控制支持多种能力级别。该方法能在保持公共模型行为并抵御提取的同时，选择性暴露私有能力。

0 人收藏 0 人点赞

#llm-safety

超越安全数据：使用正则安全反射的预训练阶段对齐

arXiv cs.AI ↗ · 2026-06-18 缓存

本文提出安全反射预训练（Safety Reflection Pretraining）方法，通过将正则安全反射集成到预训练语料中，直接将自我监控嵌入语言建模，实验表明在1.7B模型中提升了安全对齐效果并降低了攻击成功率。

0 人收藏 0 人点赞

#llm-safety

SciRisk-Bench：面向AI4Science安全的风险维度感知基准

arXiv cs.AI ↗ · 2026-06-18 缓存

本文介绍了SciRisk-Bench，这是一个用于在AI4Science场景下评估大语言模型安全的基准，涵盖7个学科、31个子学科和10个风险维度，以同时评估科学能力和风险意识。

0 人收藏 0 人点赞

#llm-safety

绕过LLM护栏：普通文本如何无需越狱即可改变潜在轨迹

Reddit r/AI_Agents ↗ · 2026-06-17

本文介绍了一项研究发现，即用良性叙事文本填充LLM的上下文窗口可以主导注意力机制并改变潜在轨迹，有可能在无需传统越狱的情况下绕过对齐护栏。文章认为，当前的对齐方法是对本质上流动的架构的一种表面修复。

0 人收藏 0 人点赞

#llm-safety

PseudoBench：衡量智能自动研究如何助长伪科学

arXiv cs.AI ↗ · 2026-06-17 缓存

PseudoBench 是一个基准测试，用于评估基于 LLM 的智能自动研究系统能否抵御伪科学叙述。对七款最先进的智能体进行测试后发现，它们极易生成具有说服力的伪科学报告，且拒绝率接近于零，这要求在部署前进行科学对齐。

0 人收藏 0 人点赞

#llm-safety

解码推理型LLM中隐藏的欺骗：用于欺骗审计的激活解释器

arXiv cs.CL ↗ · 2026-06-17 缓存

提出了STATEWITNESS，一种用于审计推理型LLM中欺骗的激活解释器，相比现有监测器取得了显著改进，并提供了可供人工检查的证据。

0 人收藏 0 人点赞

#llm-safety

统计上我们完蛋了

Reddit r/artificial ↗ · 2026-06-15

论述了由于LLMs必须编码有害内容才能识别，且鉴于用户基数庞大，越狱在统计上总是可能的，因此存在非零的伤害概率；作者因此主张反对审查，以确保善意行为者与恶意行为者拥有相同的工具。

0 人收藏 0 人点赞

#llm-safety

连贯的上下文可以悄然将LLM推入不同的内部状态——而当前的安全系统对此视而不见 [D]

Reddit r/MachineLearning ↗ · 2026-06-14

一位独立研究者展示了证据，表明连贯的上下文可以在产生输出之前将LLM推入不同的内部状态，从而绕过表面安全过滤器。这表明当前的对齐方法（如RLHF）可能不是稳健的防御机制。

0 人收藏 0 人点赞

#llm-safety

SafeLLM：在安全关键场景中，提取作为重写的抗幻觉替代方案

arXiv cs.CL ↗ · 2026-06-12 缓存

本文提出SafeLLM，一种基于提取的方法，用于从安全关键文档中检索信息，表明行号选择在减少幻觉的同时保持高召回率方面优于基于重写的RAG方法。

0 人收藏 0 人点赞

#llm-safety

恶意软件开发者将核武器和生物武器文本添加到其间谍软件中

Hacker News Top ↗ · 2026-06-11 缓存

恶意软件开发者正在间谍软件中嵌入核武器和生物武器相关文本，以触发大语言模型的安全拒绝机制，从而逃避AI驱动的安全扫描器。这凸显了AI安全对齐中的二阶盲点，攻击者已开始加以利用。

0 人收藏 0 人点赞

#llm-safety

Schützen: 在保加利亚语和德语语境中评估LLM安全性

arXiv cs.CL ↗ · 2026-06-11 缓存

介绍Schützen，一个用于评估保加利亚语和德语中LLM安全性的安全数据集，揭示了安全行为中的跨语言差异，并倡导开发针对特定区域的评估资源。

0 人收藏 0 人点赞

llm-safety

提交意见反馈