llm-safety

标签

Cards List
#llm-safety

编码器足够吗?LLM对抗评估中编码器与解码器安全评判器的系统比较

arXiv cs.CL · 20小时前 缓存

本文系统比较了微调的编码器分类器(ModernBERT系列)与基于解码器的安全评判器在LLM对抗评估中的表现,发现编码器可以在不显著损失性能的情况下,提供一种成本和延迟更低的替代方案。

0 人收藏 0 人点赞
#llm-safety

你的越狱评判器有多可靠?自动化ASR评分的校准与对抗鲁棒性

arXiv cs.CL · 20小时前 缓存

本文评估了用于测量大语言模型(LLM)越狱研究中攻击成功率(ASR)的自动化评判器的可靠性,发现安全分类器和LLM作为评判器都存在严重的校准和对抗鲁棒性问题,从而削弱了所报告的ASR数值的可信度。

0 人收藏 0 人点赞
#llm-safety

PolicyAlign: 基于直接策略的大型语言模型安全对齐

arXiv cs.CL · 20小时前 缓存

PolicyAlign 提出了一种框架,通过合成指令生成和在线策略自蒸馏,直接将大型语言模型与自然语言安全策略对齐,在不依赖昂贵监督数据的情况下提升安全性。

0 人收藏 0 人点赞
#llm-safety

多语言语言模型中有毒内容检测与缓解策略综述

arXiv cs.CL · 20小时前 缓存

本综述综合了关于多语言大语言模型中有毒内容检测与去毒化研究,梳理了威胁模型、任务形式、检测方法和缓解策略,同时指出了持续存在的挑战,如语言覆盖不均衡以及危害定义的文化依赖性。

0 人收藏 0 人点赞
#llm-safety

中间层知道什么:从熵动力学检测越狱攻击

arXiv cs.CL · 20小时前 缓存

本文通过使用logit lens分析跨层的标记级预测熵轨迹,研究了越狱尝试如何被编码在大语言模型的内部表示中。研究发现,中间层的熵动力学比聚合统计更具区分性,提供了一种无需训练且跨多个模型一致的检测方法。

0 人收藏 0 人点赞
#llm-safety

AdversaBench: 自动化LLM红队测试的多裁判确认与跨模型迁移性

arXiv cs.AI · 昨天 缓存

AdversaBench介绍了一个自动化LLM红队测试流程,该流程使用五个变异算子和一个由三位裁判及元裁判(用于决断平局)组成的评审团来确认失败,揭示了攻击难度因类别而异,并且对抗性提示可以从较小模型迁移到较大模型。

0 人收藏 0 人点赞
#llm-safety

一年后...伤害依旧,但我们仍在!

arXiv cs.CL · 昨天 缓存

本研究评估了六种专有大型语言模型(LLMs)在16种DSM-5病症中通过对抗性攻击的表现,发现安全防护措施仅对自杀和自伤可靠,而对进食障碍、物质使用障碍等其他病症的失败率高达100%。

0 人收藏 0 人点赞
#llm-safety

@GoSailGlobal: https://x.com/GoSailGlobal/status/2068879365711032708

X AI KOLs Timeline · 3天前 缓存

gwern 提出了'守护天使'方案,主张训练一个模仿用户本人的 LLM 数字分身,以解决通用 AI 助手的委托-代理问题和安全风险,并给出了从对齐理论到技术实现的完整路线图。

0 人收藏 0 人点赞
#llm-safety

@stanfordnlp: CoT 监测:一个热门安全问题从何而来? @peterbhase 和 @ChrisGPotts https://ai.stanford.edu/blog/co…

X AI KOLs Following · 6天前 缓存

本文追溯了思维链(CoT)监测作为一种关键的 AI 安全技术的历史和快速兴起,从首次在 arXiv 上被提及到一年内实现工业部署,并探讨了其在监测和可解释性方面的思想根源。

0 人收藏 0 人点赞
#llm-safety

迈向无风险开源权重模型:分离LLM中的公共与私有能力

Hugging Face Daily Papers · 2026-06-19 缓存

本文提出层级语言模型(TLMs),允许单套开源权重模型参数通过密钥控制支持多种能力级别。该方法能在保持公共模型行为并抵御提取的同时,选择性暴露私有能力。

0 人收藏 0 人点赞
#llm-safety

超越安全数据:使用正则安全反射的预训练阶段对齐

arXiv cs.AI · 2026-06-18 缓存

本文提出安全反射预训练(Safety Reflection Pretraining)方法,通过将正则安全反射集成到预训练语料中,直接将自我监控嵌入语言建模,实验表明在1.7B模型中提升了安全对齐效果并降低了攻击成功率。

0 人收藏 0 人点赞
#llm-safety

SciRisk-Bench:面向AI4Science安全的风险维度感知基准

arXiv cs.AI · 2026-06-18 缓存

本文介绍了SciRisk-Bench,这是一个用于在AI4Science场景下评估大语言模型安全的基准,涵盖7个学科、31个子学科和10个风险维度,以同时评估科学能力和风险意识。

0 人收藏 0 人点赞
#llm-safety

绕过LLM护栏:普通文本如何无需越狱即可改变潜在轨迹

Reddit r/AI_Agents · 2026-06-17

本文介绍了一项研究发现,即用良性叙事文本填充LLM的上下文窗口可以主导注意力机制并改变潜在轨迹,有可能在无需传统越狱的情况下绕过对齐护栏。文章认为,当前的对齐方法是对本质上流动的架构的一种表面修复。

0 人收藏 0 人点赞
#llm-safety

PseudoBench:衡量智能自动研究如何助长伪科学

arXiv cs.AI · 2026-06-17 缓存

PseudoBench 是一个基准测试,用于评估基于 LLM 的智能自动研究系统能否抵御伪科学叙述。对七款最先进的智能体进行测试后发现,它们极易生成具有说服力的伪科学报告,且拒绝率接近于零,这要求在部署前进行科学对齐。

0 人收藏 0 人点赞
#llm-safety

解码推理型LLM中隐藏的欺骗:用于欺骗审计的激活解释器

arXiv cs.CL · 2026-06-17 缓存

提出了STATEWITNESS,一种用于审计推理型LLM中欺骗的激活解释器,相比现有监测器取得了显著改进,并提供了可供人工检查的证据。

0 人收藏 0 人点赞
#llm-safety

统计上我们完蛋了

Reddit r/artificial · 2026-06-15

论述了由于LLMs必须编码有害内容才能识别,且鉴于用户基数庞大,越狱在统计上总是可能的,因此存在非零的伤害概率;作者因此主张反对审查,以确保善意行为者与恶意行为者拥有相同的工具。

0 人收藏 0 人点赞
#llm-safety

连贯的上下文可以悄然将LLM推入不同的内部状态——而当前的安全系统对此视而不见 [D]

Reddit r/MachineLearning · 2026-06-14

一位独立研究者展示了证据,表明连贯的上下文可以在产生输出之前将LLM推入不同的内部状态,从而绕过表面安全过滤器。这表明当前的对齐方法(如RLHF)可能不是稳健的防御机制。

0 人收藏 0 人点赞
#llm-safety

SafeLLM:在安全关键场景中,提取作为重写的抗幻觉替代方案

arXiv cs.CL · 2026-06-12 缓存

本文提出SafeLLM,一种基于提取的方法,用于从安全关键文档中检索信息,表明行号选择在减少幻觉的同时保持高召回率方面优于基于重写的RAG方法。

0 人收藏 0 人点赞
#llm-safety

恶意软件开发者将核武器和生物武器文本添加到其间谍软件中

Hacker News Top · 2026-06-11 缓存

恶意软件开发者正在间谍软件中嵌入核武器和生物武器相关文本,以触发大语言模型的安全拒绝机制,从而逃避AI驱动的安全扫描器。这凸显了AI安全对齐中的二阶盲点,攻击者已开始加以利用。

0 人收藏 0 人点赞
#llm-safety

Schützen: 在保加利亚语和德语语境中评估LLM安全性

arXiv cs.CL · 2026-06-11 缓存

介绍Schützen,一个用于评估保加利亚语和德语中LLM安全性的安全数据集,揭示了安全行为中的跨语言差异,并倡导开发针对特定区域的评估资源。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈