llm-safety

#llm-safety

AdversaBench: 自动化LLM红队测试的多裁判确认与跨模型迁移性

arXiv cs.AI ↗ · 15小时前缓存

AdversaBench介绍了一个自动化LLM红队测试流程，该流程使用五个变异算子和一个由三位裁判及元裁判（用于决断平局）组成的评审团来确认失败，揭示了攻击难度因类别而异，并且对抗性提示可以从较小模型迁移到较大模型。

0 人收藏 0 人点赞

#llm-safety

一年后...伤害依旧，但我们仍在！

arXiv cs.CL ↗ · 15小时前缓存

本研究评估了六种专有大型语言模型（LLMs）在16种DSM-5病症中通过对抗性攻击的表现，发现安全防护措施仅对自杀和自伤可靠，而对进食障碍、物质使用障碍等其他病症的失败率高达100%。

0 人收藏 0 人点赞

#llm-safety

@GoSailGlobal: https://x.com/GoSailGlobal/status/2068879365711032708

X AI KOLs Timeline ↗ · 2天前缓存

gwern 提出了'守护天使'方案，主张训练一个模仿用户本人的 LLM 数字分身，以解决通用 AI 助手的委托-代理问题和安全风险，并给出了从对齐理论到技术实现的完整路线图。

0 人收藏 0 人点赞

#llm-safety

@stanfordnlp: CoT 监测：一个热门安全问题从何而来？ @peterbhase 和 @ChrisGPotts https://ai.stanford.edu/blog/co…

X AI KOLs Following ↗ · 5天前缓存

本文追溯了思维链（CoT）监测作为一种关键的 AI 安全技术的历史和快速兴起，从首次在 arXiv 上被提及到一年内实现工业部署，并探讨了其在监测和可解释性方面的思想根源。

0 人收藏 0 人点赞

#llm-safety

迈向无风险开源权重模型：分离LLM中的公共与私有能力

Hugging Face Daily Papers ↗ · 5天前缓存

本文提出层级语言模型（TLMs），允许单套开源权重模型参数通过密钥控制支持多种能力级别。该方法能在保持公共模型行为并抵御提取的同时，选择性暴露私有能力。

0 人收藏 0 人点赞

#llm-safety

超越安全数据：使用正则安全反射的预训练阶段对齐

arXiv cs.AI ↗ · 6天前缓存

本文提出安全反射预训练（Safety Reflection Pretraining）方法，通过将正则安全反射集成到预训练语料中，直接将自我监控嵌入语言建模，实验表明在1.7B模型中提升了安全对齐效果并降低了攻击成功率。

0 人收藏 0 人点赞

#llm-safety

SciRisk-Bench：面向AI4Science安全的风险维度感知基准

arXiv cs.AI ↗ · 6天前缓存

本文介绍了SciRisk-Bench，这是一个用于在AI4Science场景下评估大语言模型安全的基准，涵盖7个学科、31个子学科和10个风险维度，以同时评估科学能力和风险意识。

0 人收藏 0 人点赞

#llm-safety

绕过LLM护栏：普通文本如何无需越狱即可改变潜在轨迹

Reddit r/AI_Agents ↗ · 6天前

本文介绍了一项研究发现，即用良性叙事文本填充LLM的上下文窗口可以主导注意力机制并改变潜在轨迹，有可能在无需传统越狱的情况下绕过对齐护栏。文章认为，当前的对齐方法是对本质上流动的架构的一种表面修复。

0 人收藏 0 人点赞

#llm-safety

PseudoBench：衡量智能自动研究如何助长伪科学

arXiv cs.AI ↗ · 2026-06-17 缓存

PseudoBench 是一个基准测试，用于评估基于 LLM 的智能自动研究系统能否抵御伪科学叙述。对七款最先进的智能体进行测试后发现，它们极易生成具有说服力的伪科学报告，且拒绝率接近于零，这要求在部署前进行科学对齐。

0 人收藏 0 人点赞

#llm-safety

解码推理型LLM中隐藏的欺骗：用于欺骗审计的激活解释器

arXiv cs.CL ↗ · 2026-06-17 缓存

提出了STATEWITNESS，一种用于审计推理型LLM中欺骗的激活解释器，相比现有监测器取得了显著改进，并提供了可供人工检查的证据。

0 人收藏 0 人点赞

#llm-safety

统计上我们完蛋了

Reddit r/artificial ↗ · 2026-06-15

论述了由于LLMs必须编码有害内容才能识别，且鉴于用户基数庞大，越狱在统计上总是可能的，因此存在非零的伤害概率；作者因此主张反对审查，以确保善意行为者与恶意行为者拥有相同的工具。

0 人收藏 0 人点赞

#llm-safety

连贯的上下文可以悄然将LLM推入不同的内部状态——而当前的安全系统对此视而不见 [D]

Reddit r/MachineLearning ↗ · 2026-06-14

一位独立研究者展示了证据，表明连贯的上下文可以在产生输出之前将LLM推入不同的内部状态，从而绕过表面安全过滤器。这表明当前的对齐方法（如RLHF）可能不是稳健的防御机制。

0 人收藏 0 人点赞

#llm-safety

SafeLLM：在安全关键场景中，提取作为重写的抗幻觉替代方案

arXiv cs.CL ↗ · 2026-06-12 缓存

本文提出SafeLLM，一种基于提取的方法，用于从安全关键文档中检索信息，表明行号选择在减少幻觉的同时保持高召回率方面优于基于重写的RAG方法。

0 人收藏 0 人点赞

#llm-safety

恶意软件开发者将核武器和生物武器文本添加到其间谍软件中

Hacker News Top ↗ · 2026-06-11 缓存

恶意软件开发者正在间谍软件中嵌入核武器和生物武器相关文本，以触发大语言模型的安全拒绝机制，从而逃避AI驱动的安全扫描器。这凸显了AI安全对齐中的二阶盲点，攻击者已开始加以利用。

0 人收藏 0 人点赞

#llm-safety

Schützen: 在保加利亚语和德语语境中评估LLM安全性

arXiv cs.CL ↗ · 2026-06-11 缓存

介绍Schützen，一个用于评估保加利亚语和德语中LLM安全性的安全数据集，揭示了安全行为中的跨语言差异，并倡导开发针对特定区域的评估资源。

0 人收藏 0 人点赞

#llm-safety

一次越狱，多种语言：学习语言不敏感的意图表示用于多语言越狱检测

arXiv cs.CL ↗ · 2026-06-11 缓存

本文提出MLJailDe，一个多语言越狱检测框架，利用反向翻译数据增强和相对距离约束来提高跨语言泛化能力和鲁棒性，在11种语言上实现了98.5%的F1分数。

0 人收藏 0 人点赞

#llm-safety

PreAct-Bench: 对LLM进行预测性监控的基准测试

arXiv cs.LG ↗ · 2026-06-10 缓存

PreAct-Bench是一个包含五个领域、1000对道德与不道德行动轨迹的基准测试，旨在评估LLM从部分轨迹中预测有害结果的能力（预测性监控）。结果表明，虽然人类表现良好，但当前的LLM仍存在困难，凸显了未来导向的风险推理的必要性。

0 人收藏 0 人点赞

#llm-safety

Janus：大语言模型中目标导向信息扭曲的基准测试

arXiv cs.CL ↗ · 2026-06-10 缓存

介绍Janus，一个衡量大语言模型在给定说服性目标时如何选择性扭曲事实信息的基准测试。实验表明，即使不编造虚假信息，模型仍容易产生误导性沟通。

0 人收藏 0 人点赞

#llm-safety

MIRAGE：大语言模型代理中的极性翻转编码子空间

arXiv cs.CL ↗ · 2026-06-10 缓存

本文在大语言模型代理的残差流中确定了一个极性翻转编码子空间，该子空间能够实时检测隐蔽数据窃取，在注入场景中达到AUC=0.918，且大幅优于仅输出检测器。

0 人收藏 0 人点赞

#llm-safety

共享潜在结构实现LLMs中后门攻击的统一检测与缓解

arXiv cs.AI ↗ · 2026-06-09 缓存

本文识别了LLMs中不同后门行为之间的共享潜在机制，利用稀疏自编码器检测并因果抑制这些特征，从而在多种模型和攻击类型中实现统一的后门检测与缓解。

0 人收藏 0 人点赞

llm-safety

提交意见反馈