@che_shr_cat: 1/ 如果你能在完全看似无害的维基百科文章上训练模型,但秘密地迫使它的内部权重…
摘要
这个帖子介绍了一种技术,可以在训练过程中利用自然语言文本将功能完整的QR码编码到神经网络的权重中,从而在基于良性数据训练的模型中嵌入隐藏信息。
查看缓存全文
缓存时间: 2026/06/16 01:09
1/ 如果能训练一个模型,只使用看起来完全无害的维基百科文章,却暗中迫使它的内部权重编码一个功能完整的二维码呢?
这现在已经可以实现。我们可以用自然语言为神经网络权重编程。
2/ 在《Synthetic Data for any Differentiable Target》一文中,Tristan Thrush、Christopher Potts、Tatsunori Hashimoto 及其团队提出了数据集策略梯度(Dataset Policy Gradient, DPG)。
这是一个新的强化学习基础方法,用于针对下游模型目标优化合成文本生成器。
3/ 从头直接训练一个下游模型来获得数据集层面的强化学习奖励,在计算上是不可行的。
DPG 绕开了这一难题。它将每一条合成样本视为一个动作,并通过训练轨迹计算样本层面的元梯度奖励。
4/ 核心技巧:虚拟损失权重(virtual loss weights)。
该算法为每条合成文本应用一个虚拟权重。通过将下游目标指标对这些权重求梯度,就能为每条生成的 token 序列获得精确的奖励信号。
5/ 论文中一个引人入胜的技术洞见:标准随机梯度下降(SGD)在此完全失效。
只有当内循环使用 Adam 优化器时,元优化才能成功。元梯度必须追踪 Adam 运行中的二阶矩状态,才能获得高保真的训练信号。
6/ 结果令人惊叹。
DPG 在编程目标模型的语言模型头权重以重建二维码的任务上达到了 100% 的准确率。
它还优化出了能大幅提升多语言性能(远超朴素基线)的合成数据。
7/ 代价是什么?巨大的内存开销。
通过多步训练进行反向传播意味着要存储整个计算图。
对于大型语言模型,作者不得不将内循环限制为单步。此外,抽象目标可能导致文本质量下降。
8/ 这是一把双刃剑。
在对齐方面,它允许通过精心策划的数据对模型行为进行高精度引导。
在安全方面,这则是一场噩梦。它实现了几乎无法通过人工审查检测到的干净标签数据投毒(clean-label data poisoning)。
9/ 如果合成数据能够被优化以直接编程权重,我们就需要重新思考如何审计训练过程。
阅读完整技术解析:https://arxiviq.substack.com/p/synthetic-data-for-any-differentiable…
论文:https://arxiv.org/abs/2604.08423
你对这种优化方向有什么看法?
10/ 我还用简短的视觉漫画阐释了这些概念——有时候看到循环就能让数学瞬间变得直观。
#机器学习
相似文章
开放模型能否被训练成秘密叛变?
讨论开放权重AI模型是否可能被秘密训练,植入在特定触发短语或日期激活的后门,从而可能通过工具使用框架实现未经授权的数据窃取。
通过稀疏电路理解神经网络
OpenAI 研究人员提出了一种训练稀疏神经网络的方法,通过强制大部分权重为零使其更易于解释,从而发现能够解释模型行为的小型解耦电路,同时保持性能。这项工作旨在推进机制可解释性,作为对稠密网络事后分析的补充,并支持 AI 安全目标。
通道级语义扰动:面向多样训练范式的不可学习示例
本文系统研究了不同训练范式下的不可学习示例,揭示了预训练权重会削弱现有方法的效果,并提出浅层语义伪装(SSC)方法,通过在语义有效子空间中生成扰动来维持不可学习性。
Grokking Transformer中的权重衰减机制:廉价在线诊断
本文研究了权重衰减如何作为控制参数,使在模算术上训练的Transformer在记忆与泛化之间发生转变,并引入了两种基于注意力激活的廉价在线诊断指标,用以追踪这些动态。
@omarsar0: https://x.com/omarsar0/status/2057114824467792189
本文介绍了使用 Fireworks Agent 自动化微调一个小型开放权重模型,以生成维基百科风格的摘要,从而形成一个自我改进的智能体循环,使得模型训练成为一个可调用的步骤。