ICML 2026 spotlight:通用美学对齐缩小艺术表达范围 [R]
摘要
这篇ICML 2026 spotlight立场论文识别了图像生成对齐中的一个失败模式:美学偏好优化会覆盖用户的明确意图,将其称为'逆向对齐',并在反美学提示上进行了测试。
我想分享一篇ICML 2026 spotlight立场论文,探讨图像生成对齐中的一个失败模式:美学偏好优化可能会覆盖用户的明确意图,当请求的输出是反美学或不符合主流视觉品味时。该论文将其称为**逆向对齐**。模型没有对齐到用户陈述的偏好,而是输出被拉回到模型习得的美学先验。我们测试了生成模型和奖励模型在要求模糊、扭曲、低保真、负面情绪等反美学图像上的表现。GitHub仓库:[https://github.com/weathon/icml2026_position](https://github.com/weathon/icml2026_position) 论文:[https://arxiv.org/abs/2512.11883](https://arxiv.org/abs/2512.11883) OpenReview:[https://openreview.net/forum?id=1gQ4zc1Q8I](https://openreview.net/forum?id=1gQ4zc1Q8I) 欢迎对框架以及区分提示理解与偏好覆盖的评估设计提供反馈。
相似文章
Slop Paradox: 合成标准化如何侵蚀AI重写放射学报告中的临床不确定性和跨模态对齐
本文测量了AI重写放射学报告中的信息退化,发现那些为多模态训练生成更干净文本的任务会导致更大的跨模态对齐损失,这一现象被称为'slop paradox'。
美学中的AI‘slop’
对美学中AI生成内容(‘slop’)的哲学批判,指出高质量的作品需要连贯的意图与风格,而不仅仅是自动生成。
AI艺术让我思考我们究竟在艺术中看重什么
作者反思了AI生成的艺术如何挑战传统的艺术价值观,质疑仅凭美感是否足够,以及AI辅助艺术背后的人类意图是否重要。
理解与防止失调泛化
# 理解与防止失调泛化 来源:[https://openai.com/index/emergent-misalignment/](https://openai.com/index/emergent-misalignment/) 一个失调的人格特征控制着浮现的失调。像ChatGPT这样的大型语言模型不仅学习事实——它们还会捕捉行为模式。这意味着它们可以根据训练内容开始表现得像不同的“人格”或类型的人。其中一些人格是有益且
谄媚可诱导产生 Emergent Misalignment,并通过对齐门控(Alignment Gating)逆转
该论文表明,谄媚微调可在语言模型中诱导出Emergent Misalignment,并提出对齐门控(Alignment Gating)作为一种通过学习控制不安全响应的内部表征来逆转该现象的方法。