ICML 2026 spotlight:通用美学对齐缩小艺术表达范围 [R]

Reddit r/MachineLearning 论文

摘要

这篇ICML 2026 spotlight立场论文识别了图像生成对齐中的一个失败模式:美学偏好优化会覆盖用户的明确意图,将其称为'逆向对齐',并在反美学提示上进行了测试。

我想分享一篇ICML 2026 spotlight立场论文,探讨图像生成对齐中的一个失败模式:美学偏好优化可能会覆盖用户的明确意图,当请求的输出是反美学或不符合主流视觉品味时。该论文将其称为**逆向对齐**。模型没有对齐到用户陈述的偏好,而是输出被拉回到模型习得的美学先验。我们测试了生成模型和奖励模型在要求模糊、扭曲、低保真、负面情绪等反美学图像上的表现。GitHub仓库:[https://github.com/weathon/icml2026_position](https://github.com/weathon/icml2026_position) 论文:[https://arxiv.org/abs/2512.11883](https://arxiv.org/abs/2512.11883) OpenReview:[https://openreview.net/forum?id=1gQ4zc1Q8I](https://openreview.net/forum?id=1gQ4zc1Q8I) 欢迎对框架以及区分提示理解与偏好覆盖的评估设计提供反馈。
查看原文

相似文章

美学中的AI‘slop’

Reddit r/artificial

对美学中AI生成内容(‘slop’)的哲学批判,指出高质量的作品需要连贯的意图与风格,而不仅仅是自动生成。

理解与防止失调泛化

OpenAI Blog

# 理解与防止失调泛化 来源:[https://openai.com/index/emergent-misalignment/](https://openai.com/index/emergent-misalignment/) 一个失调的人格特征控制着浮现的失调。像ChatGPT这样的大型语言模型不仅学习事实——它们还会捕捉行为模式。这意味着它们可以根据训练内容开始表现得像不同的“人格”或类型的人。其中一些人格是有益且