position-paper

#position-paper

立场：强化学习研究者需区分求解模拟器与将模拟器作为代理使用

arXiv cs.LG ↗ · 4小时前缓存

本文立场是，强化学习研究者需区分求解模拟器和将模拟器作为真实部署的代理使用，并指出若不加以区分会引发的问题。

0 人收藏 0 人点赞

#position-paper

观点：术语“机器遗忘”在大型语言模型中过度使用

arXiv cs.CL ↗ · 昨天缓存

本立场文件认为，术语“机器遗忘”在大型语言模型研究中被过度使用，主张采用更严格的术语，将其与数据集定义的删除和重训练等价性保证挂钩。

0 人收藏 0 人点赞

#position-paper

@rao2z: \"当LLM输出逐步计划时，它会产生一种强烈的错觉，让你以为正在观看机器推理...

X AI KOLs Following ↗ · 2026-06-21 缓存

亚利桑那州立大学的Subbarao Kambhampati教授及研究人员在一篇立场论文中提出，LLM中的思维链推理制造了一种推理假象，业界需要超越昂贵的token生成，转向替代推理机制。

0 人收藏 0 人点赞

#position-paper

ICML 2026 spotlight：通用美学对齐缩小艺术表达范围 [R]

Reddit r/MachineLearning ↗ · 2026-06-16

这篇ICML 2026 spotlight立场论文识别了图像生成对齐中的一个失败模式：美学偏好优化会覆盖用户的明确意图，将其称为'逆向对齐'，并在反美学提示上进行了测试。

0 人收藏 0 人点赞

#position-paper

观点：人工智能必须以地球为中心，而不仅仅是以人类为中心

arXiv cs.AI ↗ · 2026-06-15 缓存

这篇立场论文认为，当前的人工智能范式不足以应对全球系统性风险，并提出以地球为中心的AI（PCAI）作为一种新的设计理念，将地球的互联系统视为首要关注对象。

0 人收藏 0 人点赞

#position-paper

观点：海马体显式记忆是AGI的基石

arXiv cs.AI ↗ · 2026-06-11 缓存

这篇观点文章认为，整合与人类海马体记忆类似的显式记忆，对于推动LLMs迈向AGI至关重要。它借鉴神经科学，提出高阶认知功能需要超越隐式统计学习的显式记忆。

0 人收藏 0 人点赞

#position-paper

评估机器学习资源利用需要模型生命周期评估

arXiv cs.LG ↗ · 2026-06-09 缓存

这篇立场论文认为，当前评估人工智能资源使用的方法不足，并倡导采用生命周期评估（LCA）来正确核算整个机器学习流程（从硬件制造到训练和推理）中的能源和环境成本。

0 人收藏 0 人点赞

#position-paper

大型语言模型应学习个性化而非聚合的人类偏好

arXiv cs.LG ↗ · 2026-06-09 缓存

这篇立场论文主张，大型语言模型应从个性化而非聚合的人类偏好中学习，指出社会选择理论中的理论局限性以及人口多样性带来的实际问题。它提出了有边界的个性化框架，在尊重个体自主性的同时维护普遍的安全约束。

0 人收藏 0 人点赞

#position-paper

立场：不要只‘Fix it in Post’：AI科学必须研究训练动态

arXiv cs.AI ↗ · 2026-06-08 缓存

这篇立场论文认为，对AI的科学理解必须超越事后分析，转而研究塑造模型行为的训练动态，这对于预测、干预和设计训练过程以获取期望特性（如能力和安全性）具有重要意义。

0 人收藏 0 人点赞

#position-paper

# 立场：部署的强化学习应当是持续性的 ## 摘要强化学习（RL）通常在静态环境中进行训练，并以固定策略部署——这种范式我们称之为"一次性RL"。然而，现实世界中的部署环境往往是动态的、不断演变的，这使得一次性训练的策略随着时间推移性能逐渐退化。我们认为，部署的强化学习系统应当采用持续学习的方式，在与环境的持续交互中不断适应和改进。本文阐述了这一立场，分析了当前范式的局限性，并概述了实现持续性部署RL所需面对的挑战与机遇。 ## 1. 引言强化学习在众多领域取得了令人瞩目的成就，从游戏竞技到机器人控制，再到推荐系统。然而，主流的RL研究与实践遵循着一种固定的模式：在模拟或受控环境中训练智能体，直至达到满意的性能，然后将固定策略部署到实际应用中。这种"训练-部署"的分离范式在许多场景下运作良好，但我们认为它在根本上与现实世界部署的本质相矛盾。现实世界是动态的。用户偏好会改变，物理条件会波动，对抗性参与者会适应，系统本身也会因磨损或升级而发生变化。一个在部署时表现优异的策略，数周或数月后可能就变得次优甚至有害。更重要的是，部署本身就是一种持续获取真实环境数据的机会——而一次性RL完全忽视了这一宝贵资源。我们的核心立场是：部署的强化学习系统应当在整个运行生命周期内持续学习和适应。这不仅仅是一种技术改进，而是对RL应如何在现实世界中运作的根本性重新思考。 ## 2. 一次性RL的局限性 ### 2.1 分布偏移问题一次性RL面临的最根本问题是训练分布与部署分布之间的不匹配。即便使用了域随机化或其他鲁棒性技术，训练环境也无法完全覆盖真实部署条件的多样性。当环境随时间演变时，这种差距只会愈发扩大。 ### 2.2 数据利用效率低下部署的RL系统在与环境交互时会产生大量宝贵数据，但一次性范式完全丢弃了这些信息。这是一种巨大的浪费——这些实际运行数据往往比训练数据更能反映真实世界的复杂性。 ### 2.3 无法从错误中恢复当策略遭遇训练分布之外的情况时，一次性RL系统无法自主修正。唯一的解决方案是重新训练并重新部署，这既耗时又成本高昂，在许多实际场景中甚至不可行。 ### 2.4 错失改进机会随着系统积累更多与真实用户和环境交互的经验，策略理应变得越来越好。一次性RL无法利用这种自然积累的经验来提升性能。 ## 3. 持续性部署RL的愿景我们所倡导的持续性部署RL，是指系统在整个部署生命周期内： 1. 持续收集与真实环境交互的经验数据 2. 在线更新策略以适应环境变化和新发现的规律 3. 保持安全约束，确保持续学习不会导致性能急剧下降或危险行为 4. 平衡探索与利用，在不影响当前服务质量的前提下寻求改进这一愿景与持续机器学习（Continual ML）的理念高度契合，但RL场景带来了独特的挑战：智能体的行为直接影响其所获得的数据，探索可能产生实际代价，而奖励信号往往稀疏且延迟。 ## 4. 关键挑战 ### 4.1 灾难性遗忘持续学习最著名的挑战是灾难性遗忘——在学习新任务时忘记旧知识。在RL场景中，这意味着适应新情况可能导致在已掌握情况下的性能退化。需要开发能够在保持既有能力的同时适应新情况的算法。 ### 4.2 安全性与稳定性部署中的持续学习引入了新的安全风险。一个正在学习的系统可能尝试危险动作，或者由于错误的梯度更新而突然性能下降。需要建立严格的安全机制，包括行为约束、性能监控和自动回滚能力。 ### 4.3 非平稳性处理持续性RL系统必须区分真正的环境变化（需要适应）和观测噪声（不应过度拟合）。同时，系统自身的学习也会改变数据分布，造成非平稳性，给学习算法的稳定性带来挑战。 ### 4.4 样本效率在线学习通常比离线批量学习样本效率更低。在部署场景中，每次交互都可能有实际成本，因此需要高度样本高效的算法，能够从少量新数据中快速适应。 ### 4.5 评估与监控如何判断持续学习是否真正带来了改进？如何检测策略退化？需要建立全面的在线评估框架，能够在不中断服务的情况下持续监控系统性能。 ## 5. 现有方法与进展研究社区已在若干相关方向取得了进展：元强化学习训练能够快速适应新任务的智能体，为持续适应提供了有价值的视角。在线强化学习研究非平稳环境中的学习，直接与持续性部署RL的需求相关。持续监督学习开发了多种对抗灾难性遗忘的技术，如弹性权重整合（EWC）、渐进式神经网络等，这些方法有望迁移到RL场景。离线到在线RL研究如何利用离线数据进行预训练，然后通过在线交互进行微调，与我们的愿景高度吻合。然而，这些研究方向大多仍相互孤立，缺乏针对实际部署场景的整合性框架。 ## 6. 实践路径我们建议研究社区和从业者从以下几个方向推进持续性部署RL：建立基准：开发专门评估持续性部署RL能力的标准化基准，包括环境非平稳性、安全约束和长期性能指标。算法创新：设计原生支持持续学习的RL算法，而非将持续学习作为事后的补丁。系统基础设施：构建支持持续学习的工程基础设施，包括经验回放系统、在线评估框架和安全监控机制。跨领域合作：加强RL研究者与系统工程师、安全专家和实际部署从业者之间的合作。 ## 7. 结论我们相信，将部署的RL系统从一次性范式转向持续学习范式，是释放RL在现实世界应用中全部潜力的关键一步。这不仅能提升系统的长期性能和鲁棒性，更能从根本上改变我们思考和构建智能系统的方式。现实世界不会为我们的智能体停止演变。是时候让我们的智能体也不再停止学习了。

arXiv cs.LG ↗ · 2026-06-04 缓存

本立场文章认为，已部署的强化学习智能体永远不应停止学习，因为"先训练后修复"的范式在本质上无法应对现实环境中的非平稳性和分布偏移问题。作者识别出部署后非平稳性的四个来源，并倡导将持续强化学习作为已部署系统的标准方法。

0 人收藏 0 人点赞

#position-paper

观点：抽样时机已到！为贝叶斯深度学习绘制新航线

arXiv cs.LG ↗ · 2026-05-22 缓存

本立场论文认为，贝叶斯神经网络中基于采样的推理已在计算效率上与基于优化的方法持平，并即将取代后者，提供更优的不确定性量化和预测性能。

0 人收藏 0 人点赞

#position-paper

立场：让我们开发数据探针，从根本上理解数据如何影响LLM性能

arXiv cs.AI ↗ · 2026-05-20 缓存

这篇立场论文主张开发‘数据探针’——来自随机过程的合成序列——以系统性地研究数据特征如何影响LLM性能，旨在超越经验启发式方法。

0 人收藏 0 人点赞

#position-paper

观点：大型语言模型中的不确定性量化仅是无监督聚类

arXiv cs.CL ↗ · 2026-05-20 缓存

这篇观点论文认为，当前大型语言模型的不确定性量化方法本质上属于无监督聚类，测量的是内部一致性而非外部正确性，因此无法检测出自信的幻觉。作者主张进行范式转变，将不确定性建立在客观真理之上。

0 人收藏 0 人点赞

#position-paper

立场：思想应成为机器学习研究的核心

arXiv cs.LG ↗ · 2026-05-18 缓存

这篇立场论文认为，机器学习研究应优先考虑思想而非基准和理论保证，提出了一种“Ideas First”框架，该框架重视行为特征和定制实验，以促进公平性和科学理解。

0 人收藏 0 人点赞

#position-paper

立场：人工智能需要元智能——论元认知人工智能的必要性

arXiv cs.AI ↗ · 2026-05-18 缓存

本文立场是，将元认知作为设计原则可以构建更准确、更安全、更高效的人工智能系统，并通过联邦学习案例研究及一个实验软件框架展示了这一概念。

0 人收藏 0 人点赞

#position-paper

无需GPU的LLMs个人持续学习——立场论文[OC]

Reddit r/AI_Agents ↗ · 2026-05-16

作者提出了两种架构，即内部KV-Sphere架构（IKSA）和背景微调（BMFT），使得LLMs能够从个人互动中持续学习，无需GPU且无灾难性遗忘。

0 人收藏 0 人点赞

#position-paper

@omarsar0: 关于自主AI作为通往AGI的可预见路径的有趣观点论文。（收藏）一直存在激烈争论……

X AI KOLs Following ↗ · 2026-05-14 缓存

这篇观点论文认为，包含记忆、推理、工具使用、自我改进和对齐的自主AI系统，是比单纯扩展单一模型更可预见的AGI路径，并将这些组件形式化为具有不同瓶颈的可分离轴。

0 人收藏 0 人点赞

#position-paper

可解释性应具备可操作性

arXiv cs.LG ↗ · 2026-05-13 缓存

本文主张，可解释性研究应基于“可操作性”进行评估，即研究成果在多大程度上能够促成具体的决策与干预措施。作者提出了一套与实际应用结果相一致的评估标准框架，以解决当前可解释性工作缺乏现实影响力的问题。

0 人收藏 0 人点赞

#position-paper

荷兰众议院关于Solvinity的圆桌会议: 立场文件

Bert Hubert ↗ · 2026-01-21 缓存

Bert Hubert分享了他为荷兰众议院关于Solvinity收购及其对DigiD影响的圆桌会议准备的立场文件，其中他警告政府不要对私营IT公司产生运营依赖。

0 人收藏 0 人点赞

position-paper

提交意见反馈