distribution-shift

#distribution-shift

@Rossst_03: Kian Katanforoosh，斯坦福大学计算机科学讲师（福布斯30位30岁以下精英）："Two Sigma每年支付65万美元给能够训练……"

X AI KOLs Timeline ↗ · 3天前缓存

一条推文批评了一个爆火帖子，该帖子将一节免费的斯坦福神经网络讲座重新包装成秘密交易框架，并指出真正的专业知识在于处理分布漂移，而非数学本身。

0 人收藏 0 人点赞

#distribution-shift

表格基础模型在微生物组数据的真实查询分布偏移下是否鲁棒？

arXiv cs.LG ↗ · 4天前缓存

本文评估了表格基础模型在微生物组数据中受生物学启发的分布偏移下的鲁棒性，发现保护判别特征不足以保证稳定性，且零填充是最有害的扰动。

0 人收藏 0 人点赞

#distribution-shift

击中移动目标：持续分布漂移下AI文本检测的测试时自适应

arXiv cs.CL ↗ · 4天前缓存

本文提出了一种基于半监督学习的测试时自适应方法，用于AI文本检测，能够适应来自新LLM、对抗性人工化和时间漂移的持续分布变化，性能优于最先进的监督式检测器。

0 人收藏 0 人点赞

#distribution-shift

多传感器融合泛化失败：动物级别和时间分布偏移下的牛姿态分类

arXiv cs.LG ↗ · 4天前缓存

本文评估了多传感器融合在时间分布偏移下对牛姿态分类的稳健性，发现多模态模型性能显著下降，而更简单的单传感器模型泛化能力更好，揭示了捷径学习问题。

0 人收藏 0 人点赞

#distribution-shift

U-TTT：通过测试时训练实现可泛化的PET图像去噪

Hugging Face Daily Papers ↗ · 2026-06-09 缓存

本文介绍了U-TTT，一种带有测试时训练层和双域适配的U型深度学习模型，用于在分布偏移下实现鲁棒的PET图像去噪，在不同剂量水平和扫描仪类型上均达到了最先进性能。

0 人收藏 0 人点赞

#distribution-shift

SCALE：面向智能体工作流调度的可扩展交叉注意力学习与外推方法

arXiv cs.LG ↗ · 2026-06-08 缓存

本文提出SCALE，一种面向智能体LLM工作流DAG的深度强化学习调度器，通过交叉注意力与结构化表示正则化，泛化至未见过的集群规模，无需重新训练即可降低响应时间。

0 人收藏 0 人点赞

#distribution-shift

离线选择器为何无法胜过最佳单一模型：基于edX辍学预测的诊断性研究

arXiv cs.LG ↗ · 2026-06-04 缓存

本文提出了一个三阶段诊断框架，用于识别离线模型选择器为何无法胜过最佳单一模型，并将其应用于edX点击流数据上的辍学预测。研究发现瓶颈在于局部表征歧义，而非学习器选择或分布偏移，建议重新设计状态或收集新数据，而非进一步调优算法。

0 人收藏 0 人点赞

#distribution-shift

基准审计中的可靠性差距：分布偏移与规模作为污染检测的失效模式

arXiv cs.AI ↗ · 2026-06-03 缓存

本文识别出分布偏移和规模约束是LLM基准审计中统计污染检测方法的关键失效模式。对27个模型评估三种范式的结果显示，在335次评估中仅有199次正确结果，表明存在系统性可靠性差距，使得这些方法无法替代透明数据溯源。

0 人收藏 0 人点赞

#distribution-shift

分布漂移下泛化边界中的体制到达不确定性

arXiv cs.LG ↗ · 2026-06-03 缓存

本文提出一个理论框架，用于量化当训练分布与部署分布因潜在体制动态（建模为马尔可夫切换过程）不同时的部署风险，提供了精确分解和有限样本边界。

0 人收藏 0 人点赞

#distribution-shift

TASER：面向几何驱动鲁棒性的任务感知Stein正则化

arXiv cs.LG ↗ · 2026-06-01 缓存

介绍了TASER，一种从Langevin Stein算子导出的训练时正则化框架，它鼓励预测器与数据密度之间的几何兼容性，提高了CIFAR-10上的对抗鲁棒性和稳定性，而不会显著降低干净准确率。

0 人收藏 0 人点赞

#distribution-shift

从静态上下文到校准的交互式强化学习：通过对齐模拟器缓解多轮对话中的分布偏移

arXiv cs.AI ↗ · 2026-05-27 缓存

本文从理论上识别并缓解了多轮对话强化学习中的上下文分布偏移，提出了校准交互式RL，该框架将交互式RL与模拟器对齐相结合，以减少模拟到真实的差距并实现最先进的性能。

0 人收藏 0 人点赞

#distribution-shift

MARGIN：多智能体基础模型协调中的运行时置信度校准

arXiv cs.LG ↗ · 2026-05-25 缓存

MARGIN 是一种用于多智能体基础模型系统的运行时置信度校准方法，它在线学习每个智能体的校准因子，将硬基准上的成对分辨率从低于随机水平提升至70-89%，且无需保留数据或重新训练。

0 人收藏 0 人点赞

#distribution-shift

MMD球作为信度集：测试时自适应中认知不确定性的PAC-贝叶斯框架

arXiv cs.LG ↗ · 2026-05-22 缓存

本文开发了一种用于测试时自适应的PAC-贝叶斯框架，该框架使用MMD球作为信度集，提供了形式化的泛化界，并在分布偏移下区分认知不确定性与偶然不确定性。

0 人收藏 0 人点赞

#distribution-shift

PIMSM: 物理信息驱动的多尺度Mamba：分布偏移下稳定的神经表示

arXiv cs.LG ↗ · 2026-05-19 缓存

本文提出物理信息驱动的多尺度Mamba（PIMSM），这是一种状态空间架构，它将模型记忆与物理时间尺度对齐，以提升在科学时间序列分布偏移下的鲁棒性，并在fMRI和天气预报任务上展示了改进。

0 人收藏 0 人点赞

#distribution-shift

ICRL：通过强化学习内化自我批判

arXiv cs.AI ↗ · 2026-05-18 缓存

本文介绍了ICRL框架，该框架联合训练求解器和批判器，通过强化学习内化批判指导，使求解器无需外部批判即可自我改进。它使用分布校准和角色分组优势估计，在智能体和数学推理任务上比GRPO提高了6-7个点。

0 人收藏 0 人点赞

#distribution-shift

当非正式文本导致自然语言推理失效：分词失败、分布偏移及针对性缓解策略

arXiv cs.CL ↗ · 2026-04-21 缓存

# 分词失败、分布偏移及针对性缓解策略来源：[https://arxiv.org/html/2604.16787](https://arxiv.org/html/2604.16787) ## 当非正式文本导致自然语言推理失效：分词失败、分布偏移及针对性缓解策略 ###### 摘要我们研究了在将四种转换操作应用于 SNLI 和 MultiNLI 时，非正式表层形式如何降低 ELECTRA-small（14M）和 RoBERTa-large（355M）的自然语言推理准确率：俚语替换、表情符号替换、Gen-Z 填充词，以及它们的

0 人收藏 0 人点赞

#distribution-shift

超越表面统计：通过内部表示实现LLM鲁棒共形预测

arXiv cs.CL ↗ · 2026-04-20 缓存

本论文提出了一个利用内部表示而非输出层统计的LLM共形预测框架，引入层级信息（LI）评分作为非一致性度量，在分布偏移下改进有效性-效率权衡。该方法在QA基准上相比文本级基线展现出更强的对校准-部署不匹配的鲁棒性。

0 人收藏 0 人点赞

distribution-shift

提交意见反馈