sample-complexity

#sample-complexity

基于成对比较的最优Top-$k$识别

arXiv cs.LG ↗ · 2026-07-13 缓存

本文研究了基于噪声成对比较的固定置信度top-k识别问题，并开发了一种渐近最优算法，该算法最小化期望比较次数。

0 人收藏 0 人点赞

#sample-complexity

基于生成代理的最佳臂识别

arXiv cs.LG ↗ · 2026-07-09 缓存

本文研究了固定置信度下的最佳臂识别问题，其中昂贵的奖励观测与来自生成模型的廉价但相关的代理分数配对。提出了PROBE算法，该算法使用控制变量调整和残差方差的上界证书，以实现接近神谕的样本复杂度。

0 人收藏 0 人点赞

#sample-complexity

行为克隆并非所需全部：噪声专家反馈下在线策略蒸馏的最优性

arXiv cs.LG ↗ · 2026-07-01 缓存

本文提出一个噪声专家模型来解释离线与在线模仿学习之间的差距，表明从噪声轨迹中离线学习需要指数级样本复杂度，而在线策略蒸馏可实现多项式依赖。该分析引出一种替代损失函数，实验证实了理论发现。

0 人收藏 0 人点赞

#sample-complexity

数据增强：傅里叶分析视角

arXiv cs.LG ↗ · 2026-06-24 缓存

本文开发了一个傅里叶分析框架，用于研究群不变性下的数据增强，表明部分增强可以在近似误差趋近于零的情况下实现与完全增强相同的极小极大速率，同时还证明了精确不变性需要全群平均。

0 人收藏 0 人点赞

#sample-complexity

神经网络能否实现最优计算-统计权衡？对单指数模型的分析

arXiv cs.LG ↗ · 2026-06-16 缓存

本文证明，使用基于梯度的方法训练的两层神经网络能够实现学习高斯单指数模型的最优计算-统计权衡，对于所有生成指数，匹配SQ下界至多对数因子，并通过一种新颖的权重扰动技术扩展到稀疏设置。

0 人收藏 0 人点赞

#sample-complexity

轨迹级监督何时允许高效离线强化学习？

Hugging Face Daily Papers ↗ · 2026-06-16 缓存

本文为基于轨迹级结果监督的离线强化学习建立了统计理论，提出了OPAC算法，并刻画了在此类监督下何时能够实现高效学习，以及何时存在根本性障碍。

0 人收藏 0 人点赞

#sample-complexity

基于Lyapunov的弱耦合MDP样本复杂度分析

arXiv cs.LG ↗ · 2026-06-15 缓存

本文研究了平均奖励弱耦合MDP和休止臂赌博机学习中的样本复杂度，利用一种新颖的基于Lyapunov的分析框架，确立了具有多项式复杂度的有限样本PAC保证。

0 人收藏 0 人点赞

#sample-complexity

[R] 测量对称性--数据交换速率

Reddit r/MachineLearning ↗ · 2026-06-04 缓存

本文实证测量了等变性理论预测的对称性与数据交换速率，发现错误群对称约束具有实际危害，测试时轨道平均的数据增强与等变架构相匹配，而理论上 |G| 倍的样本复杂度降低仅得到弱证实，且置信区间较宽。该研究明确为探索性，未预先注册。

0 人收藏 0 人点赞

#sample-complexity

@MatthieuWyart: LLMs通过预测token来学习。世界模型（JEPA、data2vec）通过预测自身的抽象表示来学习。哪种需要更多数据？

X AI KOLs Timeline ↗ · 2026-06-01 缓存

本文证明，对于具有隐藏结构的分层数据，通过预测潜在表示（如JEPA和data2vec等世界模型的做法）进行学习所需的数据量，远少于通过预测token（如LLMs的做法）进行学习，其差距呈指数级。

0 人收藏 0 人点赞

#sample-complexity

测量对称性——数据交换率

Hugging Face Daily Papers ↗ · 2026-05-31

这项探索性研究通过受控的C_n对称任务，实证测量了等变性理论预测的对称性-数据交换率，发现错误群组约束反而有害，在测试时进行轨道平均的数据增强与等变模型完全匹配，且实证交换率大致与理论一致但统计上不具决定性。作者强调了该研究的探索性，并呼吁进行注册复制研究。

0 人收藏 0 人点赞

#sample-complexity

熵正则化演员-评论家方法的精细分析

arXiv cs.LG ↗ · 2026-05-26 缓存

本文对熵正则化演员-评论家方法进行了精细的理论分析，表明精确的评论家能起到强大的方差缩减作用，使样本复杂度可与确定性策略梯度相媲美，并且当学到的评论家足够准确时，这些优势得以保留。

0 人收藏 0 人点赞

#sample-complexity

带赌博机反馈的强化学习中良好策略的纯探索

arXiv cs.LG ↗ · 2026-05-25 缓存

本文介绍了强化学习中的良好策略识别（GPI），旨在找到满足奖励阈值而非最优策略的策略，并提出了具有近乎最优样本复杂度保证的BEE-GPI算法.

0 人收藏 0 人点赞

#sample-complexity

关于折扣强化学习中优化确定性等价的样本复杂度

arXiv cs.LG ↗ · 2026-05-22 缓存

本文研究了在生成模型下有限折扣MDP中的风险敏感强化学习，重点是在优化确定性等价（OCE）风险度量下学习最优值函数和策略的样本复杂度。文章给出了PAC可学习性的精确条件，分析了一种基于模型的方法，并建立了紧的下界，包括对CVaR风险参数的改进依赖关系。

0 人收藏 0 人点赞

#sample-complexity

分数匹配学习的有限样本界

arXiv cs.LG ↗ · 2026-05-15 缓存

本文首次为使用分数匹配学习多项式指数族提供了非渐近样本复杂度界，显示出对模型维度的多项式依赖。

0 人收藏 0 人点赞

sample-complexity

提交意见反馈