data-efficient

#data-efficient

通过在线策略蒸馏实现数据高效的自回归到扩散语言模型

arXiv cs.CL ↗ · 昨天缓存

本文介绍了OPDLM，一种通过在线策略蒸馏将自回归语言模型转换为扩散语言模型的方法，所需训练令牌数量减少15倍到7000倍，同时保留原始模型的知识。

0 人收藏 0 人点赞

#data-efficient

在有限标签下，哪种解剖结构更重要？一种数据高效的解剖感知心脏病理预测基准

arXiv cs.AI ↗ · 昨天缓存

本文提出了一个在ACDC MRI数据集上进行心脏病理预测的数据高效解剖感知基准，表明在有限标签下，解剖表示比模型复杂性更重要。

0 人收藏 0 人点赞

#data-efficient

通过孪生自监督学习从fMRI中学习鲁棒且任务不变的功能表征

arXiv cs.LG ↗ · 2026-05-29 缓存

本文介绍了BrainSimSiam，一种轻量级自监督框架，利用孪生网络从仅正样本对中学习鲁棒的fMRI表征，即使在有限数据下也能在下游任务上取得强劲表现。

0 人收藏 0 人点赞

#data-efficient

基于检索的多标签法律标注：可扩展、数据高效且无幻觉

arXiv cs.CL ↗ · 2026-05-19 缓存

本文提出了一种基于检索的多标签法律标注方法，使用冻结的嵌入模型通过k近邻检索标签，实现了有竞争力的准确性、高数据效率，并从根本上消除了标签幻觉。

0 人收藏 0 人点赞

#data-efficient

FrameSkip: 在VLA训练中从更少但信息更丰富的帧中学习

Hugging Face Daily Papers ↗ · 2026-05-13 缓存

FrameSkip是一种数据层的帧选择方法，通过基于动作变化和视觉一致性指标优先选择高重要性的帧，来改进视觉-语言-动作(VLA)策略训练。该方法在三个基准测试中实现了76.15%的宏观平均成功率，同时仅使用了20%的独特帧。

0 人收藏 0 人点赞

#data-efficient

提示微调：数据越少，推理能力越强

arXiv cs.CL ↗ · 2026-05-12 缓存

本文提出了一种名为“提示微调”（Hint Tuning）的数据高效方法，该方法根据问题难度校准推理深度，从而减少推理模型中的标记使用量。在仅需1K个自标注样本的情况下，该方法在 Qwen3-Thinking 和 DeepSeek-R1-Distill 等模型上实现了显著的标记减少（24%-66%）。

0 人收藏 0 人点赞

data-efficient

通过在线策略蒸馏实现数据高效的自回归到扩散语言模型

在有限标签下，哪种解剖结构更重要？一种数据高效的解剖感知心脏病理预测基准

通过孪生自监督学习从fMRI中学习鲁棒且任务不变的功能表征

基于检索的多标签法律标注：可扩展、数据高效且无幻觉

FrameSkip: 在VLA训练中从更少但信息更丰富的帧中学习

提示微调：数据越少，推理能力越强

提交意见反馈