long-cot

标签

Cards List
#long-cot

面向LLM推理的统一数据选择

arXiv cs.CL · 2026-05-22 缓存

本文提出高熵总和(HES),这是一种无需训练的度量方法,用于为LLM训练选择高质量推理数据,并在SFT、RFT和RL等范式中得到验证。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈