scalable-validation

#scalable-validation

推理监督的哪些特性与下游模型质量的提升相关？

arXiv cs.AI ↗ · 2026-05-14 缓存

本文研究内在数据指标，以在代价高昂的微调之前预测推理监督的效用，发现较小的模型受益于对齐导向的指标，而较大的模型则从冗长跟踪中获益，从而建立了一个尺度感知的框架来验证推理数据集。

0 人收藏 0 人点赞