标签
本文介绍了一种无需训练的编码策略——Confident Decoding,它利用熵引导搜索动态选择LLM中最可靠的中间层,从而缓解对齐损失,并在GPQA-Diamond、Omni-MATH等基准测试中提升了推理性能,且开销可忽略不计。