标签
一款新的30B模型在主流基准测试中与规模大20-30倍的系统匹敌,同时相比同类30/32B智能体大语言模型,使用的推理令牌减少高达95%。这是通过一个学习型配置器实现的,该配置器决定何时以及如何进行推理。模型和代码已开放。
新研究引入了SR²AM,这是一种自调节何时使用模拟推理的配置器,提升了LLM的效率和性能。
本文介绍了条件熵塑造(CES)框架,该框架动态控制LLM中令牌级别的响应熵,以平衡推理深度和简洁性,在数学基准测试上实现更高的准确率同时缩短响应长度。
LEAD通过使用正确性-效率权衡的在线校准和自适应的问题特定长度目标,在训练过程中动态调整推理效率,提高了数学推理的准确性并减少了输出长度。
研究人员推出了 x1,这是一类推理模型家族,能够针对每个具体实例自适应地选择最优语言进行推理,证实了在多语言及文化相关任务中,语言选择会对推理质量产生影响。