动态分配计算预算给困难问题集,并通过Qwen-35B-A3B演化各模块,使性能在HLE上接近GPT-5.4-xHigh

Reddit r/LocalLLaMA 论文

摘要

一种使用Qwen-35B-A3B动态分配计算预算给困难问题的方法,在HLE基准测试上达到了接近GPT-5.4-xHigh的性能。

暂无内容
查看原文

相似文章