标签
作者将Ornith-9B与其基础模型Qwen3.5-9B进行了对比,发现RL后训练提升了token效率和持续编码的一致性,但牺牲了单轮判断能力和对误导输入的鲁棒性,使得9B版本相较于35B版本升级幅度更窄。