标签
一条热情澎湃的社媒帖子盛赞文章:个人只要用便宜的本地硬件跑起众多小模型,就能拥有 GPT 级能力。
本文提出一种新颖的思维链蒸馏框架,通过混合层模块的动态层对齐,将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息,在数学和常识推理基准测试中实现了一致的性能提升。
过去一周,我测试了一个简单的问题:小型本地模型在编码智能体中通常表现不佳。但其中多少是模型本身的弱点,多少是脚手架不匹配所致?因此,我固定模型参数,仅更改脚手架。两种条件下使用相同的Qwen3.5-9B Q4权重。相同的Aider Polyglot基准测试。完整的225个练习。结果:\- 原始Aider:19.11% \- little-coder:两次完整运行的mean pass@2为45.56% little-coder并非新模型。它是一个我适配到t