small-models

#small-models

一张图看懂AI现状

Reddit r/artificial ↗ · 2026-04-23

一位新人观察到，AI讨论被“末日论”与“吹捧论”两极分化，质疑是否有人真正投入用户体验与小型模型系统设计，而非一味追求规模。

0 人收藏 0 人点赞

#small-models

@bllchmbrs：卧槽这篇文章太神了 @raw_works > 我忍不住兴奋、充满力量地相信，个人或联盟如今在廉价/老旧/本地算力上跑大量小模型，就能获得与 GPT 媲美的能力……

X AI KOLs Timeline ↗ · 2026-04-20 缓存

一条热情澎湃的社媒帖子盛赞文章：个人只要用便宜的本地硬件跑起众多小模型，就能拥有 GPT 级能力。

0 人收藏 0 人点赞

#small-models

通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力

arXiv cs.CL ↗ · 2026-04-20 缓存

本文提出一种新颖的思维链蒸馏框架，通过混合层模块的动态层对齐，将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息，在数学和常识推理基准测试中实现了一致的性能提升。

0 人收藏 0 人点赞

#small-models

相同的9B Qwen权重：在Aider中19.1%，而在适配小型本地模型的脚手架中为45.6%

Reddit r/LocalLLaMA ↗ · 2026-04-19

过去一周，我测试了一个简单的问题：小型本地模型在编码智能体中通常表现不佳。但其中多少是模型本身的弱点，多少是脚手架不匹配所致？因此，我固定模型参数，仅更改脚手架。两种条件下使用相同的Qwen3.5-9B Q4权重。相同的Aider Polyglot基准测试。完整的225个练习。结果：\- 原始Aider：19.11% \- little-coder：两次完整运行的mean pass@2为45.56% little-coder并非新模型。它是一个我适配到t

0 人收藏 0 人点赞

small-models

一张图看懂AI现状

@bllchmbrs：卧槽这篇文章太神了 @raw_works > 我忍不住兴奋、充满力量地相信，个人或联盟如今在廉价/老旧/本地算力上跑大量小模型，就能获得与 GPT 媲美的能力……

通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力

相同的9B Qwen权重：在Aider中19.1%，而在适配小型本地模型的脚手架中为45.6%

提交意见反馈