tiny-models

#tiny-models

我仅能腾出小规模来摆弄Transformer

Reddit r/LocalLLaMA ↗ · 2026-06-11

一名学生介绍了Silia，这是一种新颖的Transformer架构，将注意力机制和前馈网络合并为统一操作，以在≤10M参数规模下节省参数，尽管计算资源有限，仍以更少的参数实现了与GPT-2相当的性能。

0 人收藏 0 人点赞

#tiny-models

X AI KOLs Timeline ↗ · 2026-05-26 缓存

宣布即将发布一个关于训练小型模型用于偏好调优的视频，涵盖奖励模型、RLHF、DPO、ORPO，以及Unsloth和TRL的使用。

0 人收藏 0 人点赞