tiny-models

标签

Cards List
#tiny-models

我仅能腾出小规模来摆弄Transformer

Reddit r/LocalLLaMA · 2026-06-11

一名学生介绍了Silia,这是一种新颖的Transformer架构,将注意力机制和前馈网络合并为统一操作,以在≤10M参数规模下节省参数,尽管计算资源有限,仍以更少的参数实现了与GPT-2相当的性能。

0 人收藏 0 人点赞
#tiny-models

@neural_avb: 下一个视频是关于训练小型(<1B)模型用于偏好调优。以及如何使用本地模型生成偏好数据集…

X AI KOLs Timeline · 2026-05-26 缓存

宣布即将发布一个关于训练小型模型用于偏好调优的视频,涵盖奖励模型、RLHF、DPO、ORPO,以及Unsloth和TRL的使用。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈