标签
一名学生介绍了Silia,这是一种新颖的Transformer架构,将注意力机制和前馈网络合并为统一操作,以在≤10M参数规模下节省参数,尽管计算资源有限,仍以更少的参数实现了与GPT-2相当的性能。
宣布即将发布一个关于训练小型模型用于偏好调优的视频,涵盖奖励模型、RLHF、DPO、ORPO,以及Unsloth和TRL的使用。