Transformer之药
摘要
对Transformer架构在大型语言模型之外广泛影响的反思,包括对语言学、遗传学和因果建模的潜在影响,并将其意义与哈伯-博世法相提并论。
我刚看了一个YouTube视频,它以通俗的方式讲解了Transformer背后的数学。我感觉自己过去十年像是生活在石头底下。我对AI的了解基本上停留在CNN(卷积神经网络)。当你理解了Transformer的含义后,会发现它的理论和实践意义如此深远,远不止当前对LLM的炒作:
* 在语言学中:它彻底粉碎了该领域许多主流观点,比如能指与所指的区分,语法似乎是从统计相关性中涌现的系统,而非与生俱来的。
* 在遗传学中:大多数单基因疾病的基因已广为人知。剩下的就是多基因疾病,例如大多数自身免疫性疾病或精神疾病。生物信息学可以将Transformer的力量与GWAS数据结合起来,绘制基因与疾病之间的复杂关系。
* 当Transformer与时间序列结合时,它们就不再只是相关引擎,而成为因果引擎。政府、大富豪和像Palantir这样的公司正在绘制供应链图,以预测危机、价格上涨和潜在战争。当把这些预测能力应用到人类行为上时,就非常接近《少数派报告》了。
当我试图在科学史上寻找影响力相当的事物时,唯一能想到的就是哈伯-博世法,它基本上定义了整个20世纪(肥料、炸弹、毒气……)。关于Transformer即将带来的革命,而公众似乎完全毫不知情,你有什么见解?
相似文章
大型语言模型是如何工作的(26分钟阅读)
详细讲解基于Transformer的大型语言模型的工作原理,涵盖分词、嵌入、注意力机制和下一个词元预测,无需复杂数学。
我们正撞墙:试图强迫 Transformer 执行真正的逻辑 [D]
作者对行业依赖提示词工程和扩展规模来解决基于 Transformer 的大语言模型(LLM)逻辑推理缺陷表示沮丧,认为这些概率模型从根本上缺乏确定性逻辑的架构。
@swyx: 同感。一个非常方便的思维框架,用于理解transformer当前擅长学习哪些类型,以及它为何会遇到限制…
文章讨论了一个理解transformer学习优势及其局限性的思维框架,认为相对于能够假设并寻求真相的方法,扩展当前范式可能效率低下,并提及了对对抗性世界模型和强化学习的需求。
思维的谱几何:相变、指令反转、Token级动力学与Transformers推理中的完美正确性预测
对11个大型语言模型的全面谱分析,揭示了Transformers在推理与事实回忆过程中隐层激活空间中的相变现象,发现了七个基本现象,包括谱压缩、指令微调反转以及仅基于谱特性的完美正确性预测(AUC=1.0)。
@gordic_aleksa: 新深度博文时刻:Inside the Transformer: The Life of a Token 对现代密集Transformer的深入探讨,我…
一篇深入探讨现代密集Transformer内部工作原理的博文,涵盖YaRN(位置信息)、混合注意力(实现160k上下文长度)、soft capping、QK归一化,以及Transformer数学(包括FLOPs/Token公式和集群规模估算)。