@snowboat84: 你有没有发现,AI里模型的诞生其实相当随意?拿语言模型举例子:先是RNN,再到LSTM,某天突然说Transformer效果好就全换上,后来又拆成Encoder和Decoder,一会儿说BERT一桶浆糊,一会儿又说GPT可以有涌现能力,S…

X AI KOLs Timeline 新闻

摘要

文章讨论了AI模型诞生的随意性,提出从物理学模型中获得灵感并建立备选模型资料库,将选模型过程工程化的想法。

你有没有发现,AI里模型的诞生其实相当随意?拿语言模型举例子:先是RNN,再到LSTM,某天突然说Transformer效果好就全换上,后来又拆成Encoder和Decoder,一会儿说BERT一桶浆糊,一会儿又说GPT可以有涌现能力,Scaling Law。整个过程几乎没有理论指导。现在试图在大语言模型之外异军突起的"世界模型"也一样,没什么理论根基,先把模型搭起来。 说白了,现在造模型基本就三招:(1)在别人的模型上改一点点,(2)自己以前做过类似的模型,就惯性套到别的场景试试,(3)突发奇想攒出一个架构,也不知道行不行,先试试看。模型能不能打,全靠benchmark + 算力 + 运气,不是因为它更接近某种真理。虽然今天Transformer看起来一统江湖,但是谁知道它能撑到什么时候,Transformer的边界又在那里。说不定过了几年,大语言模型到达了边界地带,我们又要模出新模型。 我们的想法是:应该给备选模型建立一个资料库,这样我们就可以把随意选模型的整个过程给工程化。 至于模型本身,可以从物理学里获得灵感。其实不少AI模型本来就来自于物理的多体系统模型。比如从Ising获得启发制造出来的玻尔兹曼机和限制玻尔兹曼机,从统计力学启发得到的能量模型,以及生成图片和视频的扩散模型,背后全是物理模型的灵感。 物理学是一个巨大的资源库,里面还躺着大量没人试过的模型。Transformer看着一统江湖,但即便今天,它在很多任务上做得其实并不好,比如把训练时没见过的更长输入丢给它,它就崩。这些Transformer啃不动的地方,恰恰可能是某个物理模型的主场。 与其继续靠运气摸彩票,不如把这件事工程化:把物理学里那些成熟的模型,一个个翻出来、做成可训练的网络,拿去跟主流硬碰,记下哪一个擅长哪一类任务。这样下一次需要新模型时,我们不是凭感觉攒一个,而是去库里查、去挑。 我先把所有可能的备选物理模型整理成了一张表,开了个repo,准备一格一格做下去。
查看原文
查看缓存全文

缓存时间: 2026/06/27 13:56

你有没有发现,AI里模型的诞生其实相当随意?拿语言模型举例子:先是RNN,再到LSTM,某天突然说Transformer效果好就全换上,后来又拆成Encoder和Decoder,一会儿说BERT一桶浆糊,一会儿又说GPT可以有涌现能力,Scaling Law。整个过程几乎没有理论指导。现在试图在大语言模型之外异军突起的“世界模型“也一样,没什么理论根基,先把模型搭起来。

说白了,现在造模型基本就三招:(1)在别人的模型上改一点点,(2)自己以前做过类似的模型,就惯性套到别的场景试试,(3)突发奇想攒出一个架构,也不知道行不行,先试试看。模型能不能打,全靠benchmark + 算力 + 运气,不是因为它更接近某种真理。虽然今天Transformer看起来一统江湖,但是谁知道它能撑到什么时候,Transformer的边界又在那里。说不定过了几年,大语言模型到达了边界地带,我们又要模出新模型。

我们的想法是:应该给备选模型建立一个资料库,这样我们就可以把随意选模型的整个过程给工程化。

至于模型本身,可以从物理学里获得灵感。其实不少AI模型本来就来自于物理的多体系统模型。比如从Ising获得启发制造出来的玻尔兹曼机和限制玻尔兹曼机,从统计力学启发得到的能量模型,以及生成图片和视频的扩散模型,背后全是物理模型的灵感。

物理学是一个巨大的资源库,里面还躺着大量没人试过的模型。Transformer看着一统江湖,但即便今天,它在很多任务上做得其实并不好,比如把训练时没见过的更长输入丢给它,它就崩。这些Transformer啃不动的地方,恰恰可能是某个物理模型的主场。

与其继续靠运气摸彩票,不如把这件事工程化:把物理学里那些成熟的模型,一个个翻出来、做成可训练的网络,拿去跟主流硬碰,记下哪一个擅长哪一类任务。这样下一次需要新模型时,我们不是凭感觉攒一个,而是去库里查、去挑。

我先把所有可能的备选物理模型整理成了一张表,开了个repo,准备一格一格做下去。

Have you ever noticed that the birth of models in AI is actually quite arbitrary? Take language models as an example: first there was RNN, then LSTM, and one day they suddenly said Transformers worked better and everyone switched over, later splitting them into Encoder and Decoder, one moment saying BERT was a mixed bag, the next saying GPT could have emergent abilities, Scaling Law. The whole process has almost no theoretical guidance. Now, the “world models” that are suddenly rising outside of large language models are the same—no solid theoretical foundation, just build the model first.

To put it bluntly, building models these days basically boils down to three tricks: (1) tweak someone else’s model a tiny bit, (2) take a similar model you’ve done before and inertia-apply it to a new scenario to see, (3) have a wild idea and cobble together an architecture, not knowing if it’ll work, but give it a shot first. Whether a model succeeds or not all depends on benchmark + compute power + luck, not because it’s closer to some truth. Though Transformers look like they’re dominating the scene today, who knows how long that’ll last, or where the boundaries of Transformers even are. Maybe in a few years, large language models hit their limit, and we’ll have to model out something new.

Our idea is: we should build a repository for alternative models, so we can engineer the whole process of arbitrarily selecting models.

As for the models themselves, we can draw inspiration from physics. Plenty of AI models originally come from physics’ many-body system models. For example, Boltzmann machines and restricted Boltzmann machines inspired by the Ising model, energy models inspired by statistical mechanics, and diffusion models for generating images and videos—all backed by inspirations from physics models.

Physics is a massive resource library, with tons of untried models just sitting there. Transformers may look like they’re ruling the roost, but even today, they actually don’t perform well on a lot of tasks—for instance, throw it a longer input it hasn’t seen during training, and it falls apart. Those spots where Transformers struggle are precisely where some physics model might have the home-field advantage.

Instead of keep relying on luck to draw lottery tickets, why not engineer this: pull out those mature models from physics one by one, turn them into trainable networks, pit them against the mainstream, and log which ones excel at which types of tasks. That way, next time we need a new model, we’re not cobbling one together on a hunch—we go to the library, query, and pick.

I’ve gone ahead and compiled all possible alternative physics models into a table, opened a repo, and plan to tackle it cell by cell.

坑已经挖好

谢谢支持 谢谢star,最近一定经常更新。

工程也需要理论指导

谢谢

相似文章

@NFTCPS: 天天喊着搞AI,结果你连Transformer是个啥都说不清? 有个仓库够狠,从零手搓一个GPT,不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm,怎么拼起来的全摊给你看。而且不止模型,整条链…

X AI KOLs Timeline

一个GitHub开源项目,从零实现完整的GPT训练流程,包含数据预处理、预训练、SFT和RLHF后训练,全部基于原生PyTorch,适合想深入理解Transformer原理的开发者。

@ba_niu80557: https://x.com/ba_niu80557/status/2068751230667755859

X AI KOLs Timeline

文章探讨了AI模型不断强大如何淘汰那些技能可以被写进提示词的人,强调真正不可替代的价值在于难以编码的默会知识、物理世界的实际操作以及人与人之间的信任关系。作者通过朋友从咨询顾问转型为硬件集成者的例子,说明主动让出易被AI替代的环节、深耕AI触及不到的领域,才能在技术浪潮中生存和发展。

@seclink: https://x.com/seclink/status/2067968283492712846

X AI KOLs Following

本文基于研究者Victoria Lin的分享,系统梳理了原生多模态大模型的主流技术路线(Chameleon、Transfusion、MOT)及其优缺点,指出多模态AI仍处于早期探索阶段,存在缩放定律空白、图像理解与生成编码不统一、与物理世界对接等开放问题。

@berryxia: 小块有大智慧?这下真成真了! 7B小模型现在直接当上了GPT-5、Claude Sonnet 4、Gemini 2.5 Pro这些顶级大模型的老板。 一篇最新论文里,一个用强化学习训练的7B模型学会了写自然语言子任务、分配给不同大模型、精…

X AI KOLs Timeline

一篇最新论文提出通过强化学习训练7B小模型作为任务调度器,自动分解子任务并分配给GPT-5、Claude等顶级大模型,在多项硬核基准上超越单一前沿模型,证明端到端奖励学习可有效替代人工Prompt工程与多智能体流水线设计。