@elliotchen100: https://x.com/elliotchen100/status/2054008474082918614

X AI KOLs Timeline 新闻

摘要

文章分析了 Andrej Karpathy 关于使用 HTML 作为 LLM 输出格式的观点,结合神经科学视角探讨人机交互的演变。作者认为尽管未来可能转向神经模拟,但 HTML 因其工程上的可维护性和低成本,将在中短期内作为人机协作的最佳实践持续存在。

https://t.co/MV9DIE6316
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 04:49

Karpathy 把 HTML 这件事讲到了神经科学层面,但他留了两个口子

今天凌晨 (北京时间 5 月 12 日下午),Andrej Karpathy 转发了 Thariq 三天前那篇关于 HTML 输出格式的文章,加了一段他自己的思考。

5 个小时不到,将近 100 万浏览,1 万赞,1 万 bookmarks。这条会持续发酵。

我三天前正好写过一条关于 Thariq 那篇文章的分析。把 Karpathy 这条跟我那条放一起读,能看到一个挺有意思的事: 我们说的是同一件事,但他用了一个更基础的角度。

这篇文章想做三件事,第一,把 Karpathy 真正讲的东西拆出来。第二,把它跟我三天前那条放一起看,对比两个角度的差异。第三,指出 Karpathy 这条留下的两个没填完的口子,那是这个话题接下来值得讨论的地方。

Karpathy 原文

https://x.com/karpathy/status/2053872850101285137

如果你 X 帐号没看到上面这条嵌入,他的几个核心论点我提炼如下:

实用 tip: 在 prompt 末尾让 LLM 「structure your response as HTML」,然后在浏览器里打开生成的文件。slideshow 也可以试。

核心 framing: audio 是人偏好的输入,vision 是 AI 偏好的输出。

神经科学背书: 大脑约三分之一专门做视觉处理,是信息进入大脑的 10 车道高速公路。

输出格式的演化序列:

终点: 由 diffusion neural net 直接生成的交互式视频,跟 Software 1.0 的程序化部件 (例如交互式 simulation) 交织在一起。

输入侧 caveat: 他自己也提了一句,audio 加文字加 video 都不够,「我需要 point/gesture」。

TLDR: 人和 AI 的 input/output mind meld 还在演进路上,离 BCI/neuralink 那一步还很远,眼下能做的,hot tip,试着让模型输出 HTML。

三天前我说过的事,跟 Karpathy 这条撞到一起

我三天前那条原文 (引用了 Thariq 同一篇文章):

https://x.com/elliotchen100/status/2052913108616954215

我那条里最核心的一句是:

Markdown 的隐含假设是 「人会从头读到尾」,HTML 的隐含假设是 「人只想扫重点和动手改」。后者才符合 AI 时代人和机器协作的真实形态。

把这两条放一起看,会发现一个事:

我说的是用户行为,Karpathy 说的是神经科学。

我从 「人怎么用 markdown 和 HTML」 的层面观察到 「HTML 让人能扫,让人能动手改」。Karpathy 从 「大脑怎么处理信息」 的层面解释了 「为什么人会偏好扫和改而不是逐行读」。

他从底层解释了为什么我那条观察是对的。

这不是说我和 Karpathy 在打架,恰好相反,两个不同层级的观察撞到同一个事实上,反而互相加强。我那条是 「这件事在发生」,他那条是 「这件事为什么会发生」。

Karpathy 留的第一个口子: 输出画完了,输入没画

Karpathy 自己在文章里漏了一笔 「我需要 point/gesture」,但他没把这条线画完。

人机交互这件事其实是两条线在并行赛跑:

输出这条线 (机器到人) 已经画到 「交互式神经模拟」 的远期形态。

输入这条线 (人到机器) 才走到 「语音」,下一步的 「语音 + 手势 + 眼动 + 上下文」 还没有任何一家产品做到完全成形。再往后就更模糊了,BCI 是个 placeholder,不是一个能落地的下一站。

我的判断是: 人机交互真正的拐点不是任一边自己跑到头,而是两边在某一点合流。

输出再丰富,如果输入端只有键盘和鼠标,你看到的也只是一个被动消费的电视。输入再自然,如果输出端还停留在文字段落,体验也只是一个语音版的命令行。

两边在同一个时代点的进展不对称,这件事被严重低估了。

Karpathy 留的第二个口子: HTML 是不是过渡?

Karpathy 把 HTML 放在演化序列的中间一格,言下之意是 「下一站是 neural simulation」。

我对这个推论持保留态度。我想说的是: HTML 可能不是过渡,是一个会驻扎相当长时间的局部最优。

理由不是技术层面 (神经模拟早晚生成得出来),而是工程层面。

HTML 在所有当下能选的输出格式里,是一个工程意义上的局部最优:

第一,够丰富。能表达布局,交互,动画,甚至嵌入轻量级数据结构。

第二,够便宜。LLM 生成一个 HTML 文件比生成一段视频快几个数量级。

第三,够标准。能 save 到磁盘,能 git diff,能在 PR 里 review,能两个团队共同协作。

第四,够可逆。如果输出错了,人可以打开 HTML 直接改,跟 markdown 一样的编辑体验。

往后跳到 「交互式神经模拟」 看上去更高级,但工程代价是把后三条 (可保存可 diff 可 review 可改) 全部丢掉。

你怎么 git push 一个神经网络实时生成的 simulation?

怎么让两个团队 review 同一个 simulation?

怎么 A/B test 两个版本的体验?

怎么 audit 这次输出是怎么来的?

这些不是技术问题,是工程问题。工程问题不会因为模型变强而自动解决。

所以我猜,HTML 这一站会比大部分人预期的更长。技术上能跳过它,工程上不会跳过它。

总结这两条 (我和 Karpathy) 放一起看

我之前写过一篇文章把 「输入侧的演化」 整理成 prompt → context → harness 这条线,里面 harness 是包裹模型的整套基础设施。

Karpathy 这条把 「输出侧的演化」 整理成 raw text → markdown → HTML → 神经模拟这条线。

两条加起来,是一张完整的人机交互演化图:

每一格都是把工程化往外推一圈。

Karpathy 把输出侧讲到了一个 「为什么 vision 是人偏好的输出」 的神经科学层面,比我那条角度更普世。值得每个做 AI product 的人停下来读一遍。

我这个判断可能错的地方

按惯例,最后给反方角度:

第一,如果交互式神经模拟的生成成本下降速度比我预期快 (1 到 2 年内推理 < 100ms),HTML 这个局部最优会被快速跳过。

第二,「不可保存可 diff」 在某些场景反而是 feature 不是 bug。一次性的个性化输出 (例如游戏,沉浸式体验,私人助理的临时报告),本身就不需要保存。

第三,Apple Vision 或者类似平台可能定义出新的 native 输出格式 (例如基于 USDZ 的 spatial UI),直接跳过 HTML 这一站,由硬件平台带起来。

第四,Karpathy 提到的 「diffusion + Software 1.0 混合」 那个方向,如果某一边能做到 「可保存可 diff」,整个 tradeoff 就被绕过了。

我个人押 HTML 还能站 3 到 5 年的桩,但这是一个会被新硬件平台改写的判断。

原始两条推文:

Karpathy 这条 (今天): https://x.com/karpathy/status/2053872850101285137

我三天前那条: https://x.com/elliotchen100/status/2052913108616954215

Thariq 的原文章 (Karpathy 和我都在引用): https://www.anthropic.com/engineering/the-unreasonable-effectiveness-of-html

相似文章

@trq212: https://x.com/trq212/status/2052809885763747935

X AI KOLs Following

该文章认为,与Markdown相比,HTML是AI智能体更优越的输出格式,因为它具有更丰富的信息密度、视觉清晰度、易于分享和双向交互,并分享了作者及Claude Code团队其他成员偏爱HTML的原因。

使用 Claude Code:HTML 的惊人效力

Hacker News Top

一位 Claude Code 团队成员在博客文章中主张,应将 HTML 而非 Markdown 作为 Claude Code 等 AI 智能体的首选输出格式,并列举了其优势:更丰富的信息密度、更清晰的视觉呈现、更便于分享以及支持交互功能。