@elliotchen100: https://x.com/elliotchen100/status/2054008474082918614

X AI KOLs Timeline 2026/05/12 01:19 新闻

摘要

文章分析了 Andrej Karpathy 关于使用 HTML 作为 LLM 输出格式的观点，结合神经科学视角探讨人机交互的演变。作者认为尽管未来可能转向神经模拟，但 HTML 因其工程上的可维护性和低成本，将在中短期内作为人机协作的最佳实践持续存在。

https://t.co/MV9DIE6316

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/12 04:49

Karpathy 把 HTML 这件事讲到了神经科学层面，但他留了两个口子

今天凌晨 (北京时间 5 月 12 日下午)，Andrej Karpathy 转发了 Thariq 三天前那篇关于 HTML 输出格式的文章，加了一段他自己的思考。

5 个小时不到，将近 100 万浏览，1 万赞，1 万 bookmarks。这条会持续发酵。

我三天前正好写过一条关于 Thariq 那篇文章的分析。把 Karpathy 这条跟我那条放一起读，能看到一个挺有意思的事: 我们说的是同一件事，但他用了一个更基础的角度。

这篇文章想做三件事，第一，把 Karpathy 真正讲的东西拆出来。第二，把它跟我三天前那条放一起看，对比两个角度的差异。第三，指出 Karpathy 这条留下的两个没填完的口子，那是这个话题接下来值得讨论的地方。

Karpathy 原文

https://x.com/karpathy/status/2053872850101285137

如果你 X 帐号没看到上面这条嵌入，他的几个核心论点我提炼如下:

实用 tip: 在 prompt 末尾让 LLM 「structure your response as HTML」，然后在浏览器里打开生成的文件。slideshow 也可以试。

核心 framing: audio 是人偏好的输入，vision 是 AI 偏好的输出。

神经科学背书: 大脑约三分之一专门做视觉处理，是信息进入大脑的 10 车道高速公路。

输出格式的演化序列:

终点: 由 diffusion neural net 直接生成的交互式视频，跟 Software 1.0 的程序化部件 (例如交互式 simulation) 交织在一起。

输入侧 caveat: 他自己也提了一句，audio 加文字加 video 都不够，「我需要 point/gesture」。

TLDR: 人和 AI 的 input/output mind meld 还在演进路上，离 BCI/neuralink 那一步还很远，眼下能做的，hot tip，试着让模型输出 HTML。

三天前我说过的事，跟 Karpathy 这条撞到一起

我三天前那条原文 (引用了 Thariq 同一篇文章):

https://x.com/elliotchen100/status/2052913108616954215

我那条里最核心的一句是:

Markdown 的隐含假设是「人会从头读到尾」，HTML 的隐含假设是「人只想扫重点和动手改」。后者才符合 AI 时代人和机器协作的真实形态。

把这两条放一起看，会发现一个事:

我说的是用户行为，Karpathy 说的是神经科学。

我从「人怎么用 markdown 和 HTML」的层面观察到「HTML 让人能扫，让人能动手改」。Karpathy 从「大脑怎么处理信息」的层面解释了「为什么人会偏好扫和改而不是逐行读」。

他从底层解释了为什么我那条观察是对的。

这不是说我和 Karpathy 在打架，恰好相反，两个不同层级的观察撞到同一个事实上，反而互相加强。我那条是「这件事在发生」，他那条是「这件事为什么会发生」。

Karpathy 留的第一个口子: 输出画完了，输入没画

Karpathy 自己在文章里漏了一笔「我需要 point/gesture」，但他没把这条线画完。

人机交互这件事其实是两条线在并行赛跑:

输出这条线 (机器到人) 已经画到「交互式神经模拟」的远期形态。

输入这条线 (人到机器) 才走到「语音」，下一步的「语音 + 手势 + 眼动 + 上下文」还没有任何一家产品做到完全成形。再往后就更模糊了，BCI 是个 placeholder，不是一个能落地的下一站。

我的判断是: 人机交互真正的拐点不是任一边自己跑到头，而是两边在某一点合流。

输出再丰富，如果输入端只有键盘和鼠标，你看到的也只是一个被动消费的电视。输入再自然，如果输出端还停留在文字段落，体验也只是一个语音版的命令行。

两边在同一个时代点的进展不对称，这件事被严重低估了。

Karpathy 留的第二个口子: HTML 是不是过渡？

Karpathy 把 HTML 放在演化序列的中间一格，言下之意是「下一站是 neural simulation」。

我对这个推论持保留态度。我想说的是: HTML 可能不是过渡，是一个会驻扎相当长时间的局部最优。

理由不是技术层面 (神经模拟早晚生成得出来)，而是工程层面。

HTML 在所有当下能选的输出格式里，是一个工程意义上的局部最优:

第一，够丰富。能表达布局，交互，动画，甚至嵌入轻量级数据结构。

第二，够便宜。LLM 生成一个 HTML 文件比生成一段视频快几个数量级。

第三，够标准。能 save 到磁盘，能 git diff，能在 PR 里 review，能两个团队共同协作。

第四，够可逆。如果输出错了，人可以打开 HTML 直接改，跟 markdown 一样的编辑体验。

往后跳到「交互式神经模拟」看上去更高级，但工程代价是把后三条 (可保存可 diff 可 review 可改) 全部丢掉。

你怎么 git push 一个神经网络实时生成的 simulation？

怎么让两个团队 review 同一个 simulation？

怎么 A/B test 两个版本的体验？

怎么 audit 这次输出是怎么来的？

这些不是技术问题，是工程问题。工程问题不会因为模型变强而自动解决。

所以我猜，HTML 这一站会比大部分人预期的更长。技术上能跳过它，工程上不会跳过它。

总结这两条 (我和 Karpathy) 放一起看

我之前写过一篇文章把「输入侧的演化」整理成 prompt → context → harness 这条线，里面 harness 是包裹模型的整套基础设施。

Karpathy 这条把「输出侧的演化」整理成 raw text → markdown → HTML → 神经模拟这条线。

两条加起来，是一张完整的人机交互演化图:

每一格都是把工程化往外推一圈。

Karpathy 把输出侧讲到了一个「为什么 vision 是人偏好的输出」的神经科学层面，比我那条角度更普世。值得每个做 AI product 的人停下来读一遍。

我这个判断可能错的地方

按惯例，最后给反方角度:

第一，如果交互式神经模拟的生成成本下降速度比我预期快 (1 到 2 年内推理 < 100ms)，HTML 这个局部最优会被快速跳过。

第二，「不可保存可 diff」在某些场景反而是 feature 不是 bug。一次性的个性化输出 (例如游戏，沉浸式体验，私人助理的临时报告)，本身就不需要保存。

第三，Apple Vision 或者类似平台可能定义出新的 native 输出格式 (例如基于 USDZ 的 spatial UI)，直接跳过 HTML 这一站，由硬件平台带起来。

第四，Karpathy 提到的「diffusion + Software 1.0 混合」那个方向，如果某一边能做到「可保存可 diff」，整个 tradeoff 就被绕过了。

我个人押 HTML 还能站 3 到 5 年的桩，但这是一个会被新硬件平台改写的判断。

原始两条推文:

Karpathy 这条 (今天): https://x.com/karpathy/status/2053872850101285137

我三天前那条: https://x.com/elliotchen100/status/2052913108616954215

Thariq 的原文章 (Karpathy 和我都在引用): https://www.anthropic.com/engineering/the-unreasonable-effectiveness-of-html

相似文章

@elliotchen100: Anthropic 的 Thariq 昨天那篇 HTML 的文章爆了，1.5M 阅读。看上去在讲格式审美，其实他在讲一套全新的工作流。挑几个最有技术含量的点。第一，HTML 不是文档，是 throwaway editor。他举的例…

X AI KOLs Timeline

解析Anthropic员工分享的AI开发新工作流，提出利用HTML和SVG替代Markdown可大幅提升多智能体协作与交互效率，更契合AI时代人机协同的实际需求。

@elliotchen100: https://x.com/elliotchen100/status/2054008474082918614

Karpathy 把 HTML 这件事讲到了神经科学层面，但他留了两个口子

相似文章

@elliotchen100: Anthropic 的 Thariq 昨天那篇 HTML 的文章爆了，1.5M 阅读。看上去在讲格式审美，其实他在讲一套全新的工作流。挑几个最有技术含量的点。第一，HTML 不是文档，是 throwaway editor。他举的例…

@trq212: https://x.com/trq212/status/2052809885763747935

@karpathy: 顺便说一下，这个方法效果非常好。在查询的最后，让你的大语言模型“将回复组织为HTML格式”，然后查看生成的…

@namcios：Anthropic 刚刚终结了 Markdown。一位 Claude Code 工程师昨天发表了一篇可能预示着新时代开启的文章。

使用 Claude Code：HTML 的惊人效力

提交意见反馈

Karpathy 把 HTML 这件事讲到了神经科学层面，但他留了两个口子

相似文章

@elliotchen100: Anthropic 的 Thariq 昨天那篇 HTML 的文章爆了，1.5M 阅读。 看上去在讲格式审美，其实他在讲一套全新的工作流。 挑几个最有技术含量的点。 第一，HTML 不是文档，是 throwaway editor。 他举的例…

@trq212: https://x.com/trq212/status/2052809885763747935

@karpathy: 顺便说一下，这个方法效果非常好。在查询的最后，让你的大语言模型“将回复组织为HTML格式”，然后查看生成的…

@namcios：Anthropic 刚刚终结了 Markdown。一位 Claude Code 工程师昨天发表了一篇可能预示着新时代开启的文章。

使用 Claude Code：HTML 的惊人效力

提交意见反馈

@elliotchen100: Anthropic 的 Thariq 昨天那篇 HTML 的文章爆了，1.5M 阅读。看上去在讲格式审美，其实他在讲一套全新的工作流。挑几个最有技术含量的点。第一，HTML 不是文档，是 throwaway editor。他举的例…