@karpathy: 顺便说一下，这个方法效果非常好。在查询的最后，让你的大语言模型“将回复组织为HTML格式”，然后查看生成的…

X AI KOLs Following 2026/05/11 16:20 新闻

llm-prompting user-interface html ai-interaction future-tech generative-ai ai-ux

摘要

Andrej Karpathy 建议通过提示词引导大语言模型将回复组织为 HTML，以实现更好的可视化效果，并预测 AI 的输出将从文本演变为交互式神经视频。

顺便提一下，这招效果很好。在你的提示词末尾要求你的 LLM“将回复结构化为 HTML"，然后在浏览器中查看生成的文件即可。我也曾尝试让 LLM 将输出呈现为幻灯片等形式，并取得了一些成效。总的来说，依我看，音频是人类向 AI 输入信息的首选方式，而视觉（图像/动画/视频）则是 AI 输出信息的首选方式。我们大脑约有三分之一是专用于视觉的大规模并行处理器，它是通往大脑信息的十车道超级高速公路。随着 AI 的进步，我认为我们会看到一种充分利用这一优势的演进过程：1) 纯文本（阅读困难/费力）2) Markdown（加粗、斜体、标题、表格，视觉上稍轻松一些）<-- 当前默认状态 3) HTML（仍有基于底层代码的过程化特性，但在图形、布局甚至交互性上拥有更大的灵活性）<-- 早期阶段，但正在形成新的良好默认规范 ...4、5、6……n) 交互式神经网络视频/仿真依我看，这种外推预测（尽管该技术尚未存在）的终点将是某种由扩散神经网络直接生成的交互式视频。关于精确/过程化的"Software 1.0"产物（例如交互式仿真）如何与神经产物（扩散网格）相结合，仍有许多悬而未决的问题，但大体方向类似于最近爆火的 https://x.com/zan2434/status/2046982383430496444… 输入端同样有待必要的改进。单靠音频、文本或视频都不够，例如，我感觉到需要对屏幕上的事物进行指点或手势操作，就像你与身旁的人对着电脑屏幕时会做的所有动作一样。 TLDR：人类与 AI 之间的输入/输出思维融合仍在持续进行中，还有大量工作要做，也有显著的进步空间，这一切都远早于直接迈向类 Neuralink 的脑机接口（BCI）等激进方案。就现阶段值得探索的内容而言，小贴士：试着要求生成 HTML。

查看原文

@karpathy: 顺便说一下，这个方法效果非常好。在查询的最后，让你的大语言模型“将回复组织为HTML格式”，然后查看生成的…

相似文章

@elliotchen100: https://x.com/elliotchen100/status/2054008474082918614

@itsolelehmann: Garry Tan 的自定义指令非常到位。它能让任何 LLM 摆脱半成品的垃圾回答，生成真正有用的答案……

@omarsar0: LLM Wikis + HTML Artifacts 功能极其强大。你绝对应该考虑将其纳入你的工作流程。LLM Wikis 捕获…

@omarsar0：受 @karpathy 的 LLM 知识库想法启发的 LLM Artifacts，我一直在构建一种生成动态产物的有趣方式……

@Luckyballa: 如果没有合适的可视化，我很难理解任何内容。在 Copile 中，你可以让智能体构建 HTML 可视化解释……

提交意见反馈