@karpathy: 顺便说一下,这个方法效果非常好。在查询的最后,让你的大语言模型“将回复组织为HTML格式”,然后查看生成的…
摘要
Andrej Karpathy 建议通过提示词引导大语言模型将回复组织为 HTML,以实现更好的可视化效果,并预测 AI 的输出将从文本演变为交互式神经视频。
顺便提一下,这招效果很好。在你的提示词末尾要求你的 LLM“将回复结构化为 HTML",然后在浏览器中查看生成的文件即可。我也曾尝试让 LLM 将输出呈现为幻灯片等形式,并取得了一些成效。
总的来说,依我看,音频是人类向 AI 输入信息的首选方式,而视觉(图像/动画/视频)则是 AI 输出信息的首选方式。我们大脑约有三分之一是专用于视觉的大规模并行处理器,它是通往大脑信息的十车道超级高速公路。随着 AI 的进步,我认为我们会看到一种充分利用这一优势的演进过程:1) 纯文本(阅读困难/费力)2) Markdown(加粗、斜体、标题、表格,视觉上稍轻松一些)<-- 当前默认状态 3) HTML(仍有基于底层代码的过程化特性,但在图形、布局甚至交互性上拥有更大的灵活性)<-- 早期阶段,但正在形成新的良好默认规范 ...4、5、6……n) 交互式神经网络视频/仿真
依我看,这种外推预测(尽管该技术尚未存在)的终点将是某种由扩散神经网络直接生成的交互式视频。关于精确/过程化的"Software 1.0"产物(例如交互式仿真)如何与神经产物(扩散网格)相结合,仍有许多悬而未决的问题,但大体方向类似于最近爆火的 https://x.com/zan2434/status/2046982383430496444…
输入端同样有待必要的改进。单靠音频、文本或视频都不够,例如,我感觉到需要对屏幕上的事物进行指点或手势操作,就像你与身旁的人对着电脑屏幕时会做的所有动作一样。
TLDR:人类与 AI 之间的输入/输出思维融合仍在持续进行中,还有大量工作要做,也有显著的进步空间,这一切都远早于直接迈向类 Neuralink 的脑机接口(BCI)等激进方案。就现阶段值得探索的内容而言,小贴士:试着要求生成 HTML。
相似文章
@elliotchen100: https://x.com/elliotchen100/status/2054008474082918614
文章分析了 Andrej Karpathy 关于使用 HTML 作为 LLM 输出格式的观点,结合神经科学视角探讨人机交互的演变。作者认为尽管未来可能转向神经模拟,但 HTML 因其工程上的可维护性和低成本,将在中短期内作为人机协作的最佳实践持续存在。
@itsolelehmann: Garry Tan 的自定义指令非常到位。它能让任何 LLM 摆脱半成品的垃圾回答,生成真正有用的答案……
Garry Tan 分享了自定义指令(SOUL md),使 LLM 能提供更有用、更少半成品的回答。这是一个提升 AI 交互的实用技巧。
@omarsar0: LLM Wikis + HTML Artifacts 功能极其强大。你绝对应该考虑将其纳入你的工作流程。LLM Wikis 捕获…
帖子描述了利用 LLM Wikis 捕获信息,以及通过 HTML Artifacts 以交互方式呈现信息,从而与 AI 智能体共同实现诸如收件箱归零、研究、原型设计等强大工作流。
@omarsar0:受 @karpathy 的 LLM 知识库想法启发的 LLM Artifacts,我一直在构建一种生成动态产物的有趣方式……
受 @karpathy 的 LLM 知识库想法启发,我一直在构建 LLM Artifacts:一种有趣的方式,可以从这些知识库中生成动态产物,旨在发现并揭示有意义且更深层的洞察。LLM 知识库对人类来说很难直接理解消化,正如我
@Luckyballa: 如果没有合适的可视化,我很难理解任何内容。在 Copile 中,你可以让智能体构建 HTML 可视化解释……
本文介绍了 Copile 的一项功能:AI 智能体可以直接在画布上生成 HTML 可视化解释器,以便于编辑和分享。