@karpathy: 顺便说一下,这个方法效果非常好。在查询的最后,让你的大语言模型“将回复组织为HTML格式”,然后查看生成的…

X AI KOLs Following 新闻

摘要

Andrej Karpathy 建议通过提示词引导大语言模型将回复组织为 HTML,以实现更好的可视化效果,并预测 AI 的输出将从文本演变为交互式神经视频。

顺便提一下,这招效果很好。在你的提示词末尾要求你的 LLM“将回复结构化为 HTML",然后在浏览器中查看生成的文件即可。我也曾尝试让 LLM 将输出呈现为幻灯片等形式,并取得了一些成效。 总的来说,依我看,音频是人类向 AI 输入信息的首选方式,而视觉(图像/动画/视频)则是 AI 输出信息的首选方式。我们大脑约有三分之一是专用于视觉的大规模并行处理器,它是通往大脑信息的十车道超级高速公路。随着 AI 的进步,我认为我们会看到一种充分利用这一优势的演进过程:1) 纯文本(阅读困难/费力)2) Markdown(加粗、斜体、标题、表格,视觉上稍轻松一些)<-- 当前默认状态 3) HTML(仍有基于底层代码的过程化特性,但在图形、布局甚至交互性上拥有更大的灵活性)<-- 早期阶段,但正在形成新的良好默认规范 ...4、5、6……n) 交互式神经网络视频/仿真 依我看,这种外推预测(尽管该技术尚未存在)的终点将是某种由扩散神经网络直接生成的交互式视频。关于精确/过程化的"Software 1.0"产物(例如交互式仿真)如何与神经产物(扩散网格)相结合,仍有许多悬而未决的问题,但大体方向类似于最近爆火的 https://x.com/zan2434/status/2046982383430496444… 输入端同样有待必要的改进。单靠音频、文本或视频都不够,例如,我感觉到需要对屏幕上的事物进行指点或手势操作,就像你与身旁的人对着电脑屏幕时会做的所有动作一样。 TLDR:人类与 AI 之间的输入/输出思维融合仍在持续进行中,还有大量工作要做,也有显著的进步空间,这一切都远早于直接迈向类 Neuralink 的脑机接口(BCI)等激进方案。就现阶段值得探索的内容而言,小贴士:试着要求生成 HTML。
查看原文

相似文章

@elliotchen100: https://x.com/elliotchen100/status/2054008474082918614

X AI KOLs Timeline

文章分析了 Andrej Karpathy 关于使用 HTML 作为 LLM 输出格式的观点,结合神经科学视角探讨人机交互的演变。作者认为尽管未来可能转向神经模拟,但 HTML 因其工程上的可维护性和低成本,将在中短期内作为人机协作的最佳实践持续存在。