面向 LLM 的 Markdown 浏览器

Reddit r/LocalLLaMA 工具

摘要

作者介绍了 TextWeb,这是一个开源工具,它将网页渲染为 Markdown 格式供 LLM 处理,而非使用昂贵的大视觉模型,该工具支持命令行界面 (CLI) 和 MCP 服务器。

我开发了一款面向 AI Agent 的 Markdown 网页渲染器。TextWeb 不再通过截取昂贵的屏幕截图并将其输入视觉模型来处理,而是直接将网页渲染为 LLM 能够原生理解和分析的 Markdown 格式。它支持完整的 JavaScript 执行,并对交互元素进行了标注。它提供了命令行界面 (CLI) 和 MCP 服务器。你可以在这里找到它:[https://github.com/woheller69/textweb](https://github.com/woheller69/textweb)。LLM 可以执行以下操作:浏览网页、上下滚动、在输入框中输入文本、点击按钮等。它与 llama.cpp Web UI 兼容。该项目基于 [https://github.com/chrisrobison/textweb](https://github.com/chrisrobison/textweb),后者使用的是文本网格渲染器而非 Markdown。
查看原文

相似文章

软件界的Emacs化

Hacker News Top

作者讲述了在终端中阅读 Markdown 的烦恼,并描述了如何使用 Claude 快速构建一个自定义的 macOS Markdown 查看器(MDV.app),展示了 AI 如何让人能够迅速创建个人软件工具。

WebCompass:面向代码语言模型的多模态网页编程评估

Hugging Face Daily Papers

# 论文页面 - WebCompass:面向代码语言模型的多模态网页编程评估 来源:[https://huggingface.co/papers/2604.18224](https://huggingface.co/papers/2604.18224) 作者:, , , , , , , , , , , , , , , , , ## 摘要 WebCompass 通过多样化的输入模态和任务类型评估网页开发能力,采用模拟真实世界编码工作流的自动化评估方法。[大语言模型](https://huggingface.co/papers?q=Large%20language%20model