@akshay_pachaar: 网页抓取将彻底改变。(100%开源的大规模视觉搜索) PixelRAG是一种检索系统，可跳过…

X AI KOLs Following 2026/06/20 12:59 工具

open-source rag visual-search web-scraping pixelrag retrieval-augmented-generation

摘要

PixelRAG是一种开源检索系统，它通过截取网页截图并使用视觉语言模型直接从像素中读取答案，从而绕过HTML解析，声称相比基于文本的RAG有显著的准确率提升。

网页抓取将彻底改变。 (100%开源的大规模视觉搜索) PixelRAG是一种完全跳过HTML解析的检索系统。它不再将页面抓取为文本并嵌入分块，而是对页面进行截图并检索图像。视觉语言模型直接从像素中读取答案。这之所以重要：解析正是网络RAG悄然丢失信息之处。 - 单个HTML到文本的解析器可能会丢弃页面40%以上的内容。 - 表格、图表和布局会被扁平化或丢弃。 - 仅更换解析器就可使同一文档的准确率波动约10个百分点。 PixelRAG索引的是用户实际看到的页面。团队构建了整个维基百科的视觉索引（超过3000万张截图），在纯文本问答上仍比最强的文本RAG基线高出18.1%。该仓库还附带一个Claude Code插件，让Claude拥有视觉能力。它让Claude能够截图任何URL并读取渲染后的页面，而不是抓取DOM。因此，你可以给它一个实时页面、一篇arXiv论文或你的本地站点，询问它实际看起来如何。一个设置脚本。无需MCP服务器，无需后端。管道工作原理： - 将每个文档（网页、PDF、图像）渲染为图像瓦片。 - 使用Qwen3-VL-Embedding进行嵌入，该模型经过LoRA微调，基于截图训练。 - 构建FAISS索引并提供搜索API。更强的阅读器模型无需重新索引即可提升准确率，因为索引只是像素。所有内容均在Apache-2.0许可下开源。 GitHub repo: https://github.com/StarTrail-org/PixelRAG… 说到RAG，我最近写了一篇文章，介绍一种新方法，通过将语料库大小缩减40倍、每次查询的token减少3倍、并将向量搜索相关性提升2.3倍，使检索更加高效。文章引用如下。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:36

PIXELRAG 官方代码库：网页截图在检索增强生成中优于文本

Yichuan Wang*，Zhifei Li*，Zirui Wang，Paul Teiletche，Lesheng Jin，Matei Zaharia†，Joseph E. Gonzalez†，Sewon Min†

共同第一作者 † 共同指导
工作完成于 Berkeley SkyLab、BAIR 和 Berkeley NLP

根据文档的外观进行搜索，而非仅依据其包含的文本。

这是什么 · 让 Claude 拥有视觉 · 工作原理 · 流程

相似文章

@RoundtableSpace: 网页抓取已死。PixelRAG 完全跳过 HTML 解析。它截取页面截图，视觉模型直接读取答案…

X AI KOLs Timeline

PixelRAG 是一款开源工具，通过使用截图和视觉模型从网页中提取数据，取代了传统的网页抓取。它包含一个 Claude Code 插件。

@LTChives: 网络爬虫已死。视频里这个 PixelRAG，完全跳过 HTML 解析。它把网页直接截图，然后让视觉模型从像素里读答案。以前 AI 读网页，是先拆代码、提文字、切段落。现在它直接看页面。 100% 开源，还带 Claude Code…

X AI KOLs Timeline

PixelRAG 是一种新型开源工具，它绕过传统 HTML 解析，直接通过对网页截图并使用视觉模型从像素中提取答案，并支持 Claude Code 插件，让 Claude 具备视觉能力。

@akshay_pachaar: 网页抓取将彻底改变。(100%开源的大规模视觉搜索) PixelRAG是一种检索系统，可跳过…

相似文章

@RoundtableSpace: 网页抓取已死。PixelRAG 完全跳过 HTML 解析。它截取页面截图，视觉模型直接读取答案…

@LTChives: 网络爬虫已死。视频里这个 PixelRAG，完全跳过 HTML 解析。它把网页直接截图，然后让视觉模型从像素里读答案。以前 AI 读网页，是先拆代码、提文字、切段落。现在它直接看页面。 100% 开源，还带 Claude Code…

我们如何为RAG索引图像

@akshay_pachaar: 朴素 RAG vs. Blockify！一种全新的 RAG 方案：- 语料库体积缩减 40 倍 - 每次查询 token 用量减少 3 倍 -…

RAG-Anything：全能型 RAG 框架

提交意见反馈

相似文章

@RoundtableSpace: 网页抓取已死。PixelRAG 完全跳过 HTML 解析。它截取页面截图，视觉模型直接读取答案…

@LTChives: 网络爬虫已死。 视频里这个 PixelRAG，完全跳过 HTML 解析。 它把网页直接截图，然后让视觉模型从像素里读答案。 以前 AI 读网页，是先拆代码、提文字、切段落。 现在它直接看页面。 100% 开源，还带 Claude Code…

我们如何为RAG索引图像

@akshay_pachaar: 朴素 RAG vs. Blockify！一种全新的 RAG 方案：- 语料库体积缩减 40 倍 - 每次查询 token 用量减少 3 倍 -…

RAG-Anything：全能型 RAG 框架

提交意见反馈

@LTChives: 网络爬虫已死。视频里这个 PixelRAG，完全跳过 HTML 解析。它把网页直接截图，然后让视觉模型从像素里读答案。以前 AI 读网页，是先拆代码、提文字、切段落。现在它直接看页面。 100% 开源，还带 Claude Code…