@akshay_pachaar: 网页抓取将彻底改变。(100%开源的大规模视觉搜索) PixelRAG是一种检索系统,可跳过…

X AI KOLs Following 工具

摘要

PixelRAG是一种开源检索系统,它通过截取网页截图并使用视觉语言模型直接从像素中读取答案,从而绕过HTML解析,声称相比基于文本的RAG有显著的准确率提升。

网页抓取将彻底改变。 (100%开源的大规模视觉搜索) PixelRAG是一种完全跳过HTML解析的检索系统。 它不再将页面抓取为文本并嵌入分块,而是对页面进行截图并检索图像。视觉语言模型直接从像素中读取答案。 这之所以重要:解析正是网络RAG悄然丢失信息之处。 - 单个HTML到文本的解析器可能会丢弃页面40%以上的内容。 - 表格、图表和布局会被扁平化或丢弃。 - 仅更换解析器就可使同一文档的准确率波动约10个百分点。 PixelRAG索引的是用户实际看到的页面。团队构建了整个维基百科的视觉索引(超过3000万张截图),在纯文本问答上仍比最强的文本RAG基线高出18.1%。 该仓库还附带一个Claude Code插件,让Claude拥有视觉能力。 它让Claude能够截图任何URL并读取渲染后的页面,而不是抓取DOM。因此,你可以给它一个实时页面、一篇arXiv论文或你的本地站点,询问它实际看起来如何。 一个设置脚本。无需MCP服务器,无需后端。 管道工作原理: - 将每个文档(网页、PDF、图像)渲染为图像瓦片。 - 使用Qwen3-VL-Embedding进行嵌入,该模型经过LoRA微调,基于截图训练。 - 构建FAISS索引并提供搜索API。 更强的阅读器模型无需重新索引即可提升准确率,因为索引只是像素。 所有内容均在Apache-2.0许可下开源。 GitHub repo: https://github.com/StarTrail-org/PixelRAG… 说到RAG,我最近写了一篇文章,介绍一种新方法,通过将语料库大小缩减40倍、每次查询的token减少3倍、并将向量搜索相关性提升2.3倍,使检索更加高效。 文章引用如下。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:36

PIXELRAG 官方代码库:网页截图在检索增强生成中优于文本

Yichuan Wang*,Zhifei Li*,Zirui Wang,Paul Teiletche,Lesheng Jin,Matei Zaharia†,Joseph E. Gonzalez†,Sewon Min†

  • 共同第一作者 † 共同指导
    工作完成于 Berkeley SkyLab、BAIR 和 Berkeley NLP

根据文档的外观进行搜索,而非仅依据其包含的文本。

这是什么 · 让 Claude 拥有视觉 · 工作原理 · 流程

相似文章

@LTChives: 网络爬虫已死。 视频里这个 PixelRAG,完全跳过 HTML 解析。 它把网页直接截图,然后让视觉模型从像素里读答案。 以前 AI 读网页,是先拆代码、提文字、切段落。 现在它直接看页面。 100% 开源,还带 Claude Code…

X AI KOLs Timeline

PixelRAG 是一种新型开源工具,它绕过传统 HTML 解析,直接通过对网页截图并使用视觉模型从像素中提取答案,并支持 Claude Code 插件,让 Claude 具备视觉能力。

我们如何为RAG索引图像

Hacker News Top

Kapa.ai 描述了他们为RAG索引图像的方法:在索引时使用廉价的视觉模型生成文本描述,避免查询时的视觉成本,从而以最小的每次查询开销获得更优的答案。

RAG-Anything:全能型 RAG 框架

Papers with Code Trending

RAG-Anything 是一个全新的开源框架,通过整合跨模态关系和语义匹配来增强多模态知识检索,在复杂的基准测试中表现优于现有方法。