标签
一个关于构建本地文档RAG系统的详细技术咨询,涵盖存储、摄取、查询和高亮,寻求关于向量数据库、GraphRAG可行性以及文档高亮实现的建议。
Unveil提出了一个用于多模态文档检索的统一视觉-文本嵌入框架,通过知识蒸馏将语义理解从视觉-文本模型转移到纯视觉模型,实现鲁棒且高效的检索。
UniDoc-RL 提出了一种面向大型视觉-语言模型的强化学习框架,通过层次化决策与密集多奖励监督来优化检索、重排序和视觉推理,在视觉RAG任务上相较此前基于RL的方法实现了高达17.7%的性能提升。