在骁龙X2笔记本上运行RAG,处理20万文档。
摘要
VecML展示了其AI-PC软件,在全新的骁龙X2笔记本上对20万文档运行RAG,实现了低token消耗和低内存的检索。该软件将多种数据库功能集成到一个平台中,现已开放macOS的有控测试。
高通最近发布了全新的**骁龙X2笔记本电脑芯片组**。我立刻下单了一台:华硕Zenbook A16 16英寸3K OLED触屏笔记本——骁龙X2 Elite Extreme(2026款)
这台机器有几个我非常喜欢的特点:
1. **极其轻便**。最近,我单手拿着它从香港机场海关一直走到G46登机口,还在登机前运行着程序。感觉就像拿着一部大手机。
2. **非常便携的电源适配器**。与RTX笔记本所需的沉重电源砖相比,这个适配器轻得多。不过,其功耗仍超过美联航飞机上的充电限制。
3. **强大的NPU性能**。当NPU被充分利用时,性能表现不错。例如,嵌入/索引速度约为RTX 5060笔记本的50%,而机身更轻更安静。
附上的视频展示了VecML的AI-PC软件在这台笔记本上运行。
**亮点:**
• **海量文档集合**:正在索引约200,000个文件(本次运行已完成约100,000个)
• **低token消耗检索**:本次实验仅使用约1,200个检索token
• **低内存RAG**:大部分数据卸载到磁盘,仅保留128个分片的活动缓冲区
• **快速准确的本地RAG性能**
**幕后,VecML的一体化AI数据库发挥着关键作用**。企业级AI系统通常需要多个数据库协同工作:
• 向量数据库
• 图数据库
• 关系型数据库
• 键值存储
• 搜索数据库
• 文档数据库
我们开发了一个内部AI数据库平台,将所有六种系统的核心功能集成到统一的架构中,用于企业AI和智能体系统。这实现了索引、检索、图遍历、存储和内存管理的联合优化,有助于在云端和AI-PC部署中实现低token、低内存、快速且准确的AI系统。
此处演示运行在一台骁龙X2 Windows笔记本上。
**我们的macOS AI-PC软件现已开放有控测试**。
相似文章
Radxa Dragon Q8B:伪装成SBC的笔记本电脑?
Radxa 发布了 Dragon Q8B 单板计算机,搭载高通骁龙 8cx Gen 3 处理器,最高支持 32GB 内存。早期基准测试显示其性能超越 Raspberry Pi 5,但软件生态仍处于发展阶段。
@techwith_ram:一个1000万文档的语料库以float32格式占用31GB内存。大多数团队遇到这一瓶颈后会转向托管向量数据库。每月400美元……
turbovec 是一个开源的 Rust 向量索引,使用 Google Research 的 TurboQuant 算法,实现了16倍压缩,搜索速度比 FAISS 更快,并且集成了 LangChain、LlamaIndex 和 Haystack 等 RAG 框架。
@rohanpaul_ai: 设备端小模型的可能性太多了。@adrgrondin 正在 iPhone 17 Pro 上运行 Google 的 Gemma 4 E2B。大约 4…
Google 的 Gemma 4 E2B 通过 MLX 优化在 iPhone 17 Pro 上运行演示,达到约 40 tokens/秒,支持 128K 上下文以及离线思考模式,适用于编程和数学。
在单个16GB GPU + 64GB RAM上的本地LLM自动补全与代理式编码
使用 llama.cpp 在单块 16GB GPU 及 64GB+ 内存上设置本地 LLM 自动完成(Qwen2.5-Coder-7B)与代理编码(Qwen3.6-35B-A3B)的技术指南,包含命令与性能基准。
@rohanpaul_ai: Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上达到每秒34个token,本地使用 atomic[.]chat,接受率达90%,即……
Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上本地运行,实现每秒34个token,草稿接受率达90%,通过 TurboQuant、GGUF 和 llama.cpp 实现,展示了笔记本AI推理的重大进步。