@FinanceYF5: 西班牙 Multiverse Computing 的 Aizpurua 团队提出用小块量子电路为预训练大模型扩容:不堆参数,而把复杂数学关系压进量子电路。 给 Llama 3.1 8B 只加约 6000 个参数(不到原模型万分之一),困惑…
摘要
西班牙 Multiverse Computing 的 Aizpurua 团队提出用小块量子电路为预训练大模型扩容,仅给 Llama 3.1 8B 增加约 6000 个参数即可降低困惑度 1.4%,验证了量子电路辅助大模型扩展的可行性。
查看缓存全文
缓存时间: 2026/06/08 13:20
西班牙 Multiverse Computing 的 Aizpurua 团队提出用小块量子电路为预训练大模型扩容:不堆参数,而把复杂数学关系压进量子电路。
给 Llama 3.1 8B 只加约 6000 个参数(不到原模型万分之一),困惑度便降 1.4%;量子部分跑在 IBM 156 比特处理器。团队称增益尚小但已证可行。 https://t.co/uOJVbZyY8Z
相似文章
@NFTCPS: 4GB显存跑70B大模型?这事儿真成了! AirLLM玩了个骚操作——分层推理,不一次性把模型怼进显存,而是一层层加载、算完就扔,硬生生把巨无霸塞进小破卡。 最骚的是:100%开源,白嫖警告 https://github.com/0xSo…
AirLLM 是一个完全开源的工具,通过分层推理技术(逐层加载并立即释放显存),使得 70B 大语言模型可在仅 4GB 显存的 GPU 上运行,无需量化、蒸馏或剪枝,并已支持 Llama3.1 405B 在 8GB 显存上运行。
@vintcessun: 预训练原来可以这么省?1B模型、~$1000就能从零训出可用的基础模型,计算和数据量直接砍掉数百倍。核心不靠堆算力,而是层次递归架构加上潜在空间推理,配合PrefixLM packing和FA3把效率拉满。有点离谱,但论文和代码都开源了。
HRM-Text发布了一个1B参数的基础模型,声称仅需约$1000即可从零完成预训练,计算量和数据量减少数百倍,采用层级递归架构、潜在空间推理和PrefixLM packing等高效技术,论文与代码均已开源。
@sitinme: 26M 参数的模型能做 Function Call,还比 Qwen-0.6B 强?这个团队反其道而行的思路太野了! 现在大模型的参数量越来越大,但有一个问题一直没有被认真对待过:调用一个工具真的需要几百亿参数吗? 想想看,当你说“查一下今…
Cactus 团队将 Gemini 3.1 蒸馏为仅 26M 参数的专用模型 Needle,专门用于 Function Call,性能超过 Qwen-0.6B,展示了小模型在工具调用场景下的潜力。
@hank_aibtc: https://x.com/ClementDelangue/status/2058672394865111544/video/1… 本地大模型速度天花板又被打破了! llama.cpp 原生支持 MTP(多令牌预测): - 无需额外 dr…
llama.cpp 原生支持多令牌预测(MTP),无需额外 draft 模型,利用模型内置预测头,使 Qwen3.6-27B 等本地模型实现 1.7x+ 加速,让 27B 模型在消费级显卡上流畅运行。
@NFTCPS: 本地跑大模型的注意了! 有人把llama.cpp改造成了性能怪兽——BeeLlama.cpp,同样的显存,推理速度直接干到3倍,上下文容量扩展7.5倍,这不是PPT,是实测数据。 它把三个顶级优化方案塞进一个代码库: DFlash推测解码…
BeeLlama.cpp is a fork of llama.cpp that integrates DFlash speculative decoding, TurboQuant/TCQ KV-cache compression, and adaptive draft control, achieving up to 3x faster inference and 7.5x context expansion on the same hardware.