@FinanceYF5: 西班牙 Multiverse Computing 的 Aizpurua 团队提出用小块量子电路为预训练大模型扩容：不堆参数，而把复杂数学关系压进量子电路。给 Llama 3.1 8B 只加约 6000 个参数（不到原模型万分之一），困惑…

X AI KOLs Following 2026/06/08 09:44 论文

quantum-computing large-language-model parameter-efficient pre-training scaling nlp

摘要

西班牙 Multiverse Computing 的 Aizpurua 团队提出用小块量子电路为预训练大模型扩容，仅给 Llama 3.1 8B 增加约 6000 个参数即可降低困惑度 1.4%，验证了量子电路辅助大模型扩展的可行性。

西班牙 Multiverse Computing 的 Aizpurua 团队提出用小块量子电路为预训练大模型扩容：不堆参数，而把复杂数学关系压进量子电路。给 Llama 3.1 8B 只加约 6000 个参数（不到原模型万分之一），困惑度便降 1.4%；量子部分跑在 IBM 156 比特处理器。团队称增益尚小但已证可行。 https://t.co/uOJVbZyY8Z

查看原文

查看缓存全文

缓存时间: 2026/06/08 13:20

西班牙 Multiverse Computing 的 Aizpurua 团队提出用小块量子电路为预训练大模型扩容：不堆参数，而把复杂数学关系压进量子电路。

给 Llama 3.1 8B 只加约 6000 个参数（不到原模型万分之一），困惑度便降 1.4%；量子部分跑在 IBM 156 比特处理器。团队称增益尚小但已证可行。 https://t.co/uOJVbZyY8Z

相似文章

@NFTCPS: 4GB显存跑70B大模型？这事儿真成了！ AirLLM玩了个骚操作——分层推理，不一次性把模型怼进显存，而是一层层加载、算完就扔，硬生生把巨无霸塞进小破卡。最骚的是：100%开源，白嫖警告 https://github.com/0xSo…

X AI KOLs Timeline

AirLLM 是一个完全开源的工具，通过分层推理技术（逐层加载并立即释放显存），使得 70B 大语言模型可在仅 4GB 显存的 GPU 上运行，无需量化、蒸馏或剪枝，并已支持 Llama3.1 405B 在 8GB 显存上运行。

@vintcessun: 预训练原来可以这么省？1B模型、~$1000就能从零训出可用的基础模型，计算和数据量直接砍掉数百倍。核心不靠堆算力，而是层次递归架构加上潜在空间推理，配合PrefixLM packing和FA3把效率拉满。有点离谱，但论文和代码都开源了。

X AI KOLs Timeline

HRM-Text发布了一个1B参数的基础模型，声称仅需约$1000即可从零完成预训练，计算量和数据量减少数百倍，采用层级递归架构、潜在空间推理和PrefixLM packing等高效技术，论文与代码均已开源。

@sitinme: 26M 参数的模型能做 Function Call，还比 Qwen-0.6B 强？这个团队反其道而行的思路太野了！现在大模型的参数量越来越大，但有一个问题一直没有被认真对待过：调用一个工具真的需要几百亿参数吗？想想看，当你说“查一下今…

X AI KOLs Timeline

Cactus 团队将 Gemini 3.1 蒸馏为仅 26M 参数的专用模型 Needle，专门用于 Function Call，性能超过 Qwen-0.6B，展示了小模型在工具调用场景下的潜力。

@hank_aibtc: https://x.com/ClementDelangue/status/2058672394865111544/video/1… 本地大模型速度天花板又被打破了！ llama.cpp 原生支持 MTP（多令牌预测）： - 无需额外 dr…

X AI KOLs Timeline

llama.cpp 原生支持多令牌预测(MTP)，无需额外 draft 模型，利用模型内置预测头，使 Qwen3.6-27B 等本地模型实现 1.7x+ 加速，让 27B 模型在消费级显卡上流畅运行。

@NFTCPS: 本地跑大模型的注意了！有人把llama.cpp改造成了性能怪兽——BeeLlama.cpp，同样的显存，推理速度直接干到3倍，上下文容量扩展7.5倍，这不是PPT，是实测数据。它把三个顶级优化方案塞进一个代码库： DFlash推测解码…

X AI KOLs Timeline

BeeLlama.cpp is a fork of llama.cpp that integrates DFlash speculative decoding, TurboQuant/TCQ KV-cache compression, and adaptive draft control, achieving up to 3x faster inference and 7.5x context expansion on the same hardware.

相似文章

@NFTCPS: 4GB显存跑70B大模型？这事儿真成了！ AirLLM玩了个骚操作——分层推理，不一次性把模型怼进显存，而是一层层加载、算完就扔，硬生生把巨无霸塞进小破卡。 最骚的是：100%开源，白嫖警告 https://github.com/0xSo…

@hank_aibtc: https://x.com/ClementDelangue/status/2058672394865111544/video/1… 本地大模型速度天花板又被打破了！ llama.cpp 原生支持 MTP（多令牌预测）： - 无需额外 dr…

@NFTCPS: 本地跑大模型的注意了！ 有人把llama.cpp改造成了性能怪兽——BeeLlama.cpp，同样的显存，推理速度直接干到3倍，上下文容量扩展7.5倍，这不是PPT，是实测数据。 它把三个顶级优化方案塞进一个代码库： DFlash推测解码…

提交意见反馈

@NFTCPS: 4GB显存跑70B大模型？这事儿真成了！ AirLLM玩了个骚操作——分层推理，不一次性把模型怼进显存，而是一层层加载、算完就扔，硬生生把巨无霸塞进小破卡。最骚的是：100%开源，白嫖警告 https://github.com/0xSo…

@NFTCPS: 本地跑大模型的注意了！有人把llama.cpp改造成了性能怪兽——BeeLlama.cpp，同样的显存，推理速度直接干到3倍，上下文容量扩展7.5倍，这不是PPT，是实测数据。它把三个顶级优化方案塞进一个代码库： DFlash推测解码…