@FinanceYF5: 西班牙 Multiverse Computing 的 Aizpurua 团队提出用小块量子电路为预训练大模型扩容:不堆参数,而把复杂数学关系压进量子电路。 给 Llama 3.1 8B 只加约 6000 个参数(不到原模型万分之一),困惑…

X AI KOLs Following 论文

摘要

西班牙 Multiverse Computing 的 Aizpurua 团队提出用小块量子电路为预训练大模型扩容,仅给 Llama 3.1 8B 增加约 6000 个参数即可降低困惑度 1.4%,验证了量子电路辅助大模型扩展的可行性。

西班牙 Multiverse Computing 的 Aizpurua 团队提出用小块量子电路为预训练大模型扩容:不堆参数,而把复杂数学关系压进量子电路。 给 Llama 3.1 8B 只加约 6000 个参数(不到原模型万分之一),困惑度便降 1.4%;量子部分跑在 IBM 156 比特处理器。团队称增益尚小但已证可行。 https://t.co/uOJVbZyY8Z
查看原文
查看缓存全文

缓存时间: 2026/06/08 13:20

西班牙 Multiverse Computing 的 Aizpurua 团队提出用小块量子电路为预训练大模型扩容:不堆参数,而把复杂数学关系压进量子电路。

给 Llama 3.1 8B 只加约 6000 个参数(不到原模型万分之一),困惑度便降 1.4%;量子部分跑在 IBM 156 比特处理器。团队称增益尚小但已证可行。 https://t.co/uOJVbZyY8Z

相似文章

@NFTCPS: 4GB显存跑70B大模型?这事儿真成了! AirLLM玩了个骚操作——分层推理,不一次性把模型怼进显存,而是一层层加载、算完就扔,硬生生把巨无霸塞进小破卡。 最骚的是:100%开源,白嫖警告 https://github.com/0xSo…

X AI KOLs Timeline

AirLLM 是一个完全开源的工具,通过分层推理技术(逐层加载并立即释放显存),使得 70B 大语言模型可在仅 4GB 显存的 GPU 上运行,无需量化、蒸馏或剪枝,并已支持 Llama3.1 405B 在 8GB 显存上运行。

@vintcessun: 预训练原来可以这么省?1B模型、~$1000就能从零训出可用的基础模型,计算和数据量直接砍掉数百倍。核心不靠堆算力,而是层次递归架构加上潜在空间推理,配合PrefixLM packing和FA3把效率拉满。有点离谱,但论文和代码都开源了。

X AI KOLs Timeline

HRM-Text发布了一个1B参数的基础模型,声称仅需约$1000即可从零完成预训练,计算量和数据量减少数百倍,采用层级递归架构、潜在空间推理和PrefixLM packing等高效技术,论文与代码均已开源。

@sitinme: 26M 参数的模型能做 Function Call,还比 Qwen-0.6B 强?这个团队反其道而行的思路太野了! 现在大模型的参数量越来越大,但有一个问题一直没有被认真对待过:调用一个工具真的需要几百亿参数吗? 想想看,当你说“查一下今…

X AI KOLs Timeline

Cactus 团队将 Gemini 3.1 蒸馏为仅 26M 参数的专用模型 Needle,专门用于 Function Call,性能超过 Qwen-0.6B,展示了小模型在工具调用场景下的潜力。

@NFTCPS: 本地跑大模型的注意了! 有人把llama.cpp改造成了性能怪兽——BeeLlama.cpp,同样的显存,推理速度直接干到3倍,上下文容量扩展7.5倍,这不是PPT,是实测数据。 它把三个顶级优化方案塞进一个代码库: DFlash推测解码…

X AI KOLs Timeline

BeeLlama.cpp is a fork of llama.cpp that integrates DFlash speculative decoding, TurboQuant/TCQ KV-cache compression, and adaptive draft control, achieving up to 3x faster inference and 7.5x context expansion on the same hardware.