标签
一条推文,重点介绍了四个开源库(Unsloth、LLaMA Factory、DeepSpeed、Axolotl),这些库通过内存和速度优化加速大型语言模型的微调。
ResilPhase是一个免训练的扩散模型加速框架,将加速推理重述为ODE空间中的稳定宏轨迹外推,通过无导数重心拉格朗日外推和有界相位映射,在高加速比下实现最先进的保真度。
Enze Xie 宣布推出 Sol Video Inference Engine,这是一个基于智能体的原生、无需训练的全栈加速器,用于视频扩散,能够自动调整缓存、稀疏注意力、令牌剪枝、量化和内核融合,在像 64B Cosmos3-Super 和 22B LTX-2.3 这样的大模型上实现了 >2 倍的端到端加速。
Elad Gil 谈到AI进展的加速步伐,并链接到一篇关于查尔斯·斯特罗斯科幻小说《Accelerando》的评论,该小说探讨了奇点主题。
本文提出了eCNNTO,一种带有残差连接的卷积神经网络,通过从早期迭代历史中预测接近最优的密度来加速基于密度的拓扑优化,实现了最多97%的迭代次数减少,并在不同边界条件、几何形状和网格分辨率下展现出强大的泛化能力。
AdaPLD是一种无需训练的方法,通过自适应检索结合词汇与语义相似度,并构建分支复用假设来处理续写不确定性,从而提升无模型推测解码的效率,最高可实现3.10倍解码加速。
TAPS提出了一种面向扩散草稿推测解码的目标感知前缀树选择方法,通过改善接受-成本权衡,相较于先前方法实现了高达7.9倍的无损端到端加速。
本文认为,人工智能创造了一个快速反馈循环,人类和机器相互塑造真理,加速共识转变,使得真理越来越合成且脱离现实。
本文提出推测性流水线解码(SPD),一种在单个LLM内部利用流水线并行实现并行令牌推测的框架,避免了传统推测解码中多令牌预测的延迟泡沫和准确度下降问题。
Greg Brockman 指出,人工智能让像数学家陶哲轩这样的研究人员得以自由探索更大胆、更具创意的想法。
RT-Lynx提出利用激活稀疏性而非权重稀疏性来加速扩散模型,在线性层上实现了高达1.55倍的加速,同时保持生成质量,并被ICML 2026接收。
全球变暖速度已加速至过去几十年的两倍,且98%的置信度表明这种加速是由气候变化导致的。如果变暖持续以这一速度进行,巴黎协定的1.5°C升温限制可能在2028年被突破。
Sam Altman分享了对AGI的三个兴奋点:加速研究、加速公司以及个人目标。他还提到最近的公告,包括一个单位距离结果以及为Y Combinator创业公司提供200万美元的OpenAI积分。
本文介绍了 CATS,这是一种级联自适应树猜测框架,旨在通过优化内存使用同时保持高 Token 接受率,加速内存受限边缘设备上的 LLM 推理。
本文介绍了 PARD-2,这是一种双模态投机解码框架,利用目标对齐的并行草稿模型加速大语言模型(LLM)推理,在 Llama 3.1-8B 上实现了最高 6.94 倍的无损加速。
本文介绍了 DARE,这是一种通过复用缓存的键值(KV)和输出激活来减少计算冗余,从而在几乎不损失质量的情况下提高扩散大语言模型推理效率的方法。
本文介绍了 SpecBlock,这是一种块迭代式投机解码方法,通过将路径依赖与高效的草拟相结合来加速大语言模型的推理。与 EAGLE-3 等现有方法相比,它在保持更低草拟成本的同时展示了更高的加速比。
本文介绍了归一化轨迹模型(NTM),这是一种基于扩散生成的新颖方法,它将反向步骤建模为具有精确似然训练的有条件归一化流。NTM 仅需四个步骤即可实现高质量的文本到图像生成,同时保留了似然框架,在标准基准测试中优于基线方法。