compute-efficiency

#compute-efficiency

CHERRY：压缩层次化专家与循环表示收益

arXiv cs.CL ↗ · 4天前缓存

本文介绍CHERRY，一套用于计算高效语言模型的技术，包括选择性令牌监督、通过循环展开的深度压缩以及混合压缩专家，在韩语基础模型上取得了显著的效率提升。

0 人收藏 0 人点赞

#compute-efficiency

内部数据重复破坏语言模型

arXiv cs.LG ↗ · 2026-06-25 缓存

本文系统研究了语言模型预训练过程中精确文档重复所造成的损害，表明以中等次数重复中等规模的子集对性能的损害最大，并且重复可能导致高达33%的计算浪费（以计算等效损失衡量）。

0 人收藏 0 人点赞

#compute-efficiency

ZeroGPU

Product Hunt ↗ · 2026-06-05

ZeroGPU是一个为AI推理设计的计算高效层，旨在优化GPU使用并降低成本。

0 人收藏 0 人点赞

#compute-efficiency

LayerRoute：基于输入条件的自适应层跳跃方法——通过LoRA微调实现代理语言模型优化

Hugging Face Daily Papers ↗ · 2026-06-01 缓存

LayerRoute是一种轻量级适配器，能够根据输入类型在推理过程中选择性跳过Transformer块，通过门控路由和LoRA自适应实现计算节省，同时保持或提升模型质量。在代理语言模型上，它实现了12.91%的跳跃差异。

0 人收藏 0 人点赞

#compute-efficiency

LVSA: 用于长视频扩散的无训练稀疏注意力

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

LVSA 为视频扩散模型引入了一种无训练稀疏注意力机制，将计算量减少高达 3.17 倍，同时能够在训练时长之外进行生成，且无质量损失。

0 人收藏 0 人点赞

#compute-efficiency

Learn-by-Wire 训练控制治理：压力下实现稳定与高效的受限自主训练

arXiv cs.AI ↗ · 2026-05-20 缓存

本文介绍了 LBW-Guard，一个位于 AdamW 优化器之上的受限自主训练控制治理层，用于监测遥测数据并在训练过程中施加受限控制，展示了在压力条件下困惑度的改善和训练速度的提升。

0 人收藏 0 人点赞

#compute-efficiency

当AI渲染视频准备就绪时，其计算效率将远超像《超能陆战队》这样需要超过100万渲染小时的电影

Reddit r/singularity ↗ · 2026-05-16

讨论了AI渲染视频相比传统渲染在计算效率上具有巨大潜力的可能性，并以《超能陆战队》数百万渲染小时作为基准。

0 人收藏 0 人点赞

#compute-efficiency

动态分配计算预算给困难问题集，并通过Qwen-35B-A3B演化各模块，使性能在HLE上接近GPT-5.4-xHigh

Reddit r/LocalLLaMA ↗ · 2026-05-15

一种使用Qwen-35B-A3B动态分配计算预算给困难问题的方法，在HLE基准测试上达到了接近GPT-5.4-xHigh的性能。

0 人收藏 0 人点赞

#compute-efficiency

提示缓存，但用于 RL 训练——在长提示/短回复负载上实现 7.5 倍加速

Reddit r/LocalLLaMA ↗ · 2026-05-11

一种面向开源 RL 训练引擎的全新优化技术在训练过程中引入了提示缓存，通过减少冗余计算，在长提示、短回复负载场景下实现了高达 7.5 倍的加速。

0 人收藏 0 人点赞

#compute-efficiency

神经语言模型的缩放规律

OpenAI Blog ↗ · 2020-01-23 缓存

基础性实证研究，展示了语言模型性能与模型规模、数据集大小和计算预算之间的幂律缩放关系，对最优训练资源分配和样本效率有重要启示。

0 人收藏 0 人点赞

compute-efficiency

提交意见反馈