llm-efficiency

#llm-efficiency

@hardmaru: 人脑极其高效，因为它只激活特定思维所需的神经元。现代LLM…

X AI KOLs Timeline ↗ · 23小时前缓存

本文介绍了TwELL和Hybrid稀疏格式，配合自定义CUDA内核，有效利用LLM中的非结构化稀疏性，在H100 GPU上实现了训练和推理速度提升超过20%，同时降低了能耗和内存使用。

0 人收藏 0 人点赞

#llm-efficiency

arXiv cs.AI ↗ · 昨天缓存

本文提出了显著性感知正则化量化校准（SARQC），这是一个统一的框架，通过添加正则化项以保持权重接近度，从而改善大语言模型（LLM）的训练后量化（PTQ），提升泛化能力和性能。

0 人收藏 0 人点赞

#llm-efficiency

Hacker News Top ↗ · 2026-04-19 缓存

提出一种SRC流水线，通过基于熵的选择和低秩重构对KV缓存进行摘要，而非直接裁剪token，在百万token的LLM上下文中降低显存占用，同时避免灾难性注意力错误。

0 人收藏 0 人点赞