llm-efficiency

标签

Cards List
#llm-efficiency

@hardmaru: 人脑极其高效,因为它只激活特定思维所需的神经元。现代LLM…

X AI KOLs Timeline · 23小时前 缓存

本文介绍了TwELL和Hybrid稀疏格式,配合自定义CUDA内核,有效利用LLM中的非结构化稀疏性,在H100 GPU上实现了训练和推理速度提升超过20%,同时降低了能耗和内存使用。

0 人收藏 0 人点赞
#llm-efficiency

面向大语言模型的显著性感知正则化量化校准

arXiv cs.AI · 昨天 缓存

本文提出了显著性感知正则化量化校准(SARQC),这是一个统一的框架,通过添加正则化项以保持权重接近度,从而改善大语言模型(LLM)的训练后量化(PTQ),提升泛化能力和性能。

0 人收藏 0 人点赞
#llm-efficiency

基于熵与低秩重构的高保真KV缓存摘要

Hacker News Top · 2026-04-19 缓存

提出一种SRC流水线,通过基于熵的选择和低秩重构对KV缓存进行摘要,而非直接裁剪token,在百万token的LLM上下文中降低显存占用,同时避免灾难性注意力错误。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈