LiVeAction:一种面向实时操作的轻量级、通用且非对称神经编解码器设计
摘要
本文介绍了 LiVeAction,这是一种专为资源受限设备上的实时操作而设计的轻量级神经编解码器。它利用类 FFT 结构和基于方差的率失真惩罚,在保持低功耗传感器实用性的同时,实现了卓越的率失真性能。
查看缓存全文
缓存时间: 2026/05/11 07:21
论文页面 - LiVeAction:一种面向实时操作的轻量级、通用且非对称的神经编解码器设计
来源:https://huggingface.co/papers/2605.06628
摘要
LiVeAction 是一种轻量级神经编解码器架构,它采用类似 FFT 的结构和基于方差的速率惩罚替代对抗损失,从而提升了资源受限设备的率失真性能。
现代传感器生成的数据丰富且高保真,但运行在可穿戴设备或遥感设备上的应用仍受限于带宽和功耗预算。JPEG 和 MPEG 等标准化编解码器在比特率和感知质量之间实现了高效的权衡,但它们是为人类感知而设计的,这限制了其在机器感知任务以及空间音频阵列、高光谱图像和 3D 医学图像等非传统模态上的适用性。基于标量量化或分辨率降低的通用压缩方案虽然具有广泛的适用性,但未能利用信号固有的冗余性,导致次优的率失真性能 (https://huggingface.co/papers?q=rate-distortion%20performance)。最近的生成式神经编解码器 (https://huggingface.co/papers?q=neural%20codec)(或称为 tokenizer)能够建模复杂的信号依赖性,但往往参数过多、数据依赖性强且特定于某种模态,这使得它们在资源受限的环境中难以实际部署。我们提出了一种轻量级、通用且非对称的神经编解码器 (https://huggingface.co/papers?q=neural%20codec) 架构(LiVeAction),通过两个关键思路解决了这些局限性。(1)为了降低编码器复杂度以满足执行环境的资源约束,我们施加了类似 FFT 的结构 (https://huggingface.co/papers?q=FFT-like%20structure),并减小了基于神经网络的解析变换 (https://huggingface.co/papers?q=neural-network-based%20analysis%20transform) 的整体尺寸和深度。(2)为了支持任意信号模态并简化训练,我们用基于方差的速率惩罚 (https://huggingface.co/papers?q=variance-based%20rate%20penalty) 取代了对抗损失和感知损失。我们的设计产生的编解码器相比最先进的生成式 tokenizer (https://huggingface.co/papers?q=generative%20tokenizers) 提供了更优越的率失真性能 (https://huggingface.co/papers?q=rate-distortion%20performance),同时仍适合部署在低功耗传感器上。我们在 https://github.com/UT-SysML/liveaction 发布了我们的代码、实验和 Python 库。
查看 arXiv 页面 (https://arxiv.org/abs/2605.06628)查看 PDF (https://arxiv.org/pdf/2605.06628)项目页面 (https://ut-sysml.github.io/liveaction)GitHub1 (https://github.com/ut-sysml/liveaction)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.06628)
在您的 Agent 中获取此论文:
hf papers read 2605\.06628
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型1
danjacobellis/autocodec 图像到图像• 3天前更新 (https://huggingface.co/danjacobellis/autocodec)
引用此论文的数据集0
没有数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2605.06628 即可从此页面建立链接。
引用此论文的 Spaces 0
没有 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.06628 即可从此页面建立链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面建立链接。
相似文章
AdaCodec:面向视频多模态大模型的预测性视觉编码
AdaCodec 通过仅在场景预测失败时传输完整视觉标记,否则使用紧凑的帧间变化描述,从而减少多模态大模型中的视频编码冗余。在匹配的标记预算下,它优于逐帧 RGB 基线,并且在使用显著更少标记的情况下取得更好或相当的结果,将首令牌延迟从 9.26 秒降至 1.62 秒。
@jiqizhixin: 如果你的AI能像流媒体编解码器一样“看”视频——只把令牌花在最关键的时刻?介绍……
LLaVA-OneVision-2 引入了编解码流令牌化技术以实现高效的视频理解,在时间与空间基准测试上显著超越 Qwen3-VL-8B。模型、数据和代码均已开源。
LiteFrame: 高效视觉编码器解锁视频大语言模型的帧缩放
LiteFrame提出了一种轻量级视频编码器,采用压缩令牌蒸馏(Compressed Token Distillation)训练,可降低延迟,并使视频大语言模型能够处理8倍以上的帧数以实现长视频理解,在降低计算量的同时提高准确性。
LLaVA-OneVision-2:迈向下一代感知智能
LLaVA-OneVision-2 引入了编解码流分词和窗口注意力机制以实现高效的视频理解,在包括视频、空间和跟踪任务在内的多个多模态基准测试中取得了最先进的性能。
实时长视频生成(GitHub仓库)
NVlabs 发布了 LongLive 2.0,这是一个采用 NVFP4 量化的实时长视频生成并行基础设施,同时支持训练和推理。它达到了 45.7 FPS,并被 ICLR 2026 接收。