LiVeAction：一种面向实时操作的轻量级、通用且非对称神经编解码器设计

Hugging Face Daily Papers 2026/05/07 00:00 论文

neural-codec compression real-time lightweight rate-distortion signal-processing open-source

摘要

本文介绍了 LiVeAction，这是一种专为资源受限设备上的实时操作而设计的轻量级神经编解码器。它利用类 FFT 结构和基于方差的率失真惩罚，在保持低功耗传感器实用性的同时，实现了卓越的率失真性能。

现代传感器生成丰富的高保真数据，然而运行在可穿戴或远程传感设备上的应用仍受限于带宽和功耗预算。JPEG 和 MPEG 等标准编解码器在比特率和感知质量之间实现了高效权衡，但它们是为人类感知设计的，这限制了其在机器感知任务以及空间音频阵列、高光谱图像和 3D 医学图像等非传统模态中的适用性。基于标量量化或分辨率降低的通用压缩方案虽然适用性广泛，但未能利用信号固有的冗余性，导致率失真性能不佳。近期的生成式神经编解码器（或标记器）能够模拟复杂的信号依赖性，但往往参数过多、数据需求大且具有模态特异性，使其在资源受限的环境中难以实用化。我们提出了一种轻量级、通用且非对称的神经编解码器架构（LiVeAction），通过两个关键思路来解决这些局限性。(1) 为了降低编码器复杂度以满足执行环境的资源约束，我们采用了类 FFT 结构，并减小了基于神经网络的解析变换的整体尺寸和深度。(2) 为了支持任意信号模态并简化训练，我们用基于方差的率失真惩罚替代了对抗性损失和感知损失。我们的设计产生的编解码器在率失真性能上优于最先进的生成式标记器，同时仍适合部署在低功耗传感器上。我们在 https://github.com/UT-SysML/liveaction 发布了代码、实验结果及 Python 库。

查看原文

查看缓存全文

缓存时间: 2026/05/11 07:21

论文页面 - LiVeAction：一种面向实时操作的轻量级、通用且非对称的神经编解码器设计

来源：https://huggingface.co/papers/2605.06628

摘要

LiVeAction 是一种轻量级神经编解码器架构，它采用类似 FFT 的结构和基于方差的速率惩罚替代对抗损失，从而提升了资源受限设备的率失真性能。

现代传感器生成的数据丰富且高保真，但运行在可穿戴设备或遥感设备上的应用仍受限于带宽和功耗预算。JPEG 和 MPEG 等标准化编解码器在比特率和感知质量之间实现了高效的权衡，但它们是为人类感知而设计的，这限制了其在机器感知任务以及空间音频阵列、高光谱图像和 3D 医学图像等非传统模态上的适用性。基于标量量化或分辨率降低的通用压缩方案虽然具有广泛的适用性，但未能利用信号固有的冗余性，导致次优的率失真性能 (https://huggingface.co/papers?q=rate-distortion%20performance)。最近的生成式神经编解码器 (https://huggingface.co/papers?q=neural%20codec)（或称为 tokenizer）能够建模复杂的信号依赖性，但往往参数过多、数据依赖性强且特定于某种模态，这使得它们在资源受限的环境中难以实际部署。我们提出了一种轻量级、通用且非对称的神经编解码器 (https://huggingface.co/papers?q=neural%20codec) 架构（LiVeAction），通过两个关键思路解决了这些局限性。（1）为了降低编码器复杂度以满足执行环境的资源约束，我们施加了类似 FFT 的结构 (https://huggingface.co/papers?q=FFT-like%20structure)，并减小了基于神经网络的解析变换 (https://huggingface.co/papers?q=neural-network-based%20analysis%20transform) 的整体尺寸和深度。（2）为了支持任意信号模态并简化训练，我们用基于方差的速率惩罚 (https://huggingface.co/papers?q=variance-based%20rate%20penalty) 取代了对抗损失和感知损失。我们的设计产生的编解码器相比最先进的生成式 tokenizer (https://huggingface.co/papers?q=generative%20tokenizers) 提供了更优越的率失真性能 (https://huggingface.co/papers?q=rate-distortion%20performance)，同时仍适合部署在低功耗传感器上。我们在 https://github.com/UT-SysML/liveaction 发布了我们的代码、实验和 Python 库。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06628)查看 PDF (https://arxiv.org/pdf/2605.06628)项目页面 (https://ut-sysml.github.io/liveaction)GitHub1 (https://github.com/ut-sysml/liveaction)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.06628)

在您的 Agent 中获取此论文：

hf papers read 2605\.06628

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型1

danjacobellis/autocodec 图像到图像• 3天前更新 (https://huggingface.co/danjacobellis/autocodec)

引用此论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.06628 即可从此页面建立链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.06628 即可从此页面建立链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面建立链接。

LiVeAction：一种面向实时操作的轻量级、通用且非对称神经编解码器设计

论文页面 - LiVeAction：一种面向实时操作的轻量级、通用且非对称的神经编解码器设计

摘要

引用此论文的模型1

danjacobellis/autocodec 图像到图像• 3天前更新 (https://huggingface.co/danjacobellis/autocodec)

引用此论文的数据集0

引用此论文的 Spaces 0

包含此论文的收藏集0

相似文章

AdaCodec：面向视频多模态大模型的预测性视觉编码

@jiqizhixin: 如果你的AI能像流媒体编解码器一样“看”视频——只把令牌花在最关键的时刻？介绍……

LiteFrame: 高效视觉编码器解锁视频大语言模型的帧缩放

LLaVA-OneVision-2：迈向下一代感知智能

实时长视频生成（GitHub仓库）

提交意见反馈