AV2 v1.0.0 规范
摘要
开放媒体联盟(Alliance for Open Media)发布了 AV2 v1.0.0 规范,这是一种新一代视频编码标准,为流媒体、广播和实时视频会议提供卓越的压缩效率。
<p><a href="https://lobste.rs/s/w7sajs/av2_v1_0_0_specification">评论</a></p>
查看缓存全文
缓存时间: 2026/05/31 02:14
# AV2 规范
来源:https://av2.aomedia.org/
## 关于 AV2
**AV2** 是开放媒体联盟(AOMedia)推出的新一代视频编码规范。在 AV1 的基础上,AV2 旨在提供更高的压缩效率,使得在以显著更低的比特率传输高质量视频成为可能。它针对流媒体、广播和实时视频会议的不断变化的需求进行了优化。
本规范是 AV2 实现的权威技术参考。它概述了确保完全一致性所需的比特流语法、语义和解码过程。
AV2 增强了对 AR/VR 应用、多节目分屏传输、屏幕内容处理的改进支持,并能够在更宽的视觉质量范围内运行。
为帮助实现者,**AOMedia 视频模型(AVM)** 作为官方参考软件提供。
## 可用版本
AV2 比特流与解码过程规范,版本 1.0.0,包含对应的 AVM 参考软件。
一个早期的开发草案,已被 v1.0.0 取代。“v13”标签表示一个工作草案里程碑,并不表示版本高于 1.0.0。此处保留以供参考。
## 使用规范
### 完整规范
完整的 AV2 编码规范文档包含从范围、定义到附录的所有章节。它全面涵盖了格式、语法、语义和解码过程。
### PDF 版本
完整的 v1.0.0 规范独立 PDF 可供下载和离线参考。
### 附加表格
附加表格是从第 9 节提取的查找表,以 C 头文件形式提供,便于实现参考。
### 语法浏览器
语法浏览器提供了一个分栏界面,专门查看第 5 节(语法结构)和第 6 节(语义)。功能包括:
- 语法定义及其语义的并排视图
- 可点击的语法元素,便于导航
- 跨两个部分的搜索功能
- 语法结构的复制到剪贴板功能
### 参考软件
与本版本规范对应的参考软件称为 AVM,对应 [v1.0.0](https://github.com/AOMediaCodec/avm/tree/v1.0.0) 标签。
相似文章
Dav2d
VideoLAN社区宣布了dav2d,这是一个针对新型AV2视频编码器的高效软件解码器,旨在为实际应用提供可移植且高性能的解码功能。
LLaVA-OneVision-2:迈向下一代感知智能
LLaVA-OneVision-2 引入了编解码流分词和窗口注意力机制以实现高效的视频理解,在包括视频、空间和跟踪任务在内的多个多模态基准测试中取得了最先进的性能。
AdaCodec:面向视频多模态大模型的预测性视觉编码
AdaCodec 通过仅在场景预测失败时传输完整视觉标记,否则使用紧凑的帧间变化描述,从而减少多模态大模型中的视频编码冗余。在匹配的标记预算下,它优于逐帧 RGB 基线,并且在使用显著更少标记的情况下取得更好或相当的结果,将首令牌延迟从 9.26 秒降至 1.62 秒。
AVTR-1 实时开放权重模型
AVTR-1 是一个用于实时生成AI虚拟形象的开放权重模型,现已开源。
LongAV-Compass:面向分钟级音视频生成在T2AV、I2AV和V2AV上的统一评估
LongAV-Compass是一个综合基准,用于评估分钟级音视频生成在文本、图像和视频条件模态下的表现,衡量长时间序列上的质量、一致性和对齐程度。