F3

Hacker News Top 论文

摘要

F3 是一种下一代开源数据文件格式,通过嵌入 WebAssembly 解码器实现互操作性和可扩展性,解决了 Parquet 等传统格式的局限性。目前它是基于一篇发表于 ACM 的论文的研究原型。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/23 19:45

future-file-format/f3 来源:https://github.com/future-file-format/f3

F3:面向未来的开源数据文件格式

F3 是一种数据文件格式,设计时充分考虑了效率、互操作性和扩展性。它提供了一种数据组织方式,纠正了上一代格式(如 Parquet)在布局上的缺陷,同时通过内嵌的 Wasm 解码器保持了良好的互操作性和扩展性(即面向未来)。

⚠️ 本项目是对论文中思想的验证性研究原型,请勿用于生产环境。

构建说明

我们仅在搭载 Debian 12 的 Intel 机器上进行了测试。

git submodule update --init --recursive
./scripts/setup_debian.sh
# 构建 F3 的概念验证包
cargo build -p fff-poc
# 运行 F3 的单元测试
cargo test -p fff-poc

重要目录

  • format:文件格式的 FlatBuffer 定义。
  • fff-poc:F3 格式的主要代码。它引用了其他子目录,如 fff-core、fff-encoding、fff-format 和 fff-ude-wasm。
  • fff-bench:论文中出现的基准测试和实验。具体来说,fff-bench/examples 应包含大多数实验(包括微基准测试和端到端实验)。
  • fff-ude*:ude 代表用户自定义编码,这些目录中的代码与 Wasm 解码实现相关。
  • scriptsexp_scripts:与运行实验相关的脚本。

论文实验结果的复现步骤

详细步骤请参见 doc/paper_reproduction.md

许可证

本项目采用 MIT 许可证。详见 LICENSE

引用

如果您觉得本项目有用,请考虑引用:

@article{zeng2025f3,
  author = {Zeng, Xinyu and Meng, Ruijun and Prammer, Martin and McKinney, Wes and Patel, Jignesh M. and Pavlo, Andrew and Zhang, Huanchen},
  title = {F3: The Open-Source Data File Format for the Future},
  year = {2025},
  issue_date = {September 2025},
  publisher = {Association for Computing Machinery},
  address = {New York, NY, USA},
  volume = {3},
  number = {4},
  url = {https://doi.org/10.1145/3749163},
  doi = {10.1145/3749163},
  abstract = {列式存储格式是现代数据分析系统的基础。开源文件格式(如 Parquet、ORC)的普及使得数据能够在不同平台间无缝共享。然而,这些格式创建于十多年前,针对的是与今天截然不同的硬件和工作负载环境。尽管这些格式在其规范中融入了一些更新以适应这些变化,但并非所有部署都支持这些修改,而且系统往往无法克服这些格式的缺陷和局限性,除非重写。在本文中,我们提出了面向未来的文件格式(F3)项目。它是一种下一代开源文件格式,其核心设计原则是互操作性、扩展性和效率。F3 提供了一种数据组织结构和一个通用 API,允许开发者轻松添加新的编码方案,从而避免了每次数据处理和计算发生变化时都创建新格式的需要。每个自描述的 F3 文件既包含数据和元数据,也包含用于解码数据的 WebAssembly (Wasm) 二进制文件。将解码器嵌入每个文件仅需极少的存储空间(千字节级别),并确保在原生解码器不可用的任何平台上都能兼容。为了评估 F3,我们将其与传统的和最新的开源文件格式进行了比较。我们的评估证明了 F3 存储布局的有效性以及 Wasm 驱动解码的优势。},
  journal = {Proc. ACM Manag. Data},
  month = sep,
  articleno = {245},
  numpages = {27},
  keywords = {列式存储,压缩,扩展性,文件格式}
}

相似文章

TabPFN-3:技术报告

arXiv cs.LG

TabPFN-3 是一个新的表格数据基础模型,在合成数据上预训练,可扩展到 100 万训练行,同时减少训练和推理时间,在表格预测、时间序列和关系数据上实现了最先进的性能。

Fara-7B:一种高效的计算机使用智能体模型

Papers with Code Trending

介绍了FaraGen——一种用于计算机使用智能体的合成数据生成系统,以及Fara-7B——一个体积小但效率高的模型,在网页任务基准测试中优于更大规模的模型。该模型已在Microsoft Foundry和HuggingFace上以开放权重形式发布。