F3

Hacker News Top 2026/06/23 16:53 论文

open-source data-file-format columnar-storage wasm research-prototype interoperability extensibility

摘要

F3 是一种下一代开源数据文件格式，通过嵌入 WebAssembly 解码器实现互操作性和可扩展性，解决了 Parquet 等传统格式的局限性。目前它是基于一篇发表于 ACM 的论文的研究原型。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/23 19:45

future-file-format/f3 来源：https://github.com/future-file-format/f3

F3：面向未来的开源数据文件格式

F3 是一种数据文件格式，设计时充分考虑了效率、互操作性和扩展性。它提供了一种数据组织方式，纠正了上一代格式（如 Parquet）在布局上的缺陷，同时通过内嵌的 Wasm 解码器保持了良好的互操作性和扩展性（即面向未来）。

⚠️ 本项目是对论文中思想的验证性研究原型，请勿用于生产环境。

构建说明

我们仅在搭载 Debian 12 的 Intel 机器上进行了测试。

git submodule update --init --recursive
./scripts/setup_debian.sh
# 构建 F3 的概念验证包
cargo build -p fff-poc
# 运行 F3 的单元测试
cargo test -p fff-poc

重要目录

format：文件格式的 FlatBuffer 定义。
fff-poc：F3 格式的主要代码。它引用了其他子目录，如 fff-core、fff-encoding、fff-format 和 fff-ude-wasm。
fff-bench：论文中出现的基准测试和实验。具体来说，fff-bench/examples 应包含大多数实验（包括微基准测试和端到端实验）。
fff-ude*：ude 代表用户自定义编码，这些目录中的代码与 Wasm 解码实现相关。
scripts 和 exp_scripts：与运行实验相关的脚本。

论文实验结果的复现步骤

详细步骤请参见 doc/paper_reproduction.md。

许可证

本项目采用 MIT 许可证。详见 LICENSE。

引用

如果您觉得本项目有用，请考虑引用：

@article{zeng2025f3,
  author = {Zeng, Xinyu and Meng, Ruijun and Prammer, Martin and McKinney, Wes and Patel, Jignesh M. and Pavlo, Andrew and Zhang, Huanchen},
  title = {F3: The Open-Source Data File Format for the Future},
  year = {2025},
  issue_date = {September 2025},
  publisher = {Association for Computing Machinery},
  address = {New York, NY, USA},
  volume = {3},
  number = {4},
  url = {https://doi.org/10.1145/3749163},
  doi = {10.1145/3749163},
  abstract = {列式存储格式是现代数据分析系统的基础。开源文件格式（如 Parquet、ORC）的普及使得数据能够在不同平台间无缝共享。然而，这些格式创建于十多年前，针对的是与今天截然不同的硬件和工作负载环境。尽管这些格式在其规范中融入了一些更新以适应这些变化，但并非所有部署都支持这些修改，而且系统往往无法克服这些格式的缺陷和局限性，除非重写。在本文中，我们提出了面向未来的文件格式（F3）项目。它是一种下一代开源文件格式，其核心设计原则是互操作性、扩展性和效率。F3 提供了一种数据组织结构和一个通用 API，允许开发者轻松添加新的编码方案，从而避免了每次数据处理和计算发生变化时都创建新格式的需要。每个自描述的 F3 文件既包含数据和元数据，也包含用于解码数据的 WebAssembly (Wasm) 二进制文件。将解码器嵌入每个文件仅需极少的存储空间（千字节级别），并确保在原生解码器不可用的任何平台上都能兼容。为了评估 F3，我们将其与传统的和最新的开源文件格式进行了比较。我们的评估证明了 F3 存储布局的有效性以及 Wasm 驱动解码的优势。},
  journal = {Proc. ACM Manag. Data},
  month = sep,
  articleno = {245},
  numpages = {27},
  keywords = {列式存储，压缩，扩展性，文件格式}
}

相似文章

F* 文件系统——直接绕过操作系统内核读取SSD的文件搜索

Hacker News Top

一款名为 ffs 的 CLI 工具，通过直接读取磁盘来搜索文件，绕过操作系统内核的 VFS 层，在处理大型、未缓存目录时相比 ripgrep 等工具具有潜在的速度优势。支持 ext4、btrfs 和 APFS 文件系统。

@ms_aifrontiers: 与MagenticLite一起，我们推出了Fara1.5：一系列小型浏览器代理，参数规模分别为4B、9B和27B。它在Online-Mind2Web上取得了63%的成绩……

X AI KOLs Following

微软推出了Fara1.5系列小型浏览器代理（4B、9B、27B），在计算机使用基准测试中取得了最先进的性能，在Online-Mind2Web上得分63%，并超越了Operator和Gemini等更大规模的模型。

TabPFN-3：技术报告

arXiv cs.LG

TabPFN-3 是一个新的表格数据基础模型，在合成数据上预训练，可扩展到 100 万训练行，同时减少训练和推理时间，在表格预测、时间序列和关系数据上实现了最先进的性能。

Fara-7B：一种高效的计算机使用智能体模型

Papers with Code Trending

介绍了FaraGen——一种用于计算机使用智能体的合成数据生成系统，以及Fara-7B——一个体积小但效率高的模型，在网页任务基准测试中优于更大规模的模型。该模型已在Microsoft Foundry和HuggingFace上以开放权重形式发布。

@Tono_Ken3: 为gemma-4-12B-coder-fable5-composer2.5-GGUF添加了Q3系列。你可能可以在编码中尝试Fable5（作为教师角色）的精髓……

X AI KOLs Timeline

新的Q3量化版本已添加到gemma-4-12B-coder-fable5-composer2.5 GGUF模型中，通过重要性矩阵量化版本，使得这一专注于编码的微调模型能够在大约6GB显存的GPU上运行。