dataset-tokenization

标签

Cards List
#dataset-tokenization

ztok —— 一个用 Zig 编写的高性能多线程分词器,支持加载 tiktoken / HF / SentencePiece,速度提升 2–5 倍

Reddit r/LocalLLaMA · 2026-05-22

ztok 是一个用 Zig 编写的高性能多线程分词器库,支持多种格式(tiktoken、HF、SentencePiece 等),速度比现有方案快 2–5 倍,适用于 RAG 分块和数据集分词。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈