huggingface/transformers v5.6.0 发布

GitHub Releases Watchlist 2026/04/22 15:52 工具

摘要

Hugging Face 发布其热门 transformers 库的 5.6.0 版本。

Release v5.6.0 新增模型 OpenAI Privacy Filter OpenAI Privacy Filter 是一个双向 token 分类模型，用于检测并遮蔽文本中的个人身份信息（PII）。它面向高吞吐量的数据脱敏工作流，适合需要本地部署、快速、上下文感知且可微调的场景。该模型在一次前向传播中为输入序列打标签，然后通过受限的 Viterbi 解码生成连贯片段，为每个输入 token 预测 8 种隐私相关类别的概率分布。链接：文档 [Privacy Filter] 添加模型 (#45580) 由 @vasqu 在 #45580 QianfanOCR Qianfan-OCR 是百度研发的 40 亿参数端到端文档智能模型，可直接将图片转为文本，无需传统多阶段 OCR 流程。它支持提示驱动的多种任务：结构化文档解析、表格抽取、图表理解、文档问答、关键信息抽取，全部统一在一个模型内。其独有的“Layout-as-Thought”能力会先生成结构化布局表示，再输出最终结果，对混合元素复杂文档尤为有效。链接：文档 | 论文添加 Qianfan-OCR 模型定义 (#45280) 由 @marvinzh 在 #45280 SAM3-LiteText SAM3-LiteText 是 SAM3 的轻量版，将原 3.53 亿参数的重量级文本编码器替换为经知识蒸馏优化的 MobileCLIP 小模型，同时保留 SAM3 ViT-H 图像编码器。文本编码器参数量减少 88%，分割性能与原模型相当，显著提升了文本提示分割的效率。链接：文档 | 论文添加 SAM3-LiteText (#44320) 由 @NielsRogge 在 #44320 SLANet SLANet 与 SLANet_plus 是专为表格结构识别设计的轻量模型，可精准识别文档与自然场景中的表格结构。模型采用 CPU 友好的轻量骨干 PP-LCNet、高低层特征融合模块 CSP-PAN 以及结构与位置信息对齐的 SLA Head 解码模块，提升精度与推理速度。SLANet 由百度 PaddlePaddle 视觉团队开发。链接：文档 [Model] 添加 SLANet 模型支持 (#45532) 由 @zhang-prog 在 #45532 破坏性变更内部 rotary_fn 不再注册为隐藏 kernel 函数，Attention 模块中任何引用 self.rotary_fn(...) 的代码将失效，需改为直接调用函数。 🚨 [Kernels] 修复 kernel 函数注册 (#45420) 由 @vasqu Serve transformers serve 命令多项增强：新增 /v1/completions 端点兼容旧版文本补全；支持音频、视频多模态输入；通过 parse_response 改进工具调用；正确转发 tool_calls/tool_call_id 字段；服务器锁定特定模型时模型不匹配返回 400；修复 response API。文档同步更新，新增 --compile、--model-timeout 等选项说明。添加 /v1/completions 端点（OpenAI 旧版补全 API）到 transformers serve (#44558) 由 @rain-1 在 [#44558] 按最新 API 更新 Paddle 模型镜像缓存 (#45562) 由 @zhang-prog 在 [#45562] transformers serve 锁定模型时模型不匹配抛出 400 (#45443) 由 @qgallouedec 在 [#45443] [serve] 工具调用切换至 parse_response (#45485) 由 @SunMarc 在 [#45485] 修复 response api 支持 (#45463) 由 @SunMarc 在 [#45463] [serve] 在 processor 输入中转发 tool_calls/tool_call_id (#45418) 由 @qgallouedec 在 [#45418] refactor(qa): 扩展 extras 使 ty 可运行 server 模块 (#45456) 由 @tarekziade 在 [#45456] 多模态 serve 支持 (#45220) 由 @SunMarc 在 [#45220] [docs] transformers serve (#45174) 由 @stevhliu 在 [#45174] Vision 多项视觉相关 bug 修复：修正 Qwen2.5-VL 对静态图像的时序 RoPE 缩放；修复 Emu3、BLIP 缺失/不匹配的图像处理器后端；解决模块化图像处理器类重复；阻止 accelerate 错误拆分 PeVideo/PeAudioVideo 模型的视觉编码器。图像加载性能提升：在 torchvision 后端使用原生 decode_image，相比 PIL 提速约 17%。 Revert "修复：模块化图像处理器 (#45492)" (#45531) 由 @tarekziade 在 [#45531] 修复：模块化图像处理器 (#45492) 由 @zucchini-nlp 在 [#45492] 修复：通过设置 no… 阻止 accelerate 拆分视觉编码器 (#43047) 由 @ 在 [#43047] 修复 Qwen2.5-VL 对静态图像应用时序 RoPE 缩放的问题 (#45330) 由 @Kash6 在 [#45330] 在 torchvision 后端使用 torchvision decode_image 加载图像 (#45195) 由 @yonigozlan 在 [#45195] 修复缺失的图像处理器后端 (#45165) 由 @zucchini-nlp 在 [#45165] Parallelization 修复分布式训练多处 bug：消除 Expert Parallelism 下的静默错误结果或 NaN 损失；修复非 rank-0 FSDP 进程权重 NaN；解决 PP-DocLayoutV3 因零尺寸掩码导致的 resize 失败；新增 Tensor Parallelism 加载适配器支持；将 MoE 加入 Gemma4 TP 计划；发布 TP 训练文档。修复 EP：RouterParallel shape、tp_plan 属性、grouped_mm 哨兵 (#45473) 由 @AmineDiro 在 [#45473] 修复非 rank-0 FSDP 进程权重 NaN (#45050) 由 @albertvillanova 在 [#45050] 使用 TP 加载适配器 (#45155) 由 @michaelbenayoun 在 [#45155] [docs] tp 训练 (#44613) 由 @stevhliu 在 [#44613] 修复 PP-DocLayoutV3 零尺寸掩码导致的 resize 失败 (#45281) 由 @zhang-prog 在 [#45281] 将 MoE 加入 Gemma4 TP 计划 (#45219) 由 @sywangyi 在 [#45219] Tokenization 修复 streamer 类文档字符串拼写错误；解决 Kimi-K2.5 分词器回退及 _patch_mistral_regex AttributeError；修复 Qwen3VLProcessor 流式生成崩溃（错误的 _tokenizer 属性访问）。 housekeeping：将 GPT-SW3 instruct 分词器移至内部测试仓库；修复测试期间分词器注册表的全局状态泄漏。 [Doc] 修复 streamer 文档字符串中 'tokenized' -> 'tokenizer' 拼写 (#45508) 由 @avasis-ai 在 [#45508] 修复 Kimi-K2.5 分词器回退及 _patch_mistral_regex AttributeError (#45359) 由 @ArthurZucker 在 [#45359] 修复(serving)：在流式生成中从 ProcessorMixin 解析 rust 分词器 (#45368) 由 @sharziki 在 [#45368] [Tokenizers] 移除 gpt sw3 分词器 (#45404) 由 @vasqu 在 [#45404] 修复：test_processors 中分词器注册表泄漏 (#45318) 由 @tarekziade 在 [#45318] Cache 改进 Gemma4 与 Gemma3n 的缓存处理：将 KV 状态共享与 Cache 类解耦，无论是否使用 Cache 均确保 KV 状态共享；Paddle 模型镜像缓存亦同步最新 API。将 gemma3n 缓存共享对齐至 gemma4 (#45489) 由 @Cyrilvallez 在 [#45489] 从树中移除缓存文件 (#45392) 由 @tarekziade 在 [#45392] [gemma4] 将 kv 状态共享与 Cache 解耦 (#45312) 由 @Cyrilvallez 在 [#45312] Audio 音频模型通过针对性修复获得 vLLM 兼容性；可靠性提升：音频文件下载增加指数退避重试；修复文本到语音管道在生成配置含 None 值时崩溃；修正 Kyutai Speech-To-Text 测试失败。 feat[vLLM × v5]：为音频模型添加 vLLM 兼容性 (#45326) 由 @harshaljanjani 在 #45326 音频文件下载增加 http 重试 (#45

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/22 18:10

用于推理与训练的顶尖预训练模型

huggingface/transformers v5.6.0 发布

相似文章

huggingface/transformers 补丁版本 v5.6.2 发布

huggingface/transformers 发布 5.8.0 版本

huggingface/transformers 补丁发布 v5.5.4

@NielsRogge: 我们已在 Transformers 库中新增对 SAM-3 Lite-Text 的支持！> 将 SAM-3 中笨重的文本编码器替换为……

你自己会提交的那个 PR

提交意见反馈