huggingface/transformers v5.6.0 发布

GitHub Releases Watchlist 工具

摘要

Hugging Face 发布其热门 transformers 库的 5.6.0 版本。

Release v5.6.0 新增模型 OpenAI Privacy Filter OpenAI Privacy Filter 是一个双向 token 分类模型,用于检测并遮蔽文本中的个人身份信息(PII)。它面向高吞吐量的数据脱敏工作流,适合需要本地部署、快速、上下文感知且可微调的场景。该模型在一次前向传播中为输入序列打标签,然后通过受限的 Viterbi 解码生成连贯片段,为每个输入 token 预测 8 种隐私相关类别的概率分布。 链接:文档 [Privacy Filter] 添加模型 (#45580) 由 @vasqu 在 #45580 QianfanOCR Qianfan-OCR 是百度研发的 40 亿参数端到端文档智能模型,可直接将图片转为文本,无需传统多阶段 OCR 流程。它支持提示驱动的多种任务:结构化文档解析、表格抽取、图表理解、文档问答、关键信息抽取,全部统一在一个模型内。其独有的“Layout-as-Thought”能力会先生成结构化布局表示,再输出最终结果,对混合元素复杂文档尤为有效。 链接:文档 | 论文 添加 Qianfan-OCR 模型定义 (#45280) 由 @marvinzh 在 #45280 SAM3-LiteText SAM3-LiteText 是 SAM3 的轻量版,将原 3.53 亿参数的重量级文本编码器替换为经知识蒸馏优化的 MobileCLIP 小模型,同时保留 SAM3 ViT-H 图像编码器。文本编码器参数量减少 88%,分割性能与原模型相当,显著提升了文本提示分割的效率。 链接:文档 | 论文 添加 SAM3-LiteText (#44320) 由 @NielsRogge 在 #44320 SLANet SLANet 与 SLANet_plus 是专为表格结构识别设计的轻量模型,可精准识别文档与自然场景中的表格结构。模型采用 CPU 友好的轻量骨干 PP-LCNet、高低层特征融合模块 CSP-PAN 以及结构与位置信息对齐的 SLA Head 解码模块,提升精度与推理速度。SLANet 由百度 PaddlePaddle 视觉团队开发。 链接:文档 [Model] 添加 SLANet 模型支持 (#45532) 由 @zhang-prog 在 #45532 破坏性变更 内部 rotary_fn 不再注册为隐藏 kernel 函数,Attention 模块中任何引用 self.rotary_fn(...) 的代码将失效,需改为直接调用函数。 🚨 [Kernels] 修复 kernel 函数注册 (#45420) 由 @vasqu Serve transformers serve 命令多项增强:新增 /v1/completions 端点兼容旧版文本补全;支持音频、视频多模态输入;通过 parse_response 改进工具调用;正确转发 tool_calls/tool_call_id 字段;服务器锁定特定模型时模型不匹配返回 400;修复 response API。文档同步更新,新增 --compile、--model-timeout 等选项说明。 添加 /v1/completions 端点(OpenAI 旧版补全 API)到 transformers serve (#44558) 由 @rain-1 在 [#44558] 按最新 API 更新 Paddle 模型镜像缓存 (#45562) 由 @zhang-prog 在 [#45562] transformers serve 锁定模型时模型不匹配抛出 400 (#45443) 由 @qgallouedec 在 [#45443] [serve] 工具调用切换至 parse_response (#45485) 由 @SunMarc 在 [#45485] 修复 response api 支持 (#45463) 由 @SunMarc 在 [#45463] [serve] 在 processor 输入中转发 tool_calls/tool_call_id (#45418) 由 @qgallouedec 在 [#45418] refactor(qa): 扩展 extras 使 ty 可运行 server 模块 (#45456) 由 @tarekziade 在 [#45456] 多模态 serve 支持 (#45220) 由 @SunMarc 在 [#45220] [docs] transformers serve (#45174) 由 @stevhliu 在 [#45174] Vision 多项视觉相关 bug 修复:修正 Qwen2.5-VL 对静态图像的时序 RoPE 缩放;修复 Emu3、BLIP 缺失/不匹配的图像处理器后端;解决模块化图像处理器类重复;阻止 accelerate 错误拆分 PeVideo/PeAudioVideo 模型的视觉编码器。图像加载性能提升:在 torchvision 后端使用原生 decode_image,相比 PIL 提速约 17%。 Revert "修复:模块化图像处理器 (#45492)" (#45531) 由 @tarekziade 在 [#45531] 修复:模块化图像处理器 (#45492) 由 @zucchini-nlp 在 [#45492] 修复:通过设置 no… 阻止 accelerate 拆分视觉编码器 (#43047) 由 @ 在 [#43047] 修复 Qwen2.5-VL 对静态图像应用时序 RoPE 缩放的问题 (#45330) 由 @Kash6 在 [#45330] 在 torchvision 后端使用 torchvision decode_image 加载图像 (#45195) 由 @yonigozlan 在 [#45195] 修复缺失的图像处理器后端 (#45165) 由 @zucchini-nlp 在 [#45165] Parallelization 修复分布式训练多处 bug:消除 Expert Parallelism 下的静默错误结果或 NaN 损失;修复非 rank-0 FSDP 进程权重 NaN;解决 PP-DocLayoutV3 因零尺寸掩码导致的 resize 失败;新增 Tensor Parallelism 加载适配器支持;将 MoE 加入 Gemma4 TP 计划;发布 TP 训练文档。 修复 EP:RouterParallel shape、tp_plan 属性、grouped_mm 哨兵 (#45473) 由 @AmineDiro 在 [#45473] 修复非 rank-0 FSDP 进程权重 NaN (#45050) 由 @albertvillanova 在 [#45050] 使用 TP 加载适配器 (#45155) 由 @michaelbenayoun 在 [#45155] [docs] tp 训练 (#44613) 由 @stevhliu 在 [#44613] 修复 PP-DocLayoutV3 零尺寸掩码导致的 resize 失败 (#45281) 由 @zhang-prog 在 [#45281] 将 MoE 加入 Gemma4 TP 计划 (#45219) 由 @sywangyi 在 [#45219] Tokenization 修复 streamer 类文档字符串拼写错误;解决 Kimi-K2.5 分词器回退及 _patch_mistral_regex AttributeError;修复 Qwen3VLProcessor 流式生成崩溃(错误的 _tokenizer 属性访问)。 housekeeping:将 GPT-SW3 instruct 分词器移至内部测试仓库;修复测试期间分词器注册表的全局状态泄漏。 [Doc] 修复 streamer 文档字符串中 'tokenized' -> 'tokenizer' 拼写 (#45508) 由 @avasis-ai 在 [#45508] 修复 Kimi-K2.5 分词器回退及 _patch_mistral_regex AttributeError (#45359) 由 @ArthurZucker 在 [#45359] 修复(serving):在流式生成中从 ProcessorMixin 解析 rust 分词器 (#45368) 由 @sharziki 在 [#45368] [Tokenizers] 移除 gpt sw3 分词器 (#45404) 由 @vasqu 在 [#45404] 修复:test_processors 中分词器注册表泄漏 (#45318) 由 @tarekziade 在 [#45318] Cache 改进 Gemma4 与 Gemma3n 的缓存处理:将 KV 状态共享与 Cache 类解耦,无论是否使用 Cache 均确保 KV 状态共享;Paddle 模型镜像缓存亦同步最新 API。 将 gemma3n 缓存共享对齐至 gemma4 (#45489) 由 @Cyrilvallez 在 [#45489] 从树中移除缓存文件 (#45392) 由 @tarekziade 在 [#45392] [gemma4] 将 kv 状态共享与 Cache 解耦 (#45312) 由 @Cyrilvallez 在 [#45312] Audio 音频模型通过针对性修复获得 vLLM 兼容性;可靠性提升:音频文件下载增加指数退避重试;修复文本到语音管道在生成配置含 None 值时崩溃;修正 Kyutai Speech-To-Text 测试失败。 feat[vLLM × v5]:为音频模型添加 vLLM 兼容性 (#45326) 由 @harshaljanjani 在 #45326 音频文件下载增加 http 重试 (#45
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/22 18:10

英语 | 简体中文 | 繁體中文 | 한국어 | Español | 日本語 | हिन्दी | Русский | Português | తెలుగు | Français | Deutsch | Italiano | Tiếng Việt | العربية | اردو | বাংলা |

英语 | 简体中文 | 繁體中文 | 한국어 | Español | 日本語 | हिन्दी | Русский | Português | తెలుగు | Français | Deutsch | Italiano | Tiếng Việt | العربية | اردو | বাংলা |

用于推理与训练的顶尖预训练模型

用于推理与训练的顶尖预训练模型

相似文章

你自己会提交的那个 PR

Hugging Face Blog

Hugging Face 发布了一项新的「Skill」和测试框架,旨在帮助将语言模型从 transformers 库迁移到 mlx-lm,利用代码智能体来简化开源贡献流程。