Hugging Face 开源生态现状:2026 年春季

Hugging Face Blog 新闻

摘要

本报告分析了 2026 年春季 Hugging Face 平台上开源 AI 生态的发展现状,涵盖用户、模型和数据集的显著增长,以及衍生模型创作和垂直细分社区的发展趋势。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/08 09:18

Hugging Face 开源生态现状:2026 年春季

来源:https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026 返回文章列表 (https://huggingface.co/blog)

  • 开源与竞争 (https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026#open-source-in-competition)
  • 开源的地理分布 (https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026#the-geography-of-open-source)
  • 模型热度 (https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026#model-popularity)
  • 论文与科研贡献 (https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026#papers-and-scientific-contributions)
  • 衍生模型 (https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026#derivative-models)
  • 采用与可及性 (https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026#adoption-and-accessibility)
  • 算力、硬件与开源 (https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026#compute-hardware-and-open-source)
  • 子社群:机器人 (https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026#sub-communities-robotics)
  • 子社群:AI for Science (https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026#sub-communities-ai-for-science)
  • 未来展望 (https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026#looking-forward)

本文探讨了过去一年中,开源 AI 领域在竞争格局、地理分布、技术趋势和新兴社群等方面的变化。我们主要通过分析 Hugging Face 平台上各类社区活动指标,来呈现整个生态系统的全貌。

本文建立在 2025 年中期的一项早期分析基础之上,该分析可见于此处 (https://huggingface.co/blog/evijit/hf-hub-ecosystem-overview),探讨了 Hugging Face 社区正在构建的内容。我们建议阅读以下关于 Hugging Face 内外开源生态的更多视角:Data Provenance Initiative (https://arxiv.org/abs/2512.03073)、Interconnects (https://www.interconnects.ai/)、OpenRouter 与 a16z (https://openrouter.ai/state-of-ai),以及 MIT 与 Linux 基金会 (https://www.linuxfoundation.org/blog/revealing-the-hidden-economics-of-open-models-in-the-ai-era)。由于 Hugging Face 生态系统具有分布式特征,相关分析是 Hugging Face 与社区成员共同完成的成果,各部分均已注明来源。

开源 AI 生态系统的活动迅速增长,用户数量、模型仓库和数据集仓库数量均接近翻倍。2025 年,Hugging Face 用户增长至 1300 万,公开模型超过 200 万个,公开数据集超过 50 万个。这一增长不仅意味着对开源的兴趣提升,更反映了向积极参与的转变——用户越来越多地创建衍生成果,如微调模型、适配器、基准测试和应用,而不仅仅是消费预训练系统。

image (1) (https://cdn-uploads.huggingface.co/production/uploads/62543749b777cd32720675c2/UBEFLH5FSgf6YdzPV1TVo.png)

*数据来源:Hugging Face | Hugging Face 的两百万模型及更多:*图表与报道由 AI World 提供 (https://aiworld.eu/story/hugging-faces-two-million-models-and-counting)

生态系统仍然高度集中。Hugging Face 上约一半的模型总下载量不足 200 次,而下载量最高的 200 个模型(仅占模型总数的 0.01%)却占据了全部下载量的 49.6%。

专业社群围绕特定领域、语言或问题领域形成,即使它们的总体下载量不高,也往往表现出持续的参与度和复用率。开源 AI 最好被理解为一系列相互重叠的子生态系统,而非单一统一的市场。

https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026#open-source-in-competition开源与竞争

越来越多的公司,无论大小,都在开源基础上进行构建。超过 30% 的财富 500 强企业目前在 Hugging Face 上拥有经过验证的账户。初创公司频繁将开源模型作为默认组件:Thinking Machines 完全基于开放权重构建了其 Tinker 模型系列 (https://thinkingmachines.ai/tinker/),而 VSCode (https://code.visualstudio.com/) 和 Cursor (https://cursor.com/docs) 等流行 IDE 均同时支持开源和闭源模型。Airbnb 等美国成熟企业也加大了对开放生态的参与 (https://www.thewirechina.com/2025/11/09/cheap-and-open-source-chinese-ai-models-are-taking-off/),Hugging Face 在 2025 年期间也见证了更多传统企业升级其组织订阅 (https://huggingface.co/enterprise)。

大型科技公司频繁在 Hugging Face Hub 上创建新仓库;将两者并列可视化,仓库数量的强劲增长显示了持续的投资。NVIDIA 已成为最活跃的贡献者。

bt_allin (https://cdn-uploads.huggingface.co/production/uploads/62543749b777cd32720675c2/Ov7bCWId1Zbyh9WiGEhRt.png)

*数据来源:Hugging Face | 大型科技公司全力投入开源 AI,*图表与报道由 AI World 提供 (https://aiworld.eu/story/big-tech-is-all-in-on-open-source-ai-)

对开源软件更广泛的研究表明,开源成果所创造的下游价值远超其生产成本。类似动态正在 AI 领域出现,开源模型在数千个下游应用中被复用、适配和专业化。完全依赖闭源系统的组织往往面临更高成本,且在部署和定制化方面灵活性降低。

https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026#the-geography-of-open-source开源的地理分布

过去四年的累计下载量显示了模型热度的领先地区。美国和中国历来是主要贡献者,英国、德国和法国位居其次。由个人用户或没有明确地理基础的分布式组织开发的模型约占平台总下载量的一半。

countries_economies1 (https://cdn-uploads.huggingface.co/production/uploads/62543749b777cd32720675c2/FukCP1ojU15Q7cNweAXe2.png)数据来源:Hugging Face | 图表与研究来自 Longpre 等人“Economies of Open Intelligence: Tracing Power & Participation in the Model Ecosystem“ (https://www.dataprovenance.org/economies-of-open-intelligence.pdf)

开源生态系统的地理构成已发生根本性变化。Hugging Face 数据显示,中国在月下载量和总下载量方面均已超越美国。过去一年,中国模型迅速占据了下载量的最大份额,达到 41%。

Downloads 2025 (https://cdn-uploads.huggingface.co/production/uploads/62543749b777cd32720675c2/ASRU4fYEmhXWIHfb4WXky.png)

数据与图表来源:Hugging Face

**企业在整体开发中的占比从 2022 年前的约 70% 下降至 2025 年的约 37%。与此同时,独立或无隶属关系的开发者占比从 17% 上升至 39%,在部分时期甚至超过总使用量的一半。**个人和小型集体专注于对基础模型进行量化、适配和再分发。这些中间环节现在引导着典型用户可运行内容的相当一部分,以及创新在整个生态系统中的传播方式。

natmarkshare (https://cdn-uploads.huggingface.co/production/uploads/6413251362e6057cbb6259bd/WjFZqWl-y3Sz7E3KVHCmH.png)数据来源:Hugging Face | 图表与研究来自 Longpre 等人“Economies of Open Intelligence: Tracing Power & Participation in the Model Ecosystem“ (https://www.dataprovenance.org/economies-of-open-intelligence.pdf)

不同地区以不同方式做出贡献。美国和西欧历来通过大型行业实验室(Google、Meta、OpenAI、Stability AI)占据主导地位,而中国则在发布量和采用率方面日益领先。法国、德国和英国继续通过研究机构、国家 AI 计划和专门模型系列做出贡献。支持多样化贡献者和组织形式的生态系统往往能产出更广泛采用的成果。

https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026#countries-organizations-and-individual-users国家、组织与个人用户

来自初创公司的热门模型更为普遍。具有竞争力的国家包括法国和韩国。值得注意的是,开发新热门模型的第四大实体是个人用户,而非组织。在用户层面创建有竞争力的模型比以往任何时候都更加容易。

Top New Models(1) (https://cdn-uploads.huggingface.co/production/uploads/62543749b777cd32720675c2/VztgqApx9IwW54zrD4lcL.png)数据与图表来源:Hugging Face

https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026#between-the-us-and-china美中之间

在 2025 年新创建的模型中,大多数热门模型要么在中国开发,要么是中国开发模型的衍生品。最受欢迎的模型由大型组织开发,主要来自美国和中国。关于中国 AI 生态系统的更多信息,请阅读我们的三部分系列文章,回顾“DeepSeek 时刻“一年来的变化,包括战略变化 (https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment)、架构变化 (https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment-blog-2) 以及组织与未来 (https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment-blog-3)。

2025 年,中国 AI 生态系统大力转向开源,此前 DeepSeek 的 R1 模型于 1 月病毒式发布。发布模型的具有竞争力的中国组织数量以及 Hugging Face 上的仓库数量激增。百度从 2024 年在 Hub 上零发布增长到 2025 年的 100 多个。字节跳动和腾讯的发布量均增长了八到九倍。此前倾向于闭源方法的组织,包括百度和 MiniMax,也果断转向开放发布。

HF-Repository-Growth-China (https://cdn-uploads.huggingface.co/production/uploads/62543749b777cd32720675c2/wfrRU9pZRR6a-e63HJTGx.png)

数据与图表来源:Hugging Face

数量相近的美国热门组织长期以来持续贡献了更多仓库。Meta 及其前 Facebook 研究组织在开放发布中占显著比例,Google 也在较小程度上如此。

HF-Repository-Growth-US (https://cdn-uploads.huggingface.co/production/uploads/62543749b777cd32720675c2/q-116i0zHCj6quoLj4l4l.png)

数据与图表来源:Hugging Face

将两者并列,中国热门组织仓库数量的陡峭上升轨迹成为一个关键的战略差异。

HF-Repository-Growth-US-China (https://cdn-uploads.huggingface.co/production/uploads/62543749b777cd32720675c2/8LK1hgAsNhbIp1aIUxC9Q.png)

数据与图表来源:Hugging Face

https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026#global-open-source-and-sovereignty全球开源与主权

开源 AI 日益与主权问题紧密相连。开放权重模型允许政府和公共机构在国家法律框架下使用本地数据进行微调。能够部署在国内硬件上的模型减少了对外国控制云基础设施的依赖。围绕模型架构、训练过程和评估的透明度支持监管审查和公共问责。在此阅读更多关于开源主权路径的内容 (https://huggingface.co/blog/frimelle/sovereignty-and-open-source)。

在国家层面,政府正在采取行动。韩国国家主权 AI 计划于 2025 年中期启动 (https://www.kedglobal.com/artificial-intelligence/newsView/ked202508040010),指定了国家级领军企业 LG AI Research (https://www.lgresearch.ai/)、SK Telecom (https://www.sktelecom.com/)、Naver Cloud (https://www.ncloud.com/)、NC AI (https://nc-ai.com/en) 和 Upstage (https://www.upstage.ai/) 来生产具有竞争力的国内模型。2026 年 2 月,三款来自韩国的模型同时在 Hugging Face Hub 上 trending。2026 年 3 月,韩国与美国初创公司 Reflection AI 宣布建立数据中心合作伙伴关系 (https://www.wsj.com/tech/ai/nvidia-backed-ai-startup-to-spend-billions-on-korea-data-center-to-combat-china-f945a326),同时也将前沿开放权重模型引入韩国。

瑞士的 Swiss AI (https://huggingface.co/swiss-ai) 倡议以及多项欧盟资助项目反映了类似的优先事项。英国“公共资金、公共代码“的原则影响了多项政府支持的 AI 倡议。

SK_trending (https://cdn-uploads.huggingface.co/production/uploads/62543749b777cd32720675c2/G8_xAm25QGe-3MrZfM7V9.jpeg)

Hugging Face Trending 页面 2026 年 2 月

这些对开源和开放权重 AI 的投资已经开始为拥有繁荣 AI 训练生态系统的国家带来回报,正如我们所见,模型和数据集通常在其开发地区使用最多 (https://huggingface.co/spaces/yjernite/january-hub);开发者往往倾向于选择最能代表其语言并反映类似技术和应用需求的模型。

country_compare (https://cdn-uploads.huggingface.co/production/uploads/62543749b777cd32720675c2/badP5egguP390I6uUV9sl.png)

数据与图表来源:Hugging Face

https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026#model-popularity模型热度

Hub 上获赞最多的模型反映了社区关注度,包括回访、引用该模型的能力或一般受欢迎程度。虽然这一指标并不总是反映实际使用量,但长期积累的关注度可以显示兴趣信号。一年内,获赞最多的模型从美国主导的 Meta Llama 系列,转变为以中国的 DeepSeek-R1 居首的国际化组合。

Most Liked HF Models DS (https://cdn-uploads.huggingface.co/production/uploads/62543749b777cd32720675c2/eG3uU24B3ueqNNlniyj3x.png)

数据与图表来源:Hugging Face

https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026#papers-and-scientific-contributions论文与科研贡献

虽然科研贡献的价值可以通过多种指标衡量,但我们 Hub 上的点赞功能显示,来自大型 AI 组织的论文广受社区成员欢迎。值得注意的是,点赞最多的论文来自大型组织,主要来自美国和中国。排名前列的组织中大多数是中国大型科技公司,字节跳动分享了大量高影响力论文。

Hugging Face 作品 | PaperVerse Explorer (https://huggingface.co/spaces/evijit/PaperVerse)

在 Hugging Face 的 Daily Papers (https://huggingface.co/papers/date) 中,这是由 Hugging Face 的 AK (https://huggingface.co/akhaliq) 策划的一组论文,涉及模型和数据集创建的论文显示出最高的开源采用率,且通常具有多样性。主要发现显示医学论文影响力显著,而大型科技公司的影响相对较少。

power_papers (https://cdn-uploads.huggingface.co/production/uploads/62543749b777cd32720675c2/KxN2Rx7aKuK5PmBnGCdmD.png)

数据来源:Hugging Face | 图表与报道由 AI World 提供 (https://aiworld.eu/story/who-powers-open-source-ai-research-a-look-at-hugging-face-daily-papers)

https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026#derivative-models衍生模型

相似文章

开放模型 - 2026年6月

Reddit r/LocalLLaMA

2026年6月的开放模型月度更新,涵盖开源AI模型生态系统的发布和进展。

Hugging Face 数据集突破 100 万!

Reddit r/LocalLLaMA

庆祝 Hugging Face 社区达成 100 万个数据集的里程碑,彰显社区通过开放数据协作推动 AI 发展的共同努力。

开放与封闭AI模型:2025-2026年差距如何缩小及未来走向

Reddit r/artificial

本文探讨了从2025年初到2026年中,开放与封闭AI模型之间的性能差距如何急剧缩小,以DeepSeek开放模型的发布及其后续市场影响为例。文章还讨论了中国实验室在推动开放前沿方面的作用及其对行业的影响。