挪威的2 PB华为闪存存储与LLM训练
摘要
挪威国家图书馆正在使用2 PB的华为OceanStor Dorado闪存存储构建一个主权挪威LLM,用于其AI训练数据管道,以满足对本地语言模型的需求。
暂无内容
查看缓存全文
缓存时间: 2026/05/25 21:49
# 挪威2PB华为闪存与LLM训练
来源:https://www.blocksandfiles.com/flash/2026/05/22/norways-2-petabytes-of-huawei-flash-storage-and-llm-training/5244910
挪威国家图书馆正在开发一个理解挪威语的大语言模型\(LLM\),并在其AI训练数据管道中使用了2PB的华为OceanStor Dorado全闪存存储。
Marius Husnes.
Marius Husnes\.
Marius Husnes是该图书馆\(Nasjonlbiblioteket \(https://www.nb.no/en/\)\)的IT平台主管,他在华为巴黎2026年ID论坛上讨论了该项目,并表示没有商业LLM提供商在开发本地\(挪威语\)LLM。他声称,任何拥有自己语言但尚未训练出精通该语言的主权LLM的国家,都将处于劣势,因为全球训练、基于英语的LLM无法了解该国以本地语言描述的历史、新闻和文化。
挪威文化部要求国家图书馆构建主权AI \(LLM\),因为该图书馆拥有挪威最大的数字化挪威语书籍、报纸、网页等集合。与许多国家图书馆一样,它有权接收每一本已出版书籍和播送内容的副本。其法定缴存授权\(https://www.nb.no/en/digitizing-at-the-national-library/\)不仅限于书籍,还有义务收集并保存挪威的全部文化遗产。
与挪威报纸达成的一项协议允许对受版权保护的内容进行LLM训练,Husnes表示:“没有私营公司拥有这一点。”
图书馆也具备开展这项工作的良好条件,因为它自2005年起就开始数字化其馆藏,并积累了20PB独特数据,以3-2-1形式\(3份副本、2种介质类型、1份异地\)存储,总计约60PB。原始文本、声音、动态影像、静态图像和网页内容的数字化过程涉及大量OCR扫描,并生成了大量元数据,以及用于在线访问的API。
大部分数据存储在数字磁盘加磁带档案中,即一个保存系统。Husnes的任务是将这些数据传输到LLM训练系统。他表示瓶颈不在于计算,而在于数据质量、清洗和管道吞吐量。主要有两个处理阶段。首先是内部计算,使用Nvidia DGX H200系统、384核CPU集群以及多台华为OceanStor Dorado\(https://www.blocksandfiles.com/ai-ml/2025/11/03/huaweis-ai-focussed-all-flash-storage/1609725\)全闪存阵列,总计2PB闪存容量。这是为数据管道和训练准备提供的低延迟存储。
Husnes - 训练国家级LLM.
Husnes \- 训练国家级LLM\.
该管道包含数据摄取、清洗、去重、格式标准化、验证和准备步骤。一旦数据通过管道,就会发送到挪威的国家超级计算机Sigma2\(https://www.sigma2.no/\)Olivia系统进行实际训练运行。Olivia系统是一台HPE Cray Supercomputing EX系统,配备448个GPU和64,512个CPU核心。它使用5.3PB的Cray ClusterStor\(https://www.blocksandfiles.com/ai-ml/2024/05/02/hpe-launches-cost-effective-storage-system-for-hpc-and-ai/1587031\)E1000存储系统。
一个较大的问题是克服两种不同存储系统的需求。60PB的保存系统针对耐用性和成本进行了优化,而非快速IO,并且读取延迟高,设计用于不频繁访问。AI管道存储则设计用于高吞吐量、低延迟、并行数据IO。Husnes表示,他了解到没有人讨论将PB级数据集从档案移动到并通过AI数据管道系统所涉及的问题。他的团队不得不自行摸索解决方案。
Husnes - 保存与AI管道存储.
Husnes \- 保存与AI管道存储\.
LLM训练正在进行中,他在演讲结束时总结了他的团队仍在学习的内容:
- 评估 - 没有标准评估工具来评估主权挪威语LLM。该语言有两种书面形式、多种方言以及历史变化。他们正在即时构建自己的评估工具。
- 治理 - 谁控制主权LLM的访问?谁决定它可以用于什么用途?这些都是没有简单答案的制度性和政治性问题。
- 编排 - 使三个系统:保存档案 + 本地AI环境 + 国家Sigma2超级计算机顺利协同工作,是一个持续进行的项目。
我们的要点是:第一,华为存储正在欧洲市场发挥严肃且重要的作用;第二,任何开发主权本地语言LLM的国家,最好咨询Husnes并了解所涉及的内容。
正如Husnes所说:挪威是一个小国,正在解决每个非英语国家都会面临的问题:如何构建反映你语言、文化和历史的AI?AI需要守护者,而不仅仅是建设者。
相似文章
推出 Stargate Norway
OpenAI 宣布推出 Stargate Norway,这是其在纳尔维克的首个欧洲 AI 数据中心项目,计划到 2026 年底交付 100,000 块 NVIDIA GPU,容量为 230MW,完全由可再生水电驱动。该设施是 Nscale 和 Aker 之间的合资企业,反映了 OpenAI 在欧洲及全球范围内扩展 AI 基础设施合作伙伴关系的更广泛战略。
从零开始在8GB显存上训练LLM。我开心
构建了一个仓库,用于在8GB显存上从零训练一个微型语言模型(25M参数),支持MTP,但指出mHC和BitNet的局限性。
2台配备 512GB 内存的 M3 Ultra Mac Studio
硬件投入约 2.5 万美元。告诉我你们希望我在这两台设备上部署什么模型,我会协助测试。目前我已通过 Exo 后端跑通了 DeepSeek v3.2 Q8 版本;当前每台设备均在运行 GLM 5.1 Q4(正在排查为何 Exo 无法加载 Q8 版本)。静候社区完成 Kimi 2.6 针对 MLX/mmap 的优化适配。
@0xshimei: https://x.com/0xshimei/status/2053088751862288846
This article provides a comprehensive 2026 guide to free and low-cost large language models, comparing domestic (China) and international options.
@tom_doerr: 本地LLM工具和硬件精选列表 https://github.com/0xSojalSec/LLMs-local…
一份精选列表,包含用于本地运行大语言模型的平台、工具、模型、硬件和资源,托管在GitHub上。