挪威的2 PB华为闪存存储与LLM训练

Hacker News Top 2026/05/25 19:37 新闻

llm-training sovereign-ai national-library norway huawei flash-storage data-pipeline

摘要

挪威国家图书馆正在使用2 PB的华为OceanStor Dorado闪存存储构建一个主权挪威LLM，用于其AI训练数据管道，以满足对本地语言模型的需求。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/25 21:49

# 挪威2PB华为闪存与LLM训练来源：https：//www.blocksandfiles.com/flash/2026/05/22/norways-2-petabytes-of-huawei-flash-storage-and-llm-training/5244910 挪威国家图书馆正在开发一个理解挪威语的大语言模型\(LLM\)，并在其AI训练数据管道中使用了2PB的华为OceanStor Dorado全闪存存储。 Marius Husnes. Marius Husnes\. Marius Husnes是该图书馆\(Nasjonlbiblioteket \(https：//www.nb.no/en/\)\)的IT平台主管，他在华为巴黎2026年ID论坛上讨论了该项目，并表示没有商业LLM提供商在开发本地\(挪威语\)LLM。他声称，任何拥有自己语言但尚未训练出精通该语言的主权LLM的国家，都将处于劣势，因为全球训练、基于英语的LLM无法了解该国以本地语言描述的历史、新闻和文化。挪威文化部要求国家图书馆构建主权AI \(LLM\)，因为该图书馆拥有挪威最大的数字化挪威语书籍、报纸、网页等集合。与许多国家图书馆一样，它有权接收每一本已出版书籍和播送内容的副本。其法定缴存授权\(https：//www.nb.no/en/digitizing-at-the-national-library/\)不仅限于书籍，还有义务收集并保存挪威的全部文化遗产。与挪威报纸达成的一项协议允许对受版权保护的内容进行LLM训练，Husnes表示：“没有私营公司拥有这一点。” 图书馆也具备开展这项工作的良好条件，因为它自2005年起就开始数字化其馆藏，并积累了20PB独特数据，以3-2-1形式\(3份副本、2种介质类型、1份异地\)存储，总计约60PB。原始文本、声音、动态影像、静态图像和网页内容的数字化过程涉及大量OCR扫描，并生成了大量元数据，以及用于在线访问的API。大部分数据存储在数字磁盘加磁带档案中，即一个保存系统。Husnes的任务是将这些数据传输到LLM训练系统。他表示瓶颈不在于计算，而在于数据质量、清洗和管道吞吐量。主要有两个处理阶段。首先是内部计算，使用Nvidia DGX H200系统、384核CPU集群以及多台华为OceanStor Dorado\(https：//www.blocksandfiles.com/ai-ml/2025/11/03/huaweis-ai-focussed-all-flash-storage/1609725\)全闪存阵列，总计2PB闪存容量。这是为数据管道和训练准备提供的低延迟存储。 Husnes - 训练国家级LLM. Husnes \- 训练国家级LLM\. 该管道包含数据摄取、清洗、去重、格式标准化、验证和准备步骤。一旦数据通过管道，就会发送到挪威的国家超级计算机Sigma2\(https：//www.sigma2.no/\)Olivia系统进行实际训练运行。Olivia系统是一台HPE Cray Supercomputing EX系统，配备448个GPU和64，512个CPU核心。它使用5.3PB的Cray ClusterStor\(https：//www.blocksandfiles.com/ai-ml/2024/05/02/hpe-launches-cost-effective-storage-system-for-hpc-and-ai/1587031\)E1000存储系统。一个较大的问题是克服两种不同存储系统的需求。60PB的保存系统针对耐用性和成本进行了优化，而非快速IO，并且读取延迟高，设计用于不频繁访问。AI管道存储则设计用于高吞吐量、低延迟、并行数据IO。Husnes表示，他了解到没有人讨论将PB级数据集从档案移动到并通过AI数据管道系统所涉及的问题。他的团队不得不自行摸索解决方案。 Husnes - 保存与AI管道存储. Husnes \- 保存与AI管道存储\. LLM训练正在进行中，他在演讲结束时总结了他的团队仍在学习的内容： - 评估 - 没有标准评估工具来评估主权挪威语LLM。该语言有两种书面形式、多种方言以及历史变化。他们正在即时构建自己的评估工具。 - 治理 - 谁控制主权LLM的访问？谁决定它可以用于什么用途？这些都是没有简单答案的制度性和政治性问题。 - 编排 - 使三个系统：保存档案 + 本地AI环境 + 国家Sigma2超级计算机顺利协同工作，是一个持续进行的项目。我们的要点是：第一，华为存储正在欧洲市场发挥严肃且重要的作用；第二，任何开发主权本地语言LLM的国家，最好咨询Husnes并了解所涉及的内容。正如Husnes所说：挪威是一个小国，正在解决每个非英语国家都会面临的问题：如何构建反映你语言、文化和历史的AI？AI需要守护者，而不仅仅是建设者。

挪威的2 PB华为闪存存储与LLM训练

相似文章

推出 Stargate Norway

从零开始在8GB显存上训练LLM。我开心

2台配备 512GB 内存的 M3 Ultra Mac Studio

@0xshimei: https://x.com/0xshimei/status/2053088751862288846

@tom_doerr: 本地LLM工具和硬件精选列表 https://github.com/0xSojalSec/LLMs-local…

提交意见反馈