挪威的2 PB华为闪存存储与LLM训练

Hacker News Top 新闻

摘要

挪威国家图书馆正在使用2 PB的华为OceanStor Dorado闪存存储构建一个主权挪威LLM,用于其AI训练数据管道,以满足对本地语言模型的需求。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/25 21:49

# 挪威2PB华为闪存与LLM训练 来源:https://www.blocksandfiles.com/flash/2026/05/22/norways-2-petabytes-of-huawei-flash-storage-and-llm-training/5244910 挪威国家图书馆正在开发一个理解挪威语的大语言模型\(LLM\),并在其AI训练数据管道中使用了2PB的华为OceanStor Dorado全闪存存储。 Marius Husnes. Marius Husnes\. Marius Husnes是该图书馆\(Nasjonlbiblioteket \(https://www.nb.no/en/\)\)的IT平台主管,他在华为巴黎2026年ID论坛上讨论了该项目,并表示没有商业LLM提供商在开发本地\(挪威语\)LLM。他声称,任何拥有自己语言但尚未训练出精通该语言的主权LLM的国家,都将处于劣势,因为全球训练、基于英语的LLM无法了解该国以本地语言描述的历史、新闻和文化。 挪威文化部要求国家图书馆构建主权AI \(LLM\),因为该图书馆拥有挪威最大的数字化挪威语书籍、报纸、网页等集合。与许多国家图书馆一样,它有权接收每一本已出版书籍和播送内容的副本。其法定缴存授权\(https://www.nb.no/en/digitizing-at-the-national-library/\)不仅限于书籍,还有义务收集并保存挪威的全部文化遗产。 与挪威报纸达成的一项协议允许对受版权保护的内容进行LLM训练,Husnes表示:“没有私营公司拥有这一点。” 图书馆也具备开展这项工作的良好条件,因为它自2005年起就开始数字化其馆藏,并积累了20PB独特数据,以3-2-1形式\(3份副本、2种介质类型、1份异地\)存储,总计约60PB。原始文本、声音、动态影像、静态图像和网页内容的数字化过程涉及大量OCR扫描,并生成了大量元数据,以及用于在线访问的API。 大部分数据存储在数字磁盘加磁带档案中,即一个保存系统。Husnes的任务是将这些数据传输到LLM训练系统。他表示瓶颈不在于计算,而在于数据质量、清洗和管道吞吐量。主要有两个处理阶段。首先是内部计算,使用Nvidia DGX H200系统、384核CPU集群以及多台华为OceanStor Dorado\(https://www.blocksandfiles.com/ai-ml/2025/11/03/huaweis-ai-focussed-all-flash-storage/1609725\)全闪存阵列,总计2PB闪存容量。这是为数据管道和训练准备提供的低延迟存储。 Husnes - 训练国家级LLM. Husnes \- 训练国家级LLM\. 该管道包含数据摄取、清洗、去重、格式标准化、验证和准备步骤。一旦数据通过管道,就会发送到挪威的国家超级计算机Sigma2\(https://www.sigma2.no/\)Olivia系统进行实际训练运行。Olivia系统是一台HPE Cray Supercomputing EX系统,配备448个GPU和64,512个CPU核心。它使用5.3PB的Cray ClusterStor\(https://www.blocksandfiles.com/ai-ml/2024/05/02/hpe-launches-cost-effective-storage-system-for-hpc-and-ai/1587031\)E1000存储系统。 一个较大的问题是克服两种不同存储系统的需求。60PB的保存系统针对耐用性和成本进行了优化,而非快速IO,并且读取延迟高,设计用于不频繁访问。AI管道存储则设计用于高吞吐量、低延迟、并行数据IO。Husnes表示,他了解到没有人讨论将PB级数据集从档案移动到并通过AI数据管道系统所涉及的问题。他的团队不得不自行摸索解决方案。 Husnes - 保存与AI管道存储. Husnes \- 保存与AI管道存储\. LLM训练正在进行中,他在演讲结束时总结了他的团队仍在学习的内容: - 评估 - 没有标准评估工具来评估主权挪威语LLM。该语言有两种书面形式、多种方言以及历史变化。他们正在即时构建自己的评估工具。 - 治理 - 谁控制主权LLM的访问?谁决定它可以用于什么用途?这些都是没有简单答案的制度性和政治性问题。 - 编排 - 使三个系统:保存档案 + 本地AI环境 + 国家Sigma2超级计算机顺利协同工作,是一个持续进行的项目。 我们的要点是:第一,华为存储正在欧洲市场发挥严肃且重要的作用;第二,任何开发主权本地语言LLM的国家,最好咨询Husnes并了解所涉及的内容。 正如Husnes所说:挪威是一个小国,正在解决每个非英语国家都会面临的问题:如何构建反映你语言、文化和历史的AI?AI需要守护者,而不仅仅是建设者。

相似文章

推出 Stargate Norway

OpenAI Blog

OpenAI 宣布推出 Stargate Norway,这是其在纳尔维克的首个欧洲 AI 数据中心项目,计划到 2026 年底交付 100,000 块 NVIDIA GPU,容量为 230MW,完全由可再生水电驱动。该设施是 Nscale 和 Aker 之间的合资企业,反映了 OpenAI 在欧洲及全球范围内扩展 AI 基础设施合作伙伴关系的更广泛战略。

2台配备 512GB 内存的 M3 Ultra Mac Studio

Reddit r/LocalLLaMA

硬件投入约 2.5 万美元。告诉我你们希望我在这两台设备上部署什么模型,我会协助测试。目前我已通过 Exo 后端跑通了 DeepSeek v3.2 Q8 版本;当前每台设备均在运行 GLM 5.1 Q4(正在排查为何 Exo 无法加载 Q8 版本)。静候社区完成 Kimi 2.6 针对 MLX/mmap 的优化适配。