VectraYX-Nano：一个42M参数的西班牙语网络安全语言模型，具备课程学习与原生工具调用能力

arXiv cs.CL 2026/05/15 04:00 论文

spanish cybersecurity language-model curriculum-learning tool-use nlp transformer

摘要

介绍了VectraYX-Nano，一个从零开始训练的42M参数仅解码器西班牙语网络安全语言模型，具备课程学习、通过MCP的原生工具调用以及一个1.7亿词元的语料库。实证发现揭示了损失-寄存器反转以及工具使用能力的语料密度伪影。

arXiv:2605.13989v1 公告类型: 新摘要：我们介绍了VectraYX-Nano，这是一个41.95M参数的仅解码器语言模型，从零开始用西班牙语训练，专注于网络安全，聚焦拉丁美洲，并通过模型上下文协议（MCP）实现原生工具调用。四项贡献：(i) 语料库：VectraYX-Sec-ES，一个1.7亿词元的西班牙语语料库，由八虚拟机流水线（约25美元）构建，分为对话（4200万词元，来自OpenSubtitles-ES、OASST1）、网络安全（1.18亿词元，来自NVD、西班牙语维基百科、CVE镜像、安全博客）和攻击安全工具（1000万词元，来自ExploitDB、HackTricks、OWASP）三个阶段。(ii) 架构：42M参数Transformer解码器，包含GQA、QK-Norm、RMSNorm、SwiGLU、RoPE、z-loss以及一个16384词元的字节回退BPE。(iii) 带重放的课程学习：使用重放缓冲区进行持续预训练，实现了单调损失下降（9.80→3.17→3.00→2.16）；在OASST-ES、Alpaca-ES、CVE问答和6327条工具使用轨迹上进行监督微调后，模型达到了0.78±0.05的对话门控值（N=4个随机种子）。(iv) 两个发现：自举语料消融实验揭示了纳米尺度下的损失-寄存器反转；LoRA研究表明，B4工具选择基准0.000是一个语料密度伪影，而非能力门槛——一个工具密集语料（2801个示例）将Nano 42M上的B4提升至0.145±0.046，将260M中端模型上的B4提升至0.445±0.201。GGUF产物为81 MB（F16），在llama.cpp下于普通硬件上达到亚秒级首词延迟（TTFT），据我们所知，这是首个具有端到端MCP集成的原生西班牙语网络安全大语言模型。语料配方、训练脚本、GGUF权重以及B1-B5基准测试均已发布。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:18

# VectraYX-Nano: 一个采用课程学习和原生工具调用的4200万参数西班牙语网络安全语言模型  
来源: https://arxiv.org/html/2605.13989 \(2026\)  

###### 摘要。  
我们提出VectraYX-Nano，一个从零训练、仅解码器的41.95M参数西班牙语语言模型，专注于网络安全领域，面向拉丁美洲区域，并通过模型上下文协议（MCP）实现原生工具调用。该模型基于四项贡献构建：  
(i) **语料库**。VectraYX-Sec-ES，一个1.7亿词元的西班牙语语料库，由八台虚拟机组成的分布式流水线以约25美元的云计算成本构建，并划分为三个课程阶段：对话阶段（4200万词元，来自OpenSubtitles-ES\(Lison and Tiedemann,2016 (https://arxiv.org/html/2605.13989#bib.bib36)\) 和 OASST1\(Köpf et al.,2023 (https://arxiv.org/html/2605.13989#bib.bib34)\)）、网络安全阶段（1.18亿词元，来自NVD\(National Institute of Standards and Technology,2024 (https://arxiv.org/html/2605.13989#bib.bib40)\)、Wikipedia-ES、内部NVD派生的西班牙语CVE镜像、安全博客）、以及安全攻防工具阶段（1000万词元，来自ExploitDB、HackTricks、OWASP）。  
(ii) **架构**。一个42M参数的Transformer解码器，结合了分组查询注意力\(Ainslie et al.,2023 (https://arxiv.org/html/2605.13989#bib.bib3)\)、QK-Norm\(Dehghani et al.,2023 (https://arxiv.org/html/2605.13989#bib.bib15)\)、RMSNorm\(Zhang and Sennrich,2019 (https://arxiv.org/html/2605.13989#bib.bib59)\)、SwiGLU\(Shazeer,2020 (https://arxiv.org/html/2605.13989#bib.bib50)\)、RoPE\(Su et al.,2024 (https://arxiv.org/html/2605.13989#bib.bib53)\) 和 z-loss 辅助损失\(Chowdhery et al.,2023 (https://arxiv.org/html/2605.13989#bib.bib12)\)，并配有一个领域平衡的16,384词元字节回退BPE\(Sennrich et al.,2016 (https://arxiv.org/html/2605.13989#bib.bib49); Kudo and Richardson,2018 (https://arxiv.org/html/2605.13989#bib.bib35)\)，该BPE在50/50的对话/技术混合语料上训练得到。  
(iii) **带重放的课程学习**。跨三个阶段持续预训练，并采用重放缓冲区\(Ibrahim et al.,2024 (https://arxiv.org/html/2605.13989#bib.bib31)\)以缓解灾难性遗忘\(French,1999 (https://arxiv.org/html/2605.13989#bib.bib20); Kirkpatrick et al.,2017 (https://arxiv.org/html/2605.13989#bib.bib33)\)，实现了单调递减的损失曲线（9.80→3.17→3.00→2.16）。在课程感知的OASST-ES、Alpaca-ES、CVE问答以及6327条工具使用轨迹混合数据上经过SFT（最终损失1.74）后，发布的模型在N=4个种子的评估中达到了0.78±0.05的对话门控分数（见第8.6节 (https://arxiv.org/html/2605.13989#S8.SS6)）。  
(iv) **两项经验发现**。一个针对mC4-ES\(Xue et al.,2021 (https://arxiv.org/html/2605.13989#bib.bib58)\) 和60/25/15比例的OpenSubs/mC4/Wiki混合语料的受控引导语料消融实验揭示了一个**损失与语域的反转**：困惑度更低的引导语料反而导致可衡量的更差对话行为，表明在纳米尺度下，引导语料的语域主导了下游聊天质量。一项事后LoRA\(Hu et al.,2022 (https://arxiv.org/html/2605.13989#bib.bib30)\)研究进一步表明，在混合SFT语料上B4（工具选择）得分为0.000的现象是一个**语料密度伪影**，而非能力瓶颈：使用工具密集型语料（2801个样本，比例1:21）后，Nano 42M的B4提升至0.145±0.046，而一个从零训练的260M中端模型则达到0.445±0.201（N=4个种子）。发布的GGUF\(Gerganov, Georgi and the ggml contributors,2024 (https://arxiv.org/html/2605.13989#bib.bib23)\) 工件在F16格式下为81 MB（约4比特量化后20 MB），可在commodity hardware上以llama.cpp\(Gerganov, Georgi and llama.cpp contributors,2023 (https://arxiv.org/html/2605.13989#bib.bib22)\) 运行，首次令牌生成时间低于1秒。据我们所知，这是首个公开发布的、具有端到端MCP集成的西班牙语原生网络安全LLM。我们发布了语料库构建配方、训练脚本、配置、GGUF权重以及B1–B5基准套件以确保可复现性。  

语言模型，网络安全，西班牙语自然语言处理，课程学习，工具调用，模型上下文协议，边缘推理  

∗ 作者受雇于Globant。机构隶属关系批准待定。  
††会议：预印本；2026年；  
††期刊年份：2026年  
††CCS：计算方法 自然语言生成  
††CCS：安全与隐私 软件与应用安全  
††CCS：计算方法 神经网络  

## 1. 引言  
大型语言模型（LLMs）已成为安全分析师的基础工具：它们协助漏洞分类、日志分析、恶意软件分类和事件响应。然而，公开可用的LLM生态系统存在两个有据可查的覆盖缺口，且当两者结合时问题更为严重。首先，最强大的开源聊天模型主要基于英语文本训练（Touvron et al.,2023 (https://arxiv.org/html/2605.13989#bib.bib54); at Meta,2024 (https://arxiv.org/html/2605.13989#bib.bib6); Qwen Team,2024 (https://arxiv.org/html/2605.13989#bib.bib45)），西班牙语通常只占预训练混合语料的一小部分，尽管西班牙语是世界上使用人数第二多的母语（Eberhard, David M. and Simons, Gary F. and Fennig, Charles D. (2023),eds. (https://arxiv.org/html/2605.13989#bib.bib19)）。其次，虽然关于网络安全专用语言模型的研究文献逐渐增多，但这些模型几乎全部基于英语语料库训练（Aghaei et al.,2022 (https://arxiv.org/html/2605.13989#bib.bib2); Bayer et al.,2024 (https://arxiv.org/html/2605.13989#bib.bib7)），据我们所知，没有模型针对拉丁美洲安全术语、区域性CSIRT词汇（CCN-CERT、INCIBE、CSIRT-CL、COLCERT）或LATAM威胁情报背景进行训练。这两个缺口对拉丁美洲的安全运营中心（SOC）而言是双重痛点。本应最能受益于LLM辅助的西班牙语分析师，要么只能使用纯英语领域模型，要么使用缺乏技术准确性的通用西班牙语模型，要么使用行为无法审计、无法重新训练或无法本地部署的领先闭源模型。本地部署的约束并非学术问题：LATAM安全团队日常处理机密事件报告、客户PII和未公开的入侵指标（IOC），这些数据不能离开网络。  

本工作的第二个动机是**工具增强型**语言模型的兴起（Schick et al.,2023 (https://arxiv.org/html/2605.13989#bib.bib48); Qin et al.,2024 (https://arxiv.org/html/2605.13989#bib.bib44); Patil et al.,2024 (https://arxiv.org/html/2605.13989#bib.bib42)），以及更近期模型上下文协议（MCP）\(Anthropic,2024 (https://arxiv.org/html/2605.13989#bib.bib5)\) 作为LLM-工具接口标准的出现。网络安全是工具使用的最强应用领域之一，因为底层知识每天都在变化（新CVE、KEV添加、TTP更新），而分析师典型查询（“这个CVE正在被利用吗？”、“这个哈希被标记了吗？”）的权威外部答案，参数化模型无法可靠记忆。一个知道**何时**调用工具的小型参数化模型，可能比一个因训练截止点而幻觉答案的更大模型有用得多。  

#### 贡献。  
我们提出了VectraYX-Nano，一个从零训练、具有原生MCP工具使用支持的41.95M参数西班牙语网络安全LLM。我们的贡献如下：  

1. (1) **VectraYX-Sec-ES语料库**。我们发布了一个1.7亿词元西班牙语网络安全语料库的构建配方，该语料库由八台虚拟机的分布式流水线组装而成。语料库包括88K条NVD CVE条目、50K条来自内部NVD镜像SQLite存储的预翻译西班牙语CVE、一个53,590篇文章的过滤后西班牙语Wikipedia子集（8200万词元，最大的单一组件）、翻译后的ExploitDB条目、HackTricks和OWASP的西班牙语翻译，以及来自OpenSubtitles-ES\(Lison and Tiedemann,2016 (https://arxiv.org/html/2605.13989#bib.bib36)\) 和OASST1\(Köpf et al.,2023 (https://arxiv.org/html/2605.13989#bib.bib34)\) 的精选西班牙语对话语料。整个流水线成本约为25美元云计算费用。  
2. (2) **现代小型LLM架构**。我们设计了一个41.95M参数的Transformer解码器，集成了分组查询注意力\(Ainslie et al.,2023 (https://arxiv.org/html/2605.13989#bib.bib3)\)、QK-Norm\(Dehghani et al.,2023 (https://arxiv.org/html/2605.13989#bib.bib15)\)、RMSNorm\(Zhang and Sennrich,2019 (https://arxiv.org/html/2605.13989#bib.bib59)\)、SwiGLU\(Shazeer,2020 (https://arxiv.org/html/2605.13989#bib.bib50)\)、RoPE\(Su et al.,2024 (https://arxiv.org/html/2605.13989#bib.bib53)\)、权重绑定嵌入和z-loss辅助损失\(Chowdhery et al.,2023 (https://arxiv.org/html/2605.13989#bib.bib12)\)，以及一个在50/50对话/技术混合语料上训练的领域平衡16,384词元字节回退BPE\(Sennrich et al.,2016 (https://arxiv.org/html/2605.13989#bib.bib49); Kudo and Richardson,2018 (https://arxiv.org/html/2605.13989#bib.bib35)\) 分词器。  
3. (3) **带重放的课程预训练**。我们应用了一个三阶段课程（对话→网络安全→工具），并在阶段间采用显式重放缓冲区（遵循Ibrahim et al.,2024 (https://arxiv.org/html/2605.13989#bib.bib31)）。阶段权重为：100%对话→75%/25%技术/对话→70%/20%/10%工具/技术/对话。预训练损失在各阶段间单调递减（9.80→3.17→3.00→2.16），未观察到可感知的灾难性遗忘（French,1999 (https://arxiv.org/html/2605.13989#bib.bib20); Kirkpatrick et al.,2017 (https://arxiv.org/html/2605.13989#bib.bib33)）。  
4. (4) **通过MCP的工具使用监督**。我们构建了一个6327条示例的工具使用SFT数据集，模板化地基于一个真实的本地CVE数据库（50K条西班牙语CVE、27K条漏洞利用、98K条IOC），并绑定到六个MCP服务器（NVD、CISA KEV、MITRE ATT&CK、OTX、LATAM情报、bash执行）。模型学会了生成语法正确的`<|tool_call|>` JSON片段，MCP运行时逐字执行这些片段。  
5. (5) **课程消融：引导语料语域的重要性**。我们报告了一项受控消融实验，将OpenSubtitles-ES（阶段1，v2）替换为使用FineWeb-2\(Penedo et al.,2024 (https://arxiv.org/html/2605.13989#bib.bib43)\) 质量分数过滤后的mC4-ES\(Xue et al.,2021 (https://arxiv.org/html/2605.13989#bib.bib58)\)（阶段1，v4）。mC4-ES变体在后续每个阶段均实现了持续**更低**的损失（阶段2低-0.29，阶段3低-0.28，SFT低-0.17），但在留存聊天门控测试中持续表现出**更差**的对话行为（6/10 vs. 7/10）。第三种配置（v6）使用60/25/15比例的OpenSubtitles-ES、mC4-ES和Wikipedia-ES作为阶段1语料，同样达到6/10，与v4持平。我们将此反转归因于**语域不匹配效应**：在42M参数规模下，引导语料决定了模型的默认回复风格，而百科全书式的网络语域无法被SFT单独可靠覆盖。  
6. (6) **工具使用密度阈值**。一项事后LoRA\(Hu et al.,2022 (https://arxiv.org/html/2605.13989#bib.bib30)\) 研究识别出了语料密度阈值，低于该阈值时小型模型无法在`<|assistant|>`之后将`<|tool_call|>`作为首个令牌输出。当工具使用与普通文本的比例为1:211（混合SFT语料）时，Nano（42M）和从零训练的260M中端模型（我们称之为VectraYX-Base）的B4得分均为0.000；当比例为1:21（一个包含2801条示例的工具密集型语料，配合秩16的LoRA）时，Nano达到0.145±0.046，Base达到0.445±0.201（N=4个种子）。因此，能力瓶颈是首令牌先验冲突，而非参数限制。  
7. (7) **可边缘部署的工件**。我们将微调后的模型导出为GGUF格式\(Gerganov, Georgi and the ggml contributors,2024 (https://arxiv.org/html/2605.13989#bib.bib23)\)（F16: 81 MB；Q4: 约20 MB），可在Ollama\(Ollama Team,2023 (https://arxiv.org/html/2605.13989#bib.bib41)\) 或llama.cpp\(Gerganov, Georgi and llama.cpp contributors,2023 (https://arxiv.org/html/2605.13989#bib.bib22)\) 下运行，在树莓派4上首次令牌生成时间低于1秒。该工件包含权重绑定的LM头和25个保留的领域令牌。  

#### 范围。  
VectraYX-Nano定位为**纳米级**模型：它旨在协助边缘设备和气隙环境中的分析师，而非与前沿70B+聊天模型在开放领域推理上竞争。在其目标范围内——西班牙语网络安全问答、CVE摘要、威胁分类、命令补全和工具调度——我们展示了精心构建的语料、领域平衡的分词器以及带重放的课程预训练，能够提取出同规模单一预训练运行无法实现的定性行为。  

#### 可复现性。  
所有训练脚本、配置文件、带重放缓冲区的课程采样器、基准测试工具、工具使用语料库以及B1–B5评估数据集均发布于https://github.com/vectrayx/vectrayx-nano-paper。模型检查点和LoRA适配器可在https://huggingface.co/jsantillana/vectrayx-nano 获取。第6节 (https://arxiv.org/html/2605.13989#S6) 提供了精确的超参数，第8节 (https://arxiv.org/html/2605.13989#S8) 记录了留存评估协议。语料库本身部分根据上游许可（NVD、Wikipedia、ExploitDB、OpenSubtitles）发布；LATAM策划部分以构建配方而非原始文本形式发布，符合当前安全语料库的惯例。  

## 2. 相关工作  
#### 安全领域语言模型。  
安全领域的专用模型有着短暂但活跃的历史。SecureBERT\(Aghaei et al.,2022 (https://arxiv.org/html/2605.13989#bib.bib2)\) 在网络安全文本上持续预训练RoBERTa\(Liu et al.,2019 (https://arxiv.org/html/2605.13989#bib.bib38)\) 骨干，并报告在实体识别上优于通用BERT\(Devlin et al.,2019 (https://arxiv.org/html/2605.13989#bib.bib18)\)。CySecBERT\(Bayer et al.,2024 (https://arxiv.org/html/2605.13989#bib.bib7)\) 类似地基于BERT在67万文档的英语安全语料上持续训练，并改进了分类基准。这一方向的早期工作包括SciBERT\(Beltagy et al.,2019 (https://arxiv.org/html/2605.13989#bib.bib8)\)，它确立了技术领域词汇扩展持续预训练的方法论。从我们的角度看，所有这些模型都有两个共性局限：它们都是仅编码器模型，并且是在英语上训练的。我们未发现任何先前发表的、具有西班牙语网络安全专业化的仅解码器生成模型。  

#### 西班牙语和多语言模型。  
西班牙语自然语言处理生态系统已围绕BETO\(Cañete et al.,2020 (https://arxiv.org/html/2605.13989#bib.bib11)\)（一个西班牙语BERT）、RoBERTa-base-BNE系列\(Gutiérrez-Fandiño et al.,2022 (https://arxiv.org/html/2605.13989#bib.bib26)\)，以及更近期巴塞罗那超级计算中心的开源伊比利亚解码器系列Salamandra\(Gutiérrez-Fandiño et al.,2024 (https://arxiv.org/html/2605.13989#bib.bib27)\) 而成熟。mC4\(Xue et al.,2021 (https://arxiv.org/html/2605.13989#bib.bib58)\) 和CC-100\(Conneau et al.,2020 (https://arxiv.org/html/2605.13989#bib.bib13)\) 一直是标准的西班牙语预训练语料库；FineWeb-2\(Penedo et al.,2024 (https://arxiv.org/html/2605.13989#bib.bib43)\) 是较新的多语言质量过滤网络发布物。

VectraYX-Nano：一个42M参数的西班牙语网络安全语言模型，具备课程学习与原生工具调用能力

相似文章

MicroSpec: 通过轻量级上下文词汇表加速推测解码

Helvete-nano

相同模型，不同弱点：语言和模态如何重塑前沿多模态大语言模型的越狱攻击面

扩展单义性：从Claude 3 Sonnet中提取可解释特征

模型遗忘目标因语言功能不同而异

提交意见反馈