VectraYX-Nano:一个42M参数的西班牙语网络安全语言模型,具备课程学习与原生工具调用能力

arXiv cs.CL 论文

摘要

介绍了VectraYX-Nano,一个从零开始训练的42M参数仅解码器西班牙语网络安全语言模型,具备课程学习、通过MCP的原生工具调用以及一个1.7亿词元的语料库。实证发现揭示了损失-寄存器反转以及工具使用能力的语料密度伪影。

arXiv:2605.13989v1 公告类型: 新 摘要:我们介绍了VectraYX-Nano,这是一个41.95M参数的仅解码器语言模型,从零开始用西班牙语训练,专注于网络安全,聚焦拉丁美洲,并通过模型上下文协议(MCP)实现原生工具调用。四项贡献:(i) 语料库:VectraYX-Sec-ES,一个1.7亿词元的西班牙语语料库,由八虚拟机流水线(约25美元)构建,分为对话(4200万词元,来自OpenSubtitles-ES、OASST1)、网络安全(1.18亿词元,来自NVD、西班牙语维基百科、CVE镜像、安全博客)和攻击安全工具(1000万词元,来自ExploitDB、HackTricks、OWASP)三个阶段。(ii) 架构:42M参数Transformer解码器,包含GQA、QK-Norm、RMSNorm、SwiGLU、RoPE、z-loss以及一个16384词元的字节回退BPE。(iii) 带重放的课程学习:使用重放缓冲区进行持续预训练,实现了单调损失下降(9.80→3.17→3.00→2.16);在OASST-ES、Alpaca-ES、CVE问答和6327条工具使用轨迹上进行监督微调后,模型达到了0.78±0.05的对话门控值(N=4个随机种子)。(iv) 两个发现:自举语料消融实验揭示了纳米尺度下的损失-寄存器反转;LoRA研究表明,B4工具选择基准0.000是一个语料密度伪影,而非能力门槛——一个工具密集语料(2801个示例)将Nano 42M上的B4提升至0.145±0.046,将260M中端模型上的B4提升至0.445±0.201。GGUF产物为81 MB(F16),在llama.cpp下于普通硬件上达到亚秒级首词延迟(TTFT),据我们所知,这是首个具有端到端MCP集成的原生西班牙语网络安全大语言模型。语料配方、训练脚本、GGUF权重以及B1-B5基准测试均已发布。
查看原文
查看缓存全文

缓存时间: 2026/05/15 06:18

# VectraYX-Nano: 一个采用课程学习和原生工具调用的4200万参数西班牙语网络安全语言模型  
来源: https://arxiv.org/html/2605.13989 \(2026\)  

###### 摘要。  
我们提出VectraYX-Nano,一个从零训练、仅解码器的41.95M参数西班牙语语言模型,专注于网络安全领域,面向拉丁美洲区域,并通过模型上下文协议(MCP)实现原生工具调用。该模型基于四项贡献构建:  
(i) **语料库**。VectraYX-Sec-ES,一个1.7亿词元的西班牙语语料库,由八台虚拟机组成的分布式流水线以约25美元的云计算成本构建,并划分为三个课程阶段:对话阶段(4200万词元,来自OpenSubtitles-ES\(Lison and Tiedemann,2016 (https://arxiv.org/html/2605.13989#bib.bib36)\) 和 OASST1\(Köpf et al.,2023 (https://arxiv.org/html/2605.13989#bib.bib34)\))、网络安全阶段(1.18亿词元,来自NVD\(National Institute of Standards and Technology,2024 (https://arxiv.org/html/2605.13989#bib.bib40)\)、Wikipedia-ES、内部NVD派生的西班牙语CVE镜像、安全博客)、以及安全攻防工具阶段(1000万词元,来自ExploitDB、HackTricks、OWASP)。  
(ii) **架构**。一个42M参数的Transformer解码器,结合了分组查询注意力\(Ainslie et al.,2023 (https://arxiv.org/html/2605.13989#bib.bib3)\)、QK-Norm\(Dehghani et al.,2023 (https://arxiv.org/html/2605.13989#bib.bib15)\)、RMSNorm\(Zhang and Sennrich,2019 (https://arxiv.org/html/2605.13989#bib.bib59)\)、SwiGLU\(Shazeer,2020 (https://arxiv.org/html/2605.13989#bib.bib50)\)、RoPE\(Su et al.,2024 (https://arxiv.org/html/2605.13989#bib.bib53)\) 和 z-loss 辅助损失\(Chowdhery et al.,2023 (https://arxiv.org/html/2605.13989#bib.bib12)\),并配有一个领域平衡的16,384词元字节回退BPE\(Sennrich et al.,2016 (https://arxiv.org/html/2605.13989#bib.bib49); Kudo and Richardson,2018 (https://arxiv.org/html/2605.13989#bib.bib35)\),该BPE在50/50的对话/技术混合语料上训练得到。  
(iii) **带重放的课程学习**。跨三个阶段持续预训练,并采用重放缓冲区\(Ibrahim et al.,2024 (https://arxiv.org/html/2605.13989#bib.bib31)\)以缓解灾难性遗忘\(French,1999 (https://arxiv.org/html/2605.13989#bib.bib20); Kirkpatrick et al.,2017 (https://arxiv.org/html/2605.13989#bib.bib33)\),实现了单调递减的损失曲线(9.80→3.17→3.00→2.16)。在课程感知的OASST-ES、Alpaca-ES、CVE问答以及6327条工具使用轨迹混合数据上经过SFT(最终损失1.74)后,发布的模型在N=4个种子的评估中达到了0.78±0.05的对话门控分数(见第8.6节 (https://arxiv.org/html/2605.13989#S8.SS6))。  
(iv) **两项经验发现**。一个针对mC4-ES\(Xue et al.,2021 (https://arxiv.org/html/2605.13989#bib.bib58)\) 和60/25/15比例的OpenSubs/mC4/Wiki混合语料的受控引导语料消融实验揭示了一个**损失与语域的反转**:困惑度更低的引导语料反而导致可衡量的更差对话行为,表明在纳米尺度下,引导语料的语域主导了下游聊天质量。一项事后LoRA\(Hu et al.,2022 (https://arxiv.org/html/2605.13989#bib.bib30)\)研究进一步表明,在混合SFT语料上B4(工具选择)得分为0.000的现象是一个**语料密度伪影**,而非能力瓶颈:使用工具密集型语料(2801个样本,比例1:21)后,Nano 42M的B4提升至0.145±0.046,而一个从零训练的260M中端模型则达到0.445±0.201(N=4个种子)。发布的GGUF\(Gerganov, Georgi and the ggml contributors,2024 (https://arxiv.org/html/2605.13989#bib.bib23)\) 工件在F16格式下为81 MB(约4比特量化后20 MB),可在commodity hardware上以llama.cpp\(Gerganov, Georgi and llama.cpp contributors,2023 (https://arxiv.org/html/2605.13989#bib.bib22)\) 运行,首次令牌生成时间低于1秒。据我们所知,这是首个公开发布的、具有端到端MCP集成的西班牙语原生网络安全LLM。我们发布了语料库构建配方、训练脚本、配置、GGUF权重以及B1–B5基准套件以确保可复现性。  

语言模型,网络安全,西班牙语自然语言处理,课程学习,工具调用,模型上下文协议,边缘推理  

∗ 作者受雇于Globant。机构隶属关系批准待定。  
††会议:预印本;2026年;  
††期刊年份:2026年  
††CCS:计算方法 自然语言生成  
††CCS:安全与隐私 软件与应用安全  
††CCS:计算方法 神经网络  

## 1. 引言  
大型语言模型(LLMs)已成为安全分析师的基础工具:它们协助漏洞分类、日志分析、恶意软件分类和事件响应。然而,公开可用的LLM生态系统存在两个有据可查的覆盖缺口,且当两者结合时问题更为严重。首先,最强大的开源聊天模型主要基于英语文本训练(Touvron et al.,2023 (https://arxiv.org/html/2605.13989#bib.bib54); at Meta,2024 (https://arxiv.org/html/2605.13989#bib.bib6); Qwen Team,2024 (https://arxiv.org/html/2605.13989#bib.bib45)),西班牙语通常只占预训练混合语料的一小部分,尽管西班牙语是世界上使用人数第二多的母语(Eberhard, David M. and Simons, Gary F. and Fennig, Charles D. (2023),eds. (https://arxiv.org/html/2605.13989#bib.bib19))。其次,虽然关于网络安全专用语言模型的研究文献逐渐增多,但这些模型几乎全部基于英语语料库训练(Aghaei et al.,2022 (https://arxiv.org/html/2605.13989#bib.bib2); Bayer et al.,2024 (https://arxiv.org/html/2605.13989#bib.bib7)),据我们所知,没有模型针对拉丁美洲安全术语、区域性CSIRT词汇(CCN-CERT、INCIBE、CSIRT-CL、COLCERT)或LATAM威胁情报背景进行训练。这两个缺口对拉丁美洲的安全运营中心(SOC)而言是双重痛点。本应最能受益于LLM辅助的西班牙语分析师,要么只能使用纯英语领域模型,要么使用缺乏技术准确性的通用西班牙语模型,要么使用行为无法审计、无法重新训练或无法本地部署的领先闭源模型。本地部署的约束并非学术问题:LATAM安全团队日常处理机密事件报告、客户PII和未公开的入侵指标(IOC),这些数据不能离开网络。  

本工作的第二个动机是**工具增强型**语言模型的兴起(Schick et al.,2023 (https://arxiv.org/html/2605.13989#bib.bib48); Qin et al.,2024 (https://arxiv.org/html/2605.13989#bib.bib44); Patil et al.,2024 (https://arxiv.org/html/2605.13989#bib.bib42)),以及更近期模型上下文协议(MCP)\(Anthropic,2024 (https://arxiv.org/html/2605.13989#bib.bib5)\) 作为LLM-工具接口标准的出现。网络安全是工具使用的最强应用领域之一,因为底层知识每天都在变化(新CVE、KEV添加、TTP更新),而分析师典型查询(“这个CVE正在被利用吗?”、“这个哈希被标记了吗?”)的权威外部答案,参数化模型无法可靠记忆。一个知道**何时**调用工具的小型参数化模型,可能比一个因训练截止点而幻觉答案的更大模型有用得多。  

#### 贡献。  
我们提出了VectraYX-Nano,一个从零训练、具有原生MCP工具使用支持的41.95M参数西班牙语网络安全LLM。我们的贡献如下:  

1. (1) **VectraYX-Sec-ES语料库**。我们发布了一个1.7亿词元西班牙语网络安全语料库的构建配方,该语料库由八台虚拟机的分布式流水线组装而成。语料库包括88K条NVD CVE条目、50K条来自内部NVD镜像SQLite存储的预翻译西班牙语CVE、一个53,590篇文章的过滤后西班牙语Wikipedia子集(8200万词元,最大的单一组件)、翻译后的ExploitDB条目、HackTricks和OWASP的西班牙语翻译,以及来自OpenSubtitles-ES\(Lison and Tiedemann,2016 (https://arxiv.org/html/2605.13989#bib.bib36)\) 和OASST1\(Köpf et al.,2023 (https://arxiv.org/html/2605.13989#bib.bib34)\) 的精选西班牙语对话语料。整个流水线成本约为25美元云计算费用。  
2. (2) **现代小型LLM架构**。我们设计了一个41.95M参数的Transformer解码器,集成了分组查询注意力\(Ainslie et al.,2023 (https://arxiv.org/html/2605.13989#bib.bib3)\)、QK-Norm\(Dehghani et al.,2023 (https://arxiv.org/html/2605.13989#bib.bib15)\)、RMSNorm\(Zhang and Sennrich,2019 (https://arxiv.org/html/2605.13989#bib.bib59)\)、SwiGLU\(Shazeer,2020 (https://arxiv.org/html/2605.13989#bib.bib50)\)、RoPE\(Su et al.,2024 (https://arxiv.org/html/2605.13989#bib.bib53)\)、权重绑定嵌入和z-loss辅助损失\(Chowdhery et al.,2023 (https://arxiv.org/html/2605.13989#bib.bib12)\),以及一个在50/50对话/技术混合语料上训练的领域平衡16,384词元字节回退BPE\(Sennrich et al.,2016 (https://arxiv.org/html/2605.13989#bib.bib49); Kudo and Richardson,2018 (https://arxiv.org/html/2605.13989#bib.bib35)\) 分词器。  
3. (3) **带重放的课程预训练**。我们应用了一个三阶段课程(对话→网络安全→工具),并在阶段间采用显式重放缓冲区(遵循Ibrahim et al.,2024 (https://arxiv.org/html/2605.13989#bib.bib31))。阶段权重为:100%对话→75%/25%技术/对话→70%/20%/10%工具/技术/对话。预训练损失在各阶段间单调递减(9.80→3.17→3.00→2.16),未观察到可感知的灾难性遗忘(French,1999 (https://arxiv.org/html/2605.13989#bib.bib20); Kirkpatrick et al.,2017 (https://arxiv.org/html/2605.13989#bib.bib33))。  
4. (4) **通过MCP的工具使用监督**。我们构建了一个6327条示例的工具使用SFT数据集,模板化地基于一个真实的本地CVE数据库(50K条西班牙语CVE、27K条漏洞利用、98K条IOC),并绑定到六个MCP服务器(NVD、CISA KEV、MITRE ATT&CK、OTX、LATAM情报、bash执行)。模型学会了生成语法正确的`<|tool_call|>` JSON片段,MCP运行时逐字执行这些片段。  
5. (5) **课程消融:引导语料语域的重要性**。我们报告了一项受控消融实验,将OpenSubtitles-ES(阶段1,v2)替换为使用FineWeb-2\(Penedo et al.,2024 (https://arxiv.org/html/2605.13989#bib.bib43)\) 质量分数过滤后的mC4-ES\(Xue et al.,2021 (https://arxiv.org/html/2605.13989#bib.bib58)\)(阶段1,v4)。mC4-ES变体在后续每个阶段均实现了持续**更低**的损失(阶段2低-0.29,阶段3低-0.28,SFT低-0.17),但在留存聊天门控测试中持续表现出**更差**的对话行为(6/10 vs. 7/10)。第三种配置(v6)使用60/25/15比例的OpenSubtitles-ES、mC4-ES和Wikipedia-ES作为阶段1语料,同样达到6/10,与v4持平。我们将此反转归因于**语域不匹配效应**:在42M参数规模下,引导语料决定了模型的默认回复风格,而百科全书式的网络语域无法被SFT单独可靠覆盖。  
6. (6) **工具使用密度阈值**。一项事后LoRA\(Hu et al.,2022 (https://arxiv.org/html/2605.13989#bib.bib30)\) 研究识别出了语料密度阈值,低于该阈值时小型模型无法在`<|assistant|>`之后将`<|tool_call|>`作为首个令牌输出。当工具使用与普通文本的比例为1:211(混合SFT语料)时,Nano(42M)和从零训练的260M中端模型(我们称之为VectraYX-Base)的B4得分均为0.000;当比例为1:21(一个包含2801条示例的工具密集型语料,配合秩16的LoRA)时,Nano达到0.145±0.046,Base达到0.445±0.201(N=4个种子)。因此,能力瓶颈是首令牌先验冲突,而非参数限制。  
7. (7) **可边缘部署的工件**。我们将微调后的模型导出为GGUF格式\(Gerganov, Georgi and the ggml contributors,2024 (https://arxiv.org/html/2605.13989#bib.bib23)\)(F16: 81 MB;Q4: 约20 MB),可在Ollama\(Ollama Team,2023 (https://arxiv.org/html/2605.13989#bib.bib41)\) 或llama.cpp\(Gerganov, Georgi and llama.cpp contributors,2023 (https://arxiv.org/html/2605.13989#bib.bib22)\) 下运行,在树莓派4上首次令牌生成时间低于1秒。该工件包含权重绑定的LM头和25个保留的领域令牌。  

#### 范围。  
VectraYX-Nano定位为**纳米级**模型:它旨在协助边缘设备和气隙环境中的分析师,而非与前沿70B+聊天模型在开放领域推理上竞争。在其目标范围内——西班牙语网络安全问答、CVE摘要、威胁分类、命令补全和工具调度——我们展示了精心构建的语料、领域平衡的分词器以及带重放的课程预训练,能够提取出同规模单一预训练运行无法实现的定性行为。  

#### 可复现性。  
所有训练脚本、配置文件、带重放缓冲区的课程采样器、基准测试工具、工具使用语料库以及B1–B5评估数据集均发布于https://github.com/vectrayx/vectrayx-nano-paper。模型检查点和LoRA适配器可在https://huggingface.co/jsantillana/vectrayx-nano 获取。第6节 (https://arxiv.org/html/2605.13989#S6) 提供了精确的超参数,第8节 (https://arxiv.org/html/2605.13989#S8) 记录了留存评估协议。语料库本身部分根据上游许可(NVD、Wikipedia、ExploitDB、OpenSubtitles)发布;LATAM策划部分以构建配方而非原始文本形式发布,符合当前安全语料库的惯例。  

## 2. 相关工作  
#### 安全领域语言模型。  
安全领域的专用模型有着短暂但活跃的历史。SecureBERT\(Aghaei et al.,2022 (https://arxiv.org/html/2605.13989#bib.bib2)\) 在网络安全文本上持续预训练RoBERTa\(Liu et al.,2019 (https://arxiv.org/html/2605.13989#bib.bib38)\) 骨干,并报告在实体识别上优于通用BERT\(Devlin et al.,2019 (https://arxiv.org/html/2605.13989#bib.bib18)\)。CySecBERT\(Bayer et al.,2024 (https://arxiv.org/html/2605.13989#bib.bib7)\) 类似地基于BERT在67万文档的英语安全语料上持续训练,并改进了分类基准。这一方向的早期工作包括SciBERT\(Beltagy et al.,2019 (https://arxiv.org/html/2605.13989#bib.bib8)\),它确立了技术领域词汇扩展持续预训练的方法论。从我们的角度看,所有这些模型都有两个共性局限:它们都是仅编码器模型,并且是在英语上训练的。我们未发现任何先前发表的、具有西班牙语网络安全专业化的仅解码器生成模型。  

#### 西班牙语和多语言模型。  
西班牙语自然语言处理生态系统已围绕BETO\(Cañete et al.,2020 (https://arxiv.org/html/2605.13989#bib.bib11)\)(一个西班牙语BERT)、RoBERTa-base-BNE系列\(Gutiérrez-Fandiño et al.,2022 (https://arxiv.org/html/2605.13989#bib.bib26)\),以及更近期巴塞罗那超级计算中心的开源伊比利亚解码器系列Salamandra\(Gutiérrez-Fandiño et al.,2024 (https://arxiv.org/html/2605.13989#bib.bib27)\) 而成熟。mC4\(Xue et al.,2021 (https://arxiv.org/html/2605.13989#bib.bib58)\) 和CC-100\(Conneau et al.,2020 (https://arxiv.org/html/2605.13989#bib.bib13)\) 一直是标准的西班牙语预训练语料库;FineWeb-2\(Penedo et al.,2024 (https://arxiv.org/html/2605.13989#bib.bib43)\) 是较新的多语言质量过滤网络发布物。

相似文章

MicroSpec: 通过轻量级上下文词汇表加速推测解码

arXiv cs.CL

MicroSpec 是一种无需训练的技术,它能即时构建紧凑的上下文感知词汇表,以加速大型语言模型中的推测解码,将平均词汇表大小减少40倍以上,并相比EAGLE-2实现了高达1.32倍的端到端加速。

Helvete-nano

Reddit r/LocalLLaMA

VTXAI 发布了 Helvete nano,一款紧凑型 2B 参数语言模型,专为无限制对话和创意自由而设计。

扩展单义性:从Claude 3 Sonnet中提取可解释特征

arXiv cs.AI

本文展示稀疏自编码器能够从生产级语言模型Claude 3 Sonnet中提取可解释特征,解决了字典学习方法在扩展性方面的担忧。这些特征具有多语言、多模态特性,并涵盖欺骗、谄媚等安全相关概念,且对模型输出具有因果影响。

模型遗忘目标因语言功能不同而异

arXiv cs.CL

本文认为,LLM中的遗忘应依赖于目标,提出了一种基于余弦的元学习RMU变体用于危险知识遗忘,以及一种结合探针方向的多层目标用于毒性遗忘,在四个7-8B模型上取得了显著效果。