我们在HuggingFace上训练了一个专注于网络安全的类似Mythos的开源权重LLM

Reddit r/LocalLLaMA 模型

摘要

一个名为OpenMythos的开源LLM通过SFT和RLVR进行训练,专攻网络安全任务,相关数据集已在HuggingFace上提供。该模型旨在减少幻觉并提高安全相关查询的精确度。

我们为Build Small Hackathon构建了OpenMythos,这是一个专门针对网络安全任务训练的开源LLM。我们想分享我们的训练方法,因为RLVR的设置并非易事,可能对进行类似领域特定微调的人感兴趣。**问题**通用LLM在安全方面出奇地糟糕。它们会幻觉CVE细节,遗漏代码中的真实漏洞模式,并且以自信的口吻犯错,而后果却很严重。我们想要一个真正内置了网络安全领域深度的东西。 **数据** * 抓取10K篇ArXiv cs.CR论文 → 筛选出约1.84K高质量记录,重点关注编码漏洞 * 结构化的CVE数据集,包含真实受影响的代码和修复上下文 * 两者均在HuggingFace上开源(所有链接见本文末尾) **训练流程** *阶段1 - SFT* 在网络安全任务上进行标准监督微调:漏洞识别、CVE解释、代码安全审查、缓解策略。*阶段2 - RLVR* 这是有趣的部分。SFT教会模型模仿良好的回答,但并不能让它验证自己的输出。对于安全领域,这一差距是危险的。我们使用GitHub仓库构建了一个奖励设置,这些仓库包含成对的易受攻击/已修复分支。一个验证器模型检查每个生成的回答与真实情况——它是否识别出了正确的漏洞?修复方案是否真的正确?奖励信号由此而来。经过RLVR后,模型明显更加精确。类似漏洞类别的混淆减少,不确定性校准更好。 **链接** * 🤖 演示:[https://huggingface.co/spaces/build-small-hackathon/OpenMythos](https://huggingface.co/spaces/build-small-hackathon/OpenMythos) * 🧠 模型:[https://huggingface.co/build-small-hackathon/OpenMythos](https://huggingface.co/build-small-hackathon/OpenMythos) * 📦 CVE数据集:[https://huggingface.co/datasets/build-small-hackathon/CVE_Vulnerailities_Detailed](https://huggingface.co/datasets/build-small-hackathon/CVE_Vulnerailities_Detailed) * 📄 ArXiv筛选后:[https://huggingface.co/datasets/himanshu17HF/ArvixImport-Filtered-Final](https://huggingface.co/datasets/himanshu17HF/ArvixImport-Filtered-Final) 如果有人对RLVR设置或筛选流程感兴趣,我们很乐意详细说明。我们也希望收到关于模型不足之处的反馈。
查看原文

相似文章

估计开放权重大型语言模型的最坏情况前沿风险

OpenAI Blog

OpenAI 研究人员通过在生物学和网络安全领域进行恶意微调(MFT)来研究发布开放权重大型语言模型的最坏情况前沿风险,发现开放权重模型的表现不如前沿闭源模型,且不会显著提升有害能力。