我们在HuggingFace上训练了一个专注于网络安全的类似Mythos的开源权重LLM

Reddit r/LocalLLaMA 2026/06/15 19:36 模型

open-source cybersecurity fine-tuning rlvr llm huggingface sft

摘要

一个名为OpenMythos的开源LLM通过SFT和RLVR进行训练，专攻网络安全任务，相关数据集已在HuggingFace上提供。该模型旨在减少幻觉并提高安全相关查询的精确度。

我们为Build Small Hackathon构建了OpenMythos，这是一个专门针对网络安全任务训练的开源LLM。我们想分享我们的训练方法，因为RLVR的设置并非易事，可能对进行类似领域特定微调的人感兴趣。**问题**通用LLM在安全方面出奇地糟糕。它们会幻觉CVE细节，遗漏代码中的真实漏洞模式，并且以自信的口吻犯错，而后果却很严重。我们想要一个真正内置了网络安全领域深度的东西。 **数据** * 抓取10K篇ArXiv cs.CR论文 → 筛选出约1.84K高质量记录，重点关注编码漏洞 * 结构化的CVE数据集，包含真实受影响的代码和修复上下文 * 两者均在HuggingFace上开源（所有链接见本文末尾） **训练流程** *阶段1 - SFT* 在网络安全任务上进行标准监督微调：漏洞识别、CVE解释、代码安全审查、缓解策略。*阶段2 - RLVR* 这是有趣的部分。SFT教会模型模仿良好的回答，但并不能让它验证自己的输出。对于安全领域，这一差距是危险的。我们使用GitHub仓库构建了一个奖励设置，这些仓库包含成对的易受攻击/已修复分支。一个验证器模型检查每个生成的回答与真实情况——它是否识别出了正确的漏洞？修复方案是否真的正确？奖励信号由此而来。经过RLVR后，模型明显更加精确。类似漏洞类别的混淆减少，不确定性校准更好。 **链接** * 🤖 演示：[https://huggingface.co/spaces/build-small-hackathon/OpenMythos](https://huggingface.co/spaces/build-small-hackathon/OpenMythos) * 🧠 模型：[https://huggingface.co/build-small-hackathon/OpenMythos](https://huggingface.co/build-small-hackathon/OpenMythos) * 📦 CVE数据集：[https://huggingface.co/datasets/build-small-hackathon/CVE_Vulnerailities_Detailed](https://huggingface.co/datasets/build-small-hackathon/CVE_Vulnerailities_Detailed) * 📄 ArXiv筛选后：[https://huggingface.co/datasets/himanshu17HF/ArvixImport-Filtered-Final](https://huggingface.co/datasets/himanshu17HF/ArvixImport-Filtered-Final) 如果有人对RLVR设置或筛选流程感兴趣，我们很乐意详细说明。我们也希望收到关于模型不足之处的反馈。

查看原文

我们在HuggingFace上训练了一个专注于网络安全的类似Mythos的开源权重LLM

相似文章

Mythos在网络安全/黑客攻击方面优势的更多证据——与5.5版本相比，它完成了41个n-day漏洞利用中的18个，而5.5只有1个。开源/权重模型则一个都没有。

Anthropic 为 Claude Code 和 Claude Security 准备 Mythos 1（2 分钟阅读）

估计开放权重大型语言模型的最坏情况前沿风险

@logangraham: 很多人一直在关注Mythos、Glasswing以及我们/合作伙伴正在修复的漏洞。今天，我很兴奋……

从零开始开发开源大语言模型：从预训练到RLHF（PPO/GRPO）

提交意见反馈