我们在HuggingFace上训练了一个专注于网络安全的类似Mythos的开源权重LLM
摘要
一个名为OpenMythos的开源LLM通过SFT和RLVR进行训练,专攻网络安全任务,相关数据集已在HuggingFace上提供。该模型旨在减少幻觉并提高安全相关查询的精确度。
我们为Build Small Hackathon构建了OpenMythos,这是一个专门针对网络安全任务训练的开源LLM。我们想分享我们的训练方法,因为RLVR的设置并非易事,可能对进行类似领域特定微调的人感兴趣。**问题**通用LLM在安全方面出奇地糟糕。它们会幻觉CVE细节,遗漏代码中的真实漏洞模式,并且以自信的口吻犯错,而后果却很严重。我们想要一个真正内置了网络安全领域深度的东西。
**数据**
* 抓取10K篇ArXiv cs.CR论文 → 筛选出约1.84K高质量记录,重点关注编码漏洞
* 结构化的CVE数据集,包含真实受影响的代码和修复上下文
* 两者均在HuggingFace上开源(所有链接见本文末尾)
**训练流程**
*阶段1 - SFT* 在网络安全任务上进行标准监督微调:漏洞识别、CVE解释、代码安全审查、缓解策略。*阶段2 - RLVR* 这是有趣的部分。SFT教会模型模仿良好的回答,但并不能让它验证自己的输出。对于安全领域,这一差距是危险的。我们使用GitHub仓库构建了一个奖励设置,这些仓库包含成对的易受攻击/已修复分支。一个验证器模型检查每个生成的回答与真实情况——它是否识别出了正确的漏洞?修复方案是否真的正确?奖励信号由此而来。经过RLVR后,模型明显更加精确。类似漏洞类别的混淆减少,不确定性校准更好。
**链接**
* 🤖 演示:[https://huggingface.co/spaces/build-small-hackathon/OpenMythos](https://huggingface.co/spaces/build-small-hackathon/OpenMythos)
* 🧠 模型:[https://huggingface.co/build-small-hackathon/OpenMythos](https://huggingface.co/build-small-hackathon/OpenMythos)
* 📦 CVE数据集:[https://huggingface.co/datasets/build-small-hackathon/CVE_Vulnerailities_Detailed](https://huggingface.co/datasets/build-small-hackathon/CVE_Vulnerailities_Detailed)
* 📄 ArXiv筛选后:[https://huggingface.co/datasets/himanshu17HF/ArvixImport-Filtered-Final](https://huggingface.co/datasets/himanshu17HF/ArvixImport-Filtered-Final)
如果有人对RLVR设置或筛选流程感兴趣,我们很乐意详细说明。我们也希望收到关于模型不足之处的反馈。
相似文章
Mythos在网络安全/黑客攻击方面优势的更多证据——与5.5版本相比,它完成了41个n-day漏洞利用中的18个,而5.5只有1个。开源/权重模型则一个都没有。
Mythos在网络安全黑客攻击中展现了强大性能,实现了41个n-day漏洞利用中的18个,而5.5版本只有1个,开源模型则一个都没有。
Anthropic 为 Claude Code 和 Claude Security 准备 Mythos 1(2 分钟阅读)
Anthropic 正准备推出 Mythos 1,一款用于网络安全的强大 AI 模型,其预览标签已出现在 Claude Code 和 Claude Security 中。该模型最初受到限制,一旦安全措施到位,可能会更广泛地发布,同时正在开发一个新的安全仪表板。
估计开放权重大型语言模型的最坏情况前沿风险
OpenAI 研究人员通过在生物学和网络安全领域进行恶意微调(MFT)来研究发布开放权重大型语言模型的最坏情况前沿风险,发现开放权重模型的表现不如前沿闭源模型,且不会显著提升有害能力。
@logangraham: 很多人一直在关注Mythos、Glasswing以及我们/合作伙伴正在修复的漏洞。今天,我很兴奋……
Anthropic的Claude Mythos Preview模型已经过XBOW和英国AISI的评估,展示了前所未有的自主网络安全能力,包括解决端到端网络靶场以及发现数千个漏洞。该公告强调需要为网络安全领域快速发展的AI能力做好准备。
从零开始开发开源大语言模型:从预训练到RLHF(PPO/GRPO)
一位开发者分享了从零开始训练一个70亿参数开源大语言模型的进展,该模型基于DeepSeek架构并针对低显存进行了优化,目标是推动AI开发的民主化,并最终超越大型专有模型。