使用 ml-intern 和 DeepSeek v4 Flash 训练了一个提示注入检测器,运行在浏览器中

Reddit r/LocalLLaMA 模型

摘要

使用 ml-intern 和 DeepSeek V4 Flash 训练了一个提示注入分类器,使用 DistilBERT 实现 F1 99%,优化至 ONNX int8(约 65 MB),可通过 Transformers.js v3 在浏览器中运行。

使用 `ml-intern` + DeepSeek v4 Flash 训练了一个提示注入分类器。DistilBERT,F1 为 99%,ONNX int8,约 65 MB,可通过 Transformers.js v3 在浏览器中运行。你可以在这里试用:[https://huggingface.co/spaces/av-codes/prompt-injection-detector](https://huggingface.co/spaces/av-codes/prompt-injection-detector) \--- 我对提示注入和代理安全感兴趣已久,想看看专用机器学习代理与此类任务中的通用编码代理相比如何。大致过程如下:`ml-intern` 需要一个 HF token 并支持 OpenAI 兼容 API,因此我将其指向 OpenRouter(缺少 GPU 资源)。代理找到了现有数据集:[deepset/prompt-injections](https://huggingface.co/datasets/deepset/prompt-injections) 和 [Shomi28/prompt-injection-dataset](https://huggingface.co/datasets/Shomi28/prompt-injection-dataset),这简化了事情,因为在此类任务中,构建数据集通常占 95% 的工作。对于 v1,我选择了针对 CPU 推理的 DistilBERT。经过几次参数扫描后,代理启动了完整运行,最终达到 F1 为 95.87%。我还尝试训练了一个 HRM-Text 模型,但代理没有弄清楚,而是设置了 TRM 运行(不同架构,无位置编码)。当我将其引导回 HRM 并给出[正确论文](https://arxiv.org/abs/2605.20613)时,训练脚本未针对我的硬件优化。我花费了 20 美元在 HF 远程训练上使用 T4,但它在第一个 epoch 后出错,因为代理没有遵循论文中的训练流程,使用了错误的优化器/参数,导致参数爆炸。对于 v2,我从 Bordair 找到了一个[更大的合成数据集](https://huggingface.co/datasets/Bordair/bordair-multimodal)并重新训练了 DistilBERT。这就是上面 Space 中的模型。令我惊讶的是: * DeepSeek v4 Flash 通过 API 的总成本不到 5 美元,用于所有代理运行 * 在顺利路径上,代理比预期更省心 * 它在非标准架构上失败 * 它自然倾向于 HF 堆栈,这对这个任务来说没问题,但值得了解 明显的不足:合成数据集意味着训练/测试拆分可能过于相似。这不是一个严谨的科学方法,但这是迄今为止我在使用代理工具时获得的最愉快的机器学习体验。HRM 运行仍在进行中。我很好奇其他人使用这些工具的经验。谢谢!
查看原文

相似文章

理解提示词注入:AI安全的前沿挑战

OpenAI Blog

OpenAI发布了关于提示词注入攻击的指导,这是一种社会工程漏洞,恶意指令可以隐藏在网页内容或文档中,诱骗AI模型执行意外操作。该公司概述了其多层防御策略,包括指令层级研究、自动化安全测试和AI驱动的监控系统。

我在家运行了(更快的)DeepSeek V4 Pro

Reddit r/LocalLLaMA

用户报告成功使用 ktransformers 在本地运行 DeepSeek V4 Pro 模型,并分享了在不同上下文深度下的详细基准测试结果,展示了改进的推理速度。

deepseek-ai/DeepSeek-V4-Pro

Hugging Face Models Trending

DeepSeek 发布了 V4-Pro 和 V4-Flash,这些混合专家模型采用混合注意力机制和 Muon 优化器,支持百万 token 级上下文。