使用 ml-intern 和 DeepSeek v4 Flash 训练了一个提示注入检测器,运行在浏览器中
摘要
使用 ml-intern 和 DeepSeek V4 Flash 训练了一个提示注入分类器,使用 DistilBERT 实现 F1 99%,优化至 ONNX int8(约 65 MB),可通过 Transformers.js v3 在浏览器中运行。
使用 `ml-intern` + DeepSeek v4 Flash 训练了一个提示注入分类器。DistilBERT,F1 为 99%,ONNX int8,约 65 MB,可通过 Transformers.js v3 在浏览器中运行。你可以在这里试用:[https://huggingface.co/spaces/av-codes/prompt-injection-detector](https://huggingface.co/spaces/av-codes/prompt-injection-detector) \--- 我对提示注入和代理安全感兴趣已久,想看看专用机器学习代理与此类任务中的通用编码代理相比如何。大致过程如下:`ml-intern` 需要一个 HF token 并支持 OpenAI 兼容 API,因此我将其指向 OpenRouter(缺少 GPU 资源)。代理找到了现有数据集:[deepset/prompt-injections](https://huggingface.co/datasets/deepset/prompt-injections) 和 [Shomi28/prompt-injection-dataset](https://huggingface.co/datasets/Shomi28/prompt-injection-dataset),这简化了事情,因为在此类任务中,构建数据集通常占 95% 的工作。对于 v1,我选择了针对 CPU 推理的 DistilBERT。经过几次参数扫描后,代理启动了完整运行,最终达到 F1 为 95.87%。我还尝试训练了一个 HRM-Text 模型,但代理没有弄清楚,而是设置了 TRM 运行(不同架构,无位置编码)。当我将其引导回 HRM 并给出[正确论文](https://arxiv.org/abs/2605.20613)时,训练脚本未针对我的硬件优化。我花费了 20 美元在 HF 远程训练上使用 T4,但它在第一个 epoch 后出错,因为代理没有遵循论文中的训练流程,使用了错误的优化器/参数,导致参数爆炸。对于 v2,我从 Bordair 找到了一个[更大的合成数据集](https://huggingface.co/datasets/Bordair/bordair-multimodal)并重新训练了 DistilBERT。这就是上面 Space 中的模型。令我惊讶的是:
* DeepSeek v4 Flash 通过 API 的总成本不到 5 美元,用于所有代理运行
* 在顺利路径上,代理比预期更省心
* 它在非标准架构上失败
* 它自然倾向于 HF 堆栈,这对这个任务来说没问题,但值得了解
明显的不足:合成数据集意味着训练/测试拆分可能过于相似。这不是一个严谨的科学方法,但这是迄今为止我在使用代理工具时获得的最愉快的机器学习体验。HRM 运行仍在进行中。我很好奇其他人使用这些工具的经验。谢谢!
相似文章
理解提示词注入:AI安全的前沿挑战
OpenAI发布了关于提示词注入攻击的指导,这是一种社会工程漏洞,恶意指令可以隐藏在网页内容或文档中,诱骗AI模型执行意外操作。该公司概述了其多层防御策略,包括指令层级研究、自动化安全测试和AI驱动的监控系统。
我在家运行了(更快的)DeepSeek V4 Pro
用户报告成功使用 ktransformers 在本地运行 DeepSeek V4 Pro 模型,并分享了在不同上下文深度下的详细基准测试结果,展示了改进的推理速度。
deepseek-ai/DeepSeek-V4-Pro
DeepSeek 发布了 V4-Pro 和 V4-Flash,这些混合专家模型采用混合注意力机制和 Muon 优化器,支持百万 token 级上下文。
@Saboo_Shubham_:开源 AI 势头强劲。DeepSeek v4 Flash 是一款准前沿模型,拥有高达 100 万的上下文窗口。它可本地…
文章重点介绍了 DeepSeek v4 Flash,这是一款拥有 100 万上下文窗口的准前沿开源模型,并指出其能够通过 2 比特量化在 128GB 内存的 Mac 上本地运行。
大多数注入检测器逐条打分,我做了个追踪完整会话几何轨迹的,这是实测结果
开发者构建了 Arc Gate——一款基于 Fisher 信息流形几何的 LLM 监控代理,可在会话层面检测提示注入攻击,通过追踪 t 值相对相变阈值 t*=1.2247 的变化,识别 Crescendo 式渐进操控,而非逐句关键词匹配。