标签
使用 ml-intern 和 DeepSeek V4 Flash 训练了一个提示注入分类器,使用 DistilBERT 实现 F1 99%,优化至 ONNX int8(约 65 MB),可通过 Transformers.js v3 在浏览器中运行。
本文重点介绍了 llama.cpp/ggml 中的全新 WebGPU 后端,它能够在浏览器中实现 GPU 加速的本地 AI 模型推理,由 Reese Levine 及其在 USCS 的团队在过去一年半中开发完成。
一位开发者演示在浏览器中完全通过 WebGPU 运行 Qwen3.6-27B AI 模型,尽管速度并非最优。