标签
一位用户讨论将小型自动补全模型(2500万参数)作为学习项目来构建,提到硬件限制(32GB VRAM)、数据要求(约1亿个token),并寻求关于数据集和自动补全式训练的数据格式的建议。
本文认为,AI的可防御性来自于拥有完整的反馈循环——基于专有数据进行后训练的自定义模型,针对特定工作流进行调整,并由用户定义的标准进行评估——而不是从可能随时更改条款的供应商那里租用前沿API。它强调模型定制是实现差异化和利润控制的关键。
演示了在双路 Nvidia RTX PRO 6000 Blackwell GPU 上,使用 Hugging Face Inference 运行自定义 Qwen 模型(Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF),达到每秒约 195 个 token 的处理速度。
DavidAU 发布了一款基于 Qwen 3.6 的自定义 40B 参数模型,该模型经过扩展并使用 Claude 4.6 Opus 蒸馏和 Deckard 数据集进行微调,具有优化的 GGUF 量化,以提升精度和无审查能力。