将聊天中的每个"不,我不是这个意思"转化为实际的LoRA训练数据

Reddit r/LocalLLaMA 工具

摘要

一个桌面应用,让用户可以在聊天中纠正模型回复并本地训练LoRA适配器,无需手动使用笔记本即可闭环反馈。

我一直在自己的硬件上运行本地模型,它们有时会说些蠢话,我坐在那里心想'不,我不是这个意思',然后关掉聊天,模型却从未学到。所以我将纠正循环直接内置到一个桌面应用中。初始实验:手动编写了110个纠正示例,针对一个小型助手角色,在Qwen3 0.6B上运行PEFT/LoRA。损失从4.25降到0.73,适配器在大约30个越狱提示下保持了身份一致性,并能正确回答基础模型回答错误的领域问题。规模虽小,但循环是有效的。我将同样的循环扩展到日常聊天中:**工作原理** * 每次聊天回复都有一个**Teach**按钮 * 点击它,写下模型本应说的话 * 纠正记录以jsonl格式累积在你的个人文件夹中(在磁盘上可见,可grep) * 当你有足够多的纠正后,点击**Train** — PEFT/LoRA会根据当前基础模型运行 * 适配器进入注册表,你可以在模型选择器中切换它 * 一个**Training Proof**面板会并排显示候选分数和基线分数,以及哪些以前失败的提示现在通过了(以及任何退步的提示,用红色标记) 这样循环在聊天内部闭合:发现模型出错的点,纠正一次,训练,下次聊天时你的纠正已经融入到权重中。无需笔记本,无需凌晨2点运行`pip install --upgrade peft`。 **运行方式** Windows 10/11 64位,~2.8 GB安装包(内置CUDA运行时和便携版Python,确保训练副手无缝运行):tideforge.ai/seels 可携带任何GGUF模型。语音模式(whisper STT + piper TTS)以及完整的teach/train循环永久免费。通过Azure受信任签名签署 — SmartScreen在前十几次安装时仍会警告,因为这是全新应用,应用内有一个引导流程教你"更多信息 → 仍然运行"。目前仍处于alpha阶段,可能会有问题。如果你找到让其崩溃的方法,请告诉我日志。我很乐意讨论为什么选择Tauri而不是Electron,为什么使用单独的Python副手进行训练,agent + tool循环等任何话题。
查看原文

相似文章

Code2LoRA:超网络生成的适配器,用于软件演进中的代码语言模型

Hugging Face Daily Papers

Code2LoRA 引入了一个超网络,该超网络能够从代码仓库中一次性前向传播生成 LoRA 适配器,使得冻结的代码大语言模型无需额外 token 即可适应仓库上下文,并高效支持不断演进的代码库。此外,它还提供了 RepoPeftBench,一个用于仓库条件代码建模的基准测试。

将本地代理转变为自我优化代理

Reddit r/LocalLLaMA

一个自我优化的智能体管线,在TerminalBench上将基准性能从约30%提升至约90%,并且可以通过记录交互、使用本地模型进行反思、以及将经验注入未来的系统提示中,扩展应用到日常对话场景。