将聊天中的每个"不，我不是这个意思"转化为实际的LoRA训练数据

Reddit r/LocalLLaMA 2026/05/27 06:18 工具

lora fine-tuning local-llm qwen desktop-app correction-loop peft

摘要

一个桌面应用，让用户可以在聊天中纠正模型回复并本地训练LoRA适配器，无需手动使用笔记本即可闭环反馈。

我一直在自己的硬件上运行本地模型，它们有时会说些蠢话，我坐在那里心想'不，我不是这个意思'，然后关掉聊天，模型却从未学到。所以我将纠正循环直接内置到一个桌面应用中。初始实验：手动编写了110个纠正示例，针对一个小型助手角色，在Qwen3 0.6B上运行PEFT/LoRA。损失从4.25降到0.73，适配器在大约30个越狱提示下保持了身份一致性，并能正确回答基础模型回答错误的领域问题。规模虽小，但循环是有效的。我将同样的循环扩展到日常聊天中：**工作原理** * 每次聊天回复都有一个**Teach**按钮 * 点击它，写下模型本应说的话 * 纠正记录以jsonl格式累积在你的个人文件夹中（在磁盘上可见，可grep） * 当你有足够多的纠正后，点击**Train** — PEFT/LoRA会根据当前基础模型运行 * 适配器进入注册表，你可以在模型选择器中切换它 * 一个**Training Proof**面板会并排显示候选分数和基线分数，以及哪些以前失败的提示现在通过了（以及任何退步的提示，用红色标记）这样循环在聊天内部闭合：发现模型出错的点，纠正一次，训练，下次聊天时你的纠正已经融入到权重中。无需笔记本，无需凌晨2点运行`pip install --upgrade peft`。 **运行方式** Windows 10/11 64位，~2.8 GB安装包（内置CUDA运行时和便携版Python，确保训练副手无缝运行）：tideforge.ai/seels 可携带任何GGUF模型。语音模式（whisper STT + piper TTS）以及完整的teach/train循环永久免费。通过Azure受信任签名签署 — SmartScreen在前十几次安装时仍会警告，因为这是全新应用，应用内有一个引导流程教你"更多信息 → 仍然运行"。目前仍处于alpha阶段，可能会有问题。如果你找到让其崩溃的方法，请告诉我日志。我很乐意讨论为什么选择Tauri而不是Electron，为什么使用单独的Python副手进行训练，agent + tool循环等任何话题。

查看原文

Built a Tauri v2 desktop chat shell for local LLMs — point it at Ollama / llama.cpp / any OpenAI-compatible endpoint, MIT, ~12 MB binary

Reddit r/LocalLLaMA

Built a Tauri v2 desktop chat shell for local LLMs that can connect to Ollama, llama.cpp, or any OpenAI-compatible endpoint. The project is MIT licensed and produces a ~12 MB binary.

将聊天中的每个"不，我不是这个意思"转化为实际的LoRA训练数据

相似文章

我发布了一款Windows桌面应用，用于运行本地LLM，其按钮可将你的“不对，错了”转为实际的LoRA训练数据

Code2LoRA：超网络生成的适配器，用于软件演进中的代码语言模型

将本地代理转变为自我优化代理

@_akhaliq: Code2LoRA 软件演化下代码语言模型的超网络生成适配器

Built a Tauri v2 desktop chat shell for local LLMs — point it at Ollama / llama.cpp / any OpenAI-compatible endpoint, MIT, ~12 MB binary

提交意见反馈