将聊天中的每个"不,我不是这个意思"转化为实际的LoRA训练数据
摘要
一个桌面应用,让用户可以在聊天中纠正模型回复并本地训练LoRA适配器,无需手动使用笔记本即可闭环反馈。
我一直在自己的硬件上运行本地模型,它们有时会说些蠢话,我坐在那里心想'不,我不是这个意思',然后关掉聊天,模型却从未学到。所以我将纠正循环直接内置到一个桌面应用中。初始实验:手动编写了110个纠正示例,针对一个小型助手角色,在Qwen3 0.6B上运行PEFT/LoRA。损失从4.25降到0.73,适配器在大约30个越狱提示下保持了身份一致性,并能正确回答基础模型回答错误的领域问题。规模虽小,但循环是有效的。我将同样的循环扩展到日常聊天中:**工作原理** * 每次聊天回复都有一个**Teach**按钮 * 点击它,写下模型本应说的话 * 纠正记录以jsonl格式累积在你的个人文件夹中(在磁盘上可见,可grep) * 当你有足够多的纠正后,点击**Train** — PEFT/LoRA会根据当前基础模型运行 * 适配器进入注册表,你可以在模型选择器中切换它 * 一个**Training Proof**面板会并排显示候选分数和基线分数,以及哪些以前失败的提示现在通过了(以及任何退步的提示,用红色标记) 这样循环在聊天内部闭合:发现模型出错的点,纠正一次,训练,下次聊天时你的纠正已经融入到权重中。无需笔记本,无需凌晨2点运行`pip install --upgrade peft`。 **运行方式** Windows 10/11 64位,~2.8 GB安装包(内置CUDA运行时和便携版Python,确保训练副手无缝运行):tideforge.ai/seels 可携带任何GGUF模型。语音模式(whisper STT + piper TTS)以及完整的teach/train循环永久免费。通过Azure受信任签名签署 — SmartScreen在前十几次安装时仍会警告,因为这是全新应用,应用内有一个引导流程教你"更多信息 → 仍然运行"。目前仍处于alpha阶段,可能会有问题。如果你找到让其崩溃的方法,请告诉我日志。我很乐意讨论为什么选择Tauri而不是Electron,为什么使用单独的Python副手进行训练,agent + tool循环等任何话题。
相似文章
我发布了一款Windows桌面应用,用于运行本地LLM,其按钮可将你的“不对,错了”转为实际的LoRA训练数据
一款名为SEELS的Windows桌面应用,允许用户运行本地LLM、纠正模型回复,并自动从纠正中训练LoRA适配器。它集成了语音模式、硬件仪表盘和训练伴生程序。
Code2LoRA:超网络生成的适配器,用于软件演进中的代码语言模型
Code2LoRA 引入了一个超网络,该超网络能够从代码仓库中一次性前向传播生成 LoRA 适配器,使得冻结的代码大语言模型无需额外 token 即可适应仓库上下文,并高效支持不断演进的代码库。此外,它还提供了 RepoPeftBench,一个用于仓库条件代码建模的基准测试。
将本地代理转变为自我优化代理
一个自我优化的智能体管线,在TerminalBench上将基准性能从约30%提升至约90%,并且可以通过记录交互、使用本地模型进行反思、以及将经验注入未来的系统提示中,扩展应用到日常对话场景。
@_akhaliq: Code2LoRA 软件演化下代码语言模型的超网络生成适配器
本文介绍了Code2LoRA,一种基于超网络的方法,用于生成代码语言模型的适配器,以应对软件演化中的挑战。
Built a Tauri v2 desktop chat shell for local LLMs — point it at Ollama / llama.cpp / any OpenAI-compatible endpoint, MIT, ~12 MB binary
Built a Tauri v2 desktop chat shell for local LLMs that can connect to Ollama, llama.cpp, or any OpenAI-compatible endpoint. The project is MIT licensed and produces a ~12 MB binary.