fine-tuning

#fine-tuning

Mia-AiLab/Qwable-3.6-27b

Hugging Face Models Trending ↗ · 2026-06-15 缓存

Mia-AiLab 发布了 Qwable-3.6-27b，这是一个基于清理后的推理和指令数据集对 Qwen3.6-27B 进行全参数微调的检查点，针对编程、技术辅助和结构化回复进行了优化。

0 人收藏 0 人点赞

#fine-tuning

@SergioPaniego: https://x.com/SergioPaniego/status/2066498136273531363

X AI KOLs Timeline ↗ · 2026-06-15 缓存

这篇帖子演示了如何通过单个提示词免费微调模型，利用了新的Google Colab CLI以及Hugging Face的TRL和trackio工具，所有这些都由AI代理编排。

0 人收藏 0 人点赞

#fine-tuning

稠密坐标列表微调在视觉语言模型中引发可控干涉面

arXiv cs.AI ↗ · 2026-06-15 缓存

本文研究了微调视觉语言模型生成稠密坐标列表如何创建可控干涉面，发现可移除重复压力而不牺牲定位精度。

0 人收藏 0 人点赞

#fine-tuning

超越LoRA：稀疏诱导的适配是否更好？

arXiv cs.LG ↗ · 2026-06-15 缓存

本文提出了对LoRA的稀疏诱导适配方法，包括廉价LoRA（cLA）和链式循环变体（c³LA），并提供了理论泛化界以及实证评估，结果显示在保持竞争性性能的同时，训练时间最多减少10%，峰值GPU内存节省最多15%。

0 人收藏 0 人点赞

#fine-tuning

BayLing-Duplex: 单一自回归大语言模型实现原生全双工语音对话

arXiv cs.CL ↗ · 2026-06-15 缓存

BayLing-Duplex是一种原生全双工语音语言模型，使单一自回归大语言模型无需外部VAD模块即可管理轮流发言与打断，实现了高成功率，并相比先前模型提升了回复质量。

0 人收藏 0 人点赞

#fine-tuning

通过基于知识图谱的数据生成实现精确的文本到Cypher转换

arXiv cs.CL ↗ · 2026-06-15 缓存

本文提出了一种合成数据生成方法，用于微调小型LLM，将自然语言转换为属性图的Cypher查询，在实现本地部署和数据主权的同时，达到了与大型专有模型相竞争的性能。

0 人收藏 0 人点赞

#fine-tuning

ProCUA-SFT 技术报告

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

ProCUA-SFT 是一个大规模合成数据集，包含 310 万个步骤级别的 SFT 样本，用于训练计算机使用代理。该数据集通过使用单一 VLM（Kimi-K2.5）的自动化流程生成。在其上微调 UI-TARS 7B 在 OSWorld 上达到 45.0%，比基础模型提高了 18.7 个百分点。

0 人收藏 0 人点赞

#fine-tuning

分层优势加权：面向稀疏回合结果的VLA在线强化学习微调

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

本文提出分层优势加权行为克隆（HABC），用于利用具有稀疏二进制回合结果的在线强化学习微调视觉-语言-动作（VLA）策略。HABC通过自适应评价器头和干预感知的信用分配将可行性和效率目标分离，显著提高了接触密集型双手操作任务的成功率。

0 人收藏 0 人点赞

#fine-tuning

@ActuallyIsaak：这是一个实际运行的端到端过程，从训练到在LM Studio中使用训练好的LLM，由@lmstudio的MLX-LoRA-Studio提供

X AI KOLs Following ↗ · 2026-06-14 缓存

MLX-LoRA-Studio 是一款原生的macOS应用，用于在Apple Silicon上微调LLM，提供用户友好的界面，支持多种训练算法，包括SFT、DPO和QAT。它完全开源，允许本地私有微调，无需依赖云端。

0 人收藏 0 人点赞

#fine-tuning

@teortaxesTex: 天哪，巴西一名市政员工发现了一种将LLM微调速度提升1000倍的方法——用了一个有点奇怪的技巧！…

X AI KOLs Timeline ↗ · 2026-06-14 缓存

巴西一名市政员工声称发现了一种能让LLM微调速度提升1000倍的方法，不过分析表明，最终得到的模型Rio 3.5本质上是现有开源模型Nex N2 Pro和Qwen 3.5的混合体。

0 人收藏 0 人点赞

#fine-tuning

@no_stp_on_snek: 顺便说一下，这就是我的循环。如你所见，我并没有花太多心思在上面（还有拼写错误什么的），只是评估质量的一个附带任务……

X AI KOLs Following ↗ · 2026-06-14 缓存

发布 Qwopus3.6-27B-v2-MTP，这是一个基于 Qwen3.6-27B 微调的多 token 预测推理模型，针对编码、DevOps 和数学任务进行了优化，并提升了生成速度。

0 人收藏 0 人点赞

#fine-tuning

@TheAhmadOsman：本地AI是未来。学习如何运行开源模型（推理），如何系统地评估它们（评估），……

X AI KOLs Following ↗ · 2026-06-14 缓存

@TheAhmadOsman 的一条推文强调本地AI是未来，并推荐学习诸如运行开源模型、进行评估以及通过微调定制模型等技能。

0 人收藏 0 人点赞

#fine-tuning

检索，而非重新训练：在测试时将视觉语言动作模型扩展到新任务

Hugging Face Daily Papers ↗ · 2026-06-14 缓存

本文介绍了一种检索增强的视觉-语言-动作策略，通过使用预训练模型和索引演示，消除了每个任务的微调，实现了高效的跨本体泛化和测试时的任务适应。

0 人收藏 0 人点赞

#fine-tuning

对2023年初的模型在两个指令遵循数据集上进行微调后效果变得很好

Reddit r/LocalLLaMA ↗ · 2026-06-12

一个在550步内对两个指令遵循数据集进行微调的Pythia-6.9B模型，具备了13种语言的能力，相比基础模型有显著提升。

0 人收藏 0 人点赞

#fine-tuning

@FinanceYF5: Claude Fable 5用3小时，完成了他4个月的fine-tuning工作。 7阶段完整pipeline、TUI界面、HTML dashboard、39个专项技能、8700行代码、235个测试。 98%完成度，one-shot。 4…

X AI KOLs Timeline ↗ · 2026-06-12 缓存

Claude Fable 5在3小时内完成了一个通常需要4个月的fine-tuning项目，包括完整的7阶段pipeline、TUI界面、HTML仪表盘、39个专项技能、8700行代码和235个测试，达到98%完成度，one-shot完成。

0 人收藏 0 人点赞

#fine-tuning

AAbAAC：自身免疫信息提取的标注语料库

arXiv cs.AI ↗ · 2026-06-12 缓存

AAbAAC是一个手动标注的语料库，包含115篇PubMed摘要，用于自身免疫信息提取，重点关注自身免疫疾病和自身抗体等实体。研究表明，在该语料库上进行微调后，命名实体识别（NER）性能有所提升。

0 人收藏 0 人点赞

#fine-tuning

LoRA优化中缩放因子的潜藏威力

arXiv cs.AI ↗ · 2026-06-12 缓存

本文揭示了LoRA优化中缩放因子α比学习率更具影响力，并提出了LoRA-α框架，通过将α恢复到其理论原则区间，提升了性能并简化了超参数搜索。

0 人收藏 0 人点赞

#fine-tuning

PolyAlign: 条件化人类分布对齐

arXiv cs.CL ↗ · 2026-06-12 缓存

PolyAlign是一个分布感知的对齐框架，它将语言模型对齐到特定上下文的人类回复分布，而不是单一的全局风格，从而提升了双语环境下的自然性和忠实度。

0 人收藏 0 人点赞

#fine-tuning

面向聊天机器人微调的直接偏好优化：一项实证研究

arXiv cs.CL ↗ · 2026-06-12 缓存

本文对直接偏好优化（DPO）在大型语言模型微调中的应用进行了实证研究，表明DPO简化了训练流程，在实现竞争性性能的同时，也解决了训练不稳定性问题。

0 人收藏 0 人点赞

#fine-tuning

用于生物医学声明验证的小型LLM：经济高效的微调、结构化数据集捷径与跨域泛化

arXiv cs.CL ↗ · 2026-06-12 缓存

使用QLoRA对小型LLM（3B-7B）进行生物医学声明验证的微调，以44.5倍更低的成本实现了比GPT-4o和GPT-5更高的F1分数，并揭示了SciFact中的一个结构伪影。该研究表明，在结构合理的数据上进行训练可实现稳健的跨域迁移。

0 人收藏 0 人点赞

fine-tuning

提交意见反馈