fine-tuning

#fine-tuning

@pcuenq：GLM 5.2 刚刚发布，现在已经在两台 Mac Studio（M3 Ultra）上通过 MLX 运行。这相当于……

X AI KOLs Timeline ↗ · 2026-06-16 缓存

GLM 5.2 是一款与顶级闭源模型相媲美的开放权重 AI 模型，现已发布，并在两台 Mac Studio（M3 Ultra）上通过 MLX 运行。

0 人收藏 0 人点赞

#fine-tuning

@GokuMohandas: https://x.com/GokuMohandas/status/2066853420326384055

X AI KOLs Following ↗ · 2026-06-16 缓存

这篇技术指南解释了为什么组织应该基于开源AI模型构建自己的学习循环，而不是从前沿实验室租用智能，并引用了金融、机器人和生物技术领域的案例研究。

0 人收藏 0 人点赞

#fine-tuning

警惕Qwen/Claude蒸馏模型——它们往往不如基础模型

Reddit r/LocalLLaMA ↗ · 2026-06-16

一篇批判性分析警告：许多Qwen/Claude蒸馏模型使用的训练样本太少（如4K），无法转移实际能力，与DeepSeek-R1等使用约70万样本的官方蒸馏相比，常常反而降低质量而非提升。

0 人收藏 0 人点赞

#fine-tuning

@Tono_Ken3: 为gemma-4-12B-coder-fable5-composer2.5-GGUF添加了Q3系列。你可能可以在编码中尝试Fable5（作为教师角色）的精髓……

X AI KOLs Timeline ↗ · 2026-06-16 缓存

新的Q3量化版本已添加到gemma-4-12B-coder-fable5-composer2.5 GGUF模型中，通过重要性矩阵量化版本，使得这一专注于编码的微调模型能够在大约6GB显存的GPU上运行。

0 人收藏 0 人点赞

#fine-tuning

@GitHub_Daily: 想搞懂大语言模型底层原理，大部分资料只介绍理论知识，或者只给源码，看完还是一头雾水。偶然看到 EveryonesLLM 这个开源教程，手把手带我们在 Google Colab 上从零搭建一个完整的大语言模型，全程动手写代码。整套教程分…

X AI KOLs Timeline ↗ · 2026-06-16 缓存

EveryonesLLM 是一个开源教程，提供29个章节的Colab笔记本，手把手教用户从零在Google Colab上搭建完整的大语言模型，包括预训练和指令微调，并支持中文。

0 人收藏 0 人点赞

#fine-tuning

超越英语：揭示视觉-语言-动作模型中的多语言差距

arXiv cs.CL ↗ · 2026-06-16 缓存

本文首次系统研究了视觉-语言-动作（VLA）模型中的多语言指令跟随问题，揭示了当模型基于英语训练时，在其他语言上的性能显著下降。作者提出了多语言主成分对齐（MPCA）方法来缩小多语言性能差距。

0 人收藏 0 人点赞

#fine-tuning

SHARD：通过自我重构蒸馏实现安全且有益的模型对齐

arXiv cs.CL ↗ · 2026-06-16 缓存

本文介绍了SHARD，一种自我重构蒸馏方法，它重写敏感提示以展现良性意图，并在安全、有用的回答上微调模型，从而在保持安全性的同时提高有用性。

0 人收藏 0 人点赞

#fine-tuning

面向FHIR问卷术语绑定的迁移学习

arXiv cs.CL ↗ · 2026-06-16 缓存

本文探讨了使用检索方法将FHIR问卷项目映射到LOINC代码的迁移学习，在小型评估集上比较了六种方法。

0 人收藏 0 人点赞

#fine-tuning

通过自增强微调在Text-to-SQL中整合推理与泛化

arXiv cs.AI ↗ · 2026-06-16 缓存

本文提出CoTE-SQL，一种面向text-to-SQL的自增强微调框架，它整合了自推理轨迹、结构化思维链提示和执行反馈，在Spider和Bird基准上取得了最先进的性能。

0 人收藏 0 人点赞

#fine-tuning

ChatPlanner：面向个性化公共交通路线规划的大语言模型框架

arXiv cs.AI ↗ · 2026-06-16 缓存

ChatPlanner 是一种新颖的框架，它利用经过微调的大语言模型 (LLMs) 结合检索增强生成 (RAG) 技术，从自然语言查询中解释用户偏好，并将其集成到公共交通路线规划算法中，性能优于现有的路线规划器。

0 人收藏 0 人点赞

#fine-tuning

CogGuard：边缘智能服务中用于主动预警的认知与操作画像构建

arXiv cs.AI ↗ · 2026-06-16 缓存

CogGuard是一种用于边缘智能服务的主动预警框架，它将基于LLM的离线画像构建与基于SLM的在线评分预测解耦，在教育和操作数据集上实现了更低的预测误差，同时将构建时间减少48%，微调时间减少19%。

0 人收藏 0 人点赞

#fine-tuning

简化自然语言中任意条件建模

arXiv cs.CL ↗ · 2026-06-16 缓存

提出 ac-gpt，一种对因果Transformer的简单修改，使其能够在单个前向传递中评估和采样任意条件（过去、未来、混合），同时保持从左到右的顺序和下一个词预测，从而允许现有LLM微调用于任意条件建模。

0 人收藏 0 人点赞

#fine-tuning

基于LMO方法的零阶无参数优化：高效微调的新方法

arXiv cs.LG ↗ · 2026-06-16 缓存

本文介绍了AdaNAGED，一种结合零阶优化、无参数自适应和非欧几里得更新几何的方法，用于大型语言模型的内存高效微调，具有理论收敛保证，并在OPT-1.3B模型上进行了验证。

0 人收藏 0 人点赞

#fine-tuning

使用 Fireworks 构建成本降低 100 倍的轨迹评判器（7 分钟阅读）

TLDR AI ↗ · 2026-06-16 缓存

LangChain 和 Fireworks 微调了 Qwen 模型，用于检测代理轨迹中的“感知错误”，实现了 100 倍成本降低，同时保持前沿性能。该评判器模型旨在用错误信号丰富轨迹，以监控代理系统。

0 人收藏 0 人点赞

#fine-tuning

@omarsar0: 验证器至关重要。没有好的验证器，/goal 和 /loop 经常出问题。任何超出 LLM 分布范围的内容，……

X AI KOLs Following ↗ · 2026-06-15 缓存

强调了验证器对于基于 LLM 的智能体的重要性，指出超出分布范围的任务会导致失败，并建议调整自定义验证器。

0 人收藏 0 人点赞

#fine-tuning

我们在HuggingFace上训练了一个专注于网络安全的类似Mythos的开源权重LLM

Reddit r/LocalLLaMA ↗ · 2026-06-15

一个名为OpenMythos的开源LLM通过SFT和RLVR进行训练，专攻网络安全任务，相关数据集已在HuggingFace上提供。该模型旨在减少幻觉并提高安全相关查询的精确度。

0 人收藏 0 人点赞

#fine-tuning

开源权重不够：我们需要开源训练框架来推动研究和更好的算法 [P]

Reddit r/MachineLearning ↗ · 2026-06-15

呼吁在AI研究中采用开源训练框架，介绍FeynRL——一个模块化且显式的框架，用于LLM、VLM和智能体的强化学习后训练，旨在让训练过程可见且可修改。

0 人收藏 0 人点赞

#fine-tuning

@Vtrivedy10: 有一个非常令人兴奋的未来智能体配方，用于构建低成本到无需计量的智能，应用于提取信…

X AI KOLs Following ↗ · 2026-06-15 缓存

该帖子概述了一个未来智能体配方，通过微调高效、专业化的开源模型，在LLM-as-a-judge任务上超越前沿性能，并将其应用于从追踪数据中提取信号以实现持续学习。LangChain Labs 和 FireworksAI 发布了展示这一方法的新工作。

0 人收藏 0 人点赞

#fine-tuning

@Vtrivedy10: https://x.com/Vtrivedy10/status/2066571435871551655

X AI KOLs Timeline ↗ · 2026-06-15 缓存

LangChain Labs与Fireworks AI联合研究表明，通过微调开源Qwen模型，可以创建一个能够检测生产轨迹中“感知错误”的轨迹判断器，且该模型在以最高降低100倍成本的同时达到前沿性能。该模型在两个内部数据集上进行了评估，并显示出跨应用的通用性。

0 人收藏 0 人点赞

#fine-tuning

@cjzafir：在 Claude Fable 5 被禁之前，我把我所有的微调研究和实验变成了一个产品：http://Finetuner…

X AI KOLs Timeline ↗ · 2026-06-15 缓存

开发者 @cjzafir 宣布推出 Finetuner.dev，一个 CLI 工具，利用 Codex 5.5 等编排模型以及中国模型生成高质量、手工精制的数据集，用于微调小语言模型（1B-30B），声称成本降低 10 倍，质量提升 5 倍。

0 人收藏 0 人点赞

fine-tuning

提交意见反馈