fine-tuning

标签

Cards List
#fine-tuning

@pcuenq:GLM 5.2 刚刚发布,现在已经在两台 Mac Studio(M3 Ultra)上通过 MLX 运行。这相当于……

X AI KOLs Timeline · 2026-06-16 缓存

GLM 5.2 是一款与顶级闭源模型相媲美的开放权重 AI 模型,现已发布,并在两台 Mac Studio(M3 Ultra)上通过 MLX 运行。

0 人收藏 0 人点赞
#fine-tuning

@GokuMohandas: https://x.com/GokuMohandas/status/2066853420326384055

X AI KOLs Following · 2026-06-16 缓存

这篇技术指南解释了为什么组织应该基于开源AI模型构建自己的学习循环,而不是从前沿实验室租用智能,并引用了金融、机器人和生物技术领域的案例研究。

0 人收藏 0 人点赞
#fine-tuning

警惕Qwen/Claude蒸馏模型——它们往往不如基础模型

Reddit r/LocalLLaMA · 2026-06-16

一篇批判性分析警告:许多Qwen/Claude蒸馏模型使用的训练样本太少(如4K),无法转移实际能力,与DeepSeek-R1等使用约70万样本的官方蒸馏相比,常常反而降低质量而非提升。

0 人收藏 0 人点赞
#fine-tuning

@Tono_Ken3: 为gemma-4-12B-coder-fable5-composer2.5-GGUF添加了Q3系列。你可能可以在编码中尝试Fable5(作为教师角色)的精髓……

X AI KOLs Timeline · 2026-06-16 缓存

新的Q3量化版本已添加到gemma-4-12B-coder-fable5-composer2.5 GGUF模型中,通过重要性矩阵量化版本,使得这一专注于编码的微调模型能够在大约6GB显存的GPU上运行。

0 人收藏 0 人点赞
#fine-tuning

@GitHub_Daily: 想搞懂大语言模型底层原理,大部分资料只介绍理论知识,或者只给源码,看完还是一头雾水。 偶然看到 EveryonesLLM 这个开源教程,手把手带我们在 Google Colab 上从零搭建一个完整的大语言模型,全程动手写代码。 整套教程分…

X AI KOLs Timeline · 2026-06-16 缓存

EveryonesLLM 是一个开源教程,提供29个章节的Colab笔记本,手把手教用户从零在Google Colab上搭建完整的大语言模型,包括预训练和指令微调,并支持中文。

0 人收藏 0 人点赞
#fine-tuning

超越英语:揭示视觉-语言-动作模型中的多语言差距

arXiv cs.CL · 2026-06-16 缓存

本文首次系统研究了视觉-语言-动作(VLA)模型中的多语言指令跟随问题,揭示了当模型基于英语训练时,在其他语言上的性能显著下降。作者提出了多语言主成分对齐(MPCA)方法来缩小多语言性能差距。

0 人收藏 0 人点赞
#fine-tuning

SHARD:通过自我重构蒸馏实现安全且有益的模型对齐

arXiv cs.CL · 2026-06-16 缓存

本文介绍了SHARD,一种自我重构蒸馏方法,它重写敏感提示以展现良性意图,并在安全、有用的回答上微调模型,从而在保持安全性的同时提高有用性。

0 人收藏 0 人点赞
#fine-tuning

面向FHIR问卷术语绑定的迁移学习

arXiv cs.CL · 2026-06-16 缓存

本文探讨了使用检索方法将FHIR问卷项目映射到LOINC代码的迁移学习,在小型评估集上比较了六种方法。

0 人收藏 0 人点赞
#fine-tuning

通过自增强微调在Text-to-SQL中整合推理与泛化

arXiv cs.AI · 2026-06-16 缓存

本文提出CoTE-SQL,一种面向text-to-SQL的自增强微调框架,它整合了自推理轨迹、结构化思维链提示和执行反馈,在Spider和Bird基准上取得了最先进的性能。

0 人收藏 0 人点赞
#fine-tuning

ChatPlanner:面向个性化公共交通路线规划的大语言模型框架

arXiv cs.AI · 2026-06-16 缓存

ChatPlanner 是一种新颖的框架,它利用经过微调的大语言模型 (LLMs) 结合检索增强生成 (RAG) 技术,从自然语言查询中解释用户偏好,并将其集成到公共交通路线规划算法中,性能优于现有的路线规划器。

0 人收藏 0 人点赞
#fine-tuning

CogGuard:边缘智能服务中用于主动预警的认知与操作画像构建

arXiv cs.AI · 2026-06-16 缓存

CogGuard是一种用于边缘智能服务的主动预警框架,它将基于LLM的离线画像构建与基于SLM的在线评分预测解耦,在教育和操作数据集上实现了更低的预测误差,同时将构建时间减少48%,微调时间减少19%。

0 人收藏 0 人点赞
#fine-tuning

简化自然语言中任意条件建模

arXiv cs.CL · 2026-06-16 缓存

提出 ac-gpt,一种对因果Transformer的简单修改,使其能够在单个前向传递中评估和采样任意条件(过去、未来、混合),同时保持从左到右的顺序和下一个词预测,从而允许现有LLM微调用于任意条件建模。

0 人收藏 0 人点赞
#fine-tuning

基于LMO方法的零阶无参数优化:高效微调的新方法

arXiv cs.LG · 2026-06-16 缓存

本文介绍了AdaNAGED,一种结合零阶优化、无参数自适应和非欧几里得更新几何的方法,用于大型语言模型的内存高效微调,具有理论收敛保证,并在OPT-1.3B模型上进行了验证。

0 人收藏 0 人点赞
#fine-tuning

使用 Fireworks 构建成本降低 100 倍的轨迹评判器(7 分钟阅读)

TLDR AI · 2026-06-16 缓存

LangChain 和 Fireworks 微调了 Qwen 模型,用于检测代理轨迹中的“感知错误”,实现了 100 倍成本降低,同时保持前沿性能。该评判器模型旨在用错误信号丰富轨迹,以监控代理系统。

0 人收藏 0 人点赞
#fine-tuning

@omarsar0: 验证器至关重要。没有好的验证器,/goal 和 /loop 经常出问题。任何超出 LLM 分布范围的内容,……

X AI KOLs Following · 2026-06-15 缓存

强调了验证器对于基于 LLM 的智能体的重要性,指出超出分布范围的任务会导致失败,并建议调整自定义验证器。

0 人收藏 0 人点赞
#fine-tuning

我们在HuggingFace上训练了一个专注于网络安全的类似Mythos的开源权重LLM

Reddit r/LocalLLaMA · 2026-06-15

一个名为OpenMythos的开源LLM通过SFT和RLVR进行训练,专攻网络安全任务,相关数据集已在HuggingFace上提供。该模型旨在减少幻觉并提高安全相关查询的精确度。

0 人收藏 0 人点赞
#fine-tuning

开源权重不够:我们需要开源训练框架来推动研究和更好的算法 [P]

Reddit r/MachineLearning · 2026-06-15

呼吁在AI研究中采用开源训练框架,介绍FeynRL——一个模块化且显式的框架,用于LLM、VLM和智能体的强化学习后训练,旨在让训练过程可见且可修改。

0 人收藏 0 人点赞
#fine-tuning

@Vtrivedy10: 有一个非常令人兴奋的未来智能体配方,用于构建低成本到无需计量的智能,应用于提取信…

X AI KOLs Following · 2026-06-15 缓存

该帖子概述了一个未来智能体配方,通过微调高效、专业化的开源模型,在LLM-as-a-judge任务上超越前沿性能,并将其应用于从追踪数据中提取信号以实现持续学习。LangChain Labs 和 FireworksAI 发布了展示这一方法的新工作。

0 人收藏 0 人点赞
#fine-tuning

@Vtrivedy10: https://x.com/Vtrivedy10/status/2066571435871551655

X AI KOLs Timeline · 2026-06-15 缓存

LangChain Labs与Fireworks AI联合研究表明,通过微调开源Qwen模型,可以创建一个能够检测生产轨迹中“感知错误”的轨迹判断器,且该模型在以最高降低100倍成本的同时达到前沿性能。该模型在两个内部数据集上进行了评估,并显示出跨应用的通用性。

0 人收藏 0 人点赞
#fine-tuning

@cjzafir:在 Claude Fable 5 被禁之前,我把我所有的微调研究和实验变成了一个产品:http://Finetuner…

X AI KOLs Timeline · 2026-06-15 缓存

开发者 @cjzafir 宣布推出 Finetuner.dev,一个 CLI 工具,利用 Codex 5.5 等编排模型以及中国模型生成高质量、手工精制的数据集,用于微调小语言模型(1B-30B),声称成本降低 10 倍,质量提升 5 倍。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈