标签
GLM 5.2 是一款与顶级闭源模型相媲美的开放权重 AI 模型,现已发布,并在两台 Mac Studio(M3 Ultra)上通过 MLX 运行。
这篇技术指南解释了为什么组织应该基于开源AI模型构建自己的学习循环,而不是从前沿实验室租用智能,并引用了金融、机器人和生物技术领域的案例研究。
一篇批判性分析警告:许多Qwen/Claude蒸馏模型使用的训练样本太少(如4K),无法转移实际能力,与DeepSeek-R1等使用约70万样本的官方蒸馏相比,常常反而降低质量而非提升。
新的Q3量化版本已添加到gemma-4-12B-coder-fable5-composer2.5 GGUF模型中,通过重要性矩阵量化版本,使得这一专注于编码的微调模型能够在大约6GB显存的GPU上运行。
EveryonesLLM 是一个开源教程,提供29个章节的Colab笔记本,手把手教用户从零在Google Colab上搭建完整的大语言模型,包括预训练和指令微调,并支持中文。
本文首次系统研究了视觉-语言-动作(VLA)模型中的多语言指令跟随问题,揭示了当模型基于英语训练时,在其他语言上的性能显著下降。作者提出了多语言主成分对齐(MPCA)方法来缩小多语言性能差距。
本文介绍了SHARD,一种自我重构蒸馏方法,它重写敏感提示以展现良性意图,并在安全、有用的回答上微调模型,从而在保持安全性的同时提高有用性。
本文提出CoTE-SQL,一种面向text-to-SQL的自增强微调框架,它整合了自推理轨迹、结构化思维链提示和执行反馈,在Spider和Bird基准上取得了最先进的性能。
ChatPlanner 是一种新颖的框架,它利用经过微调的大语言模型 (LLMs) 结合检索增强生成 (RAG) 技术,从自然语言查询中解释用户偏好,并将其集成到公共交通路线规划算法中,性能优于现有的路线规划器。
CogGuard是一种用于边缘智能服务的主动预警框架,它将基于LLM的离线画像构建与基于SLM的在线评分预测解耦,在教育和操作数据集上实现了更低的预测误差,同时将构建时间减少48%,微调时间减少19%。
提出 ac-gpt,一种对因果Transformer的简单修改,使其能够在单个前向传递中评估和采样任意条件(过去、未来、混合),同时保持从左到右的顺序和下一个词预测,从而允许现有LLM微调用于任意条件建模。
本文介绍了AdaNAGED,一种结合零阶优化、无参数自适应和非欧几里得更新几何的方法,用于大型语言模型的内存高效微调,具有理论收敛保证,并在OPT-1.3B模型上进行了验证。
LangChain 和 Fireworks 微调了 Qwen 模型,用于检测代理轨迹中的“感知错误”,实现了 100 倍成本降低,同时保持前沿性能。该评判器模型旨在用错误信号丰富轨迹,以监控代理系统。
强调了验证器对于基于 LLM 的智能体的重要性,指出超出分布范围的任务会导致失败,并建议调整自定义验证器。
一个名为OpenMythos的开源LLM通过SFT和RLVR进行训练,专攻网络安全任务,相关数据集已在HuggingFace上提供。该模型旨在减少幻觉并提高安全相关查询的精确度。
呼吁在AI研究中采用开源训练框架,介绍FeynRL——一个模块化且显式的框架,用于LLM、VLM和智能体的强化学习后训练,旨在让训练过程可见且可修改。
该帖子概述了一个未来智能体配方,通过微调高效、专业化的开源模型,在LLM-as-a-judge任务上超越前沿性能,并将其应用于从追踪数据中提取信号以实现持续学习。LangChain Labs 和 FireworksAI 发布了展示这一方法的新工作。
LangChain Labs与Fireworks AI联合研究表明,通过微调开源Qwen模型,可以创建一个能够检测生产轨迹中“感知错误”的轨迹判断器,且该模型在以最高降低100倍成本的同时达到前沿性能。该模型在两个内部数据集上进行了评估,并显示出跨应用的通用性。
开发者 @cjzafir 宣布推出 Finetuner.dev,一个 CLI 工具,利用 Codex 5.5 等编排模型以及中国模型生成高质量、手工精制的数据集,用于微调小语言模型(1B-30B),声称成本降低 10 倍,质量提升 5 倍。