来自 HuggingFace 的文章
CyberSecQwen-4B 是一个小型、专用的 4B 参数模型,针对防御性网络安全任务进行了微调,设计为在单个 GPU 上本地运行,解决了隐私、成本和离线部署需求。
Allen AI 发布了 EMO 模型,这是一种混合专家模型,其中模块化结构从数据中自然涌现,使得仅使用 12.5% 的专家就能完成一项任务,同时保持接近完整模型的性能。
HiDream-ai 已开源 HiDream-O1-Image(8B),这是一款基于像素级统一 Transformer(UiT)构建的统一图像生成基础模型,原生支持文本生成图像、图像编辑以及主体驱动的个性化生成,分辨率最高可达 2048×2048,无需外部 VAE 或独立文本编码器。该模型在 Artificial Analysis 文生图竞技场中首次亮相即位列第 8,是目前领先的开放权重文生图模型之一。
一个教程和项目,演示在AMD MI300X上使用ROCm对Qwen3-1.7B进行LoRA微调,用于临床问答,为医疗AI开发提供无需CUDA的替代方案。
EMO 是一种专家混合模型(Mixture-of-Experts),通过将相似领域的词元与共享专家分组实现模块化部署,在保持与标准 MoE 相当的性能的同时,支持显著的专家剪枝(保留 25% 的专家即可保留 99% 的性能)且不会导致性能下降。
PianoCoRe是一个大规模钢琴MIDI数据集,对开源音乐语料库进行统一和优化,包含5,625首作品、483位作曲家的250,046个演奏版本,提供音符级乐谱对齐,适用于音乐信息检索任务,并包含一个MIDI质量分类器和对齐优化流程。
GeoStack 引入了一种几何框架,用于在视觉语言模型中组合独立训练的领域专家,而不会出现灾难性遗忘,实现了常数时间推理,并将几何误差降低了10倍。
StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法,通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制,在样本效率和最终性能上超越了前沿模型和先前 RL 基线。
本文介绍了一个框架,用于在没有真实标签的情况下验证LLM安全评分比较,通过使用'工具有效性链'来建立部署证据。该方法通过一个名为SimpleAudit的本地优先工具在挪威安全包上进行了演示,并比较了Borealis和Gemma 3等模型。
本文介绍了Sparkle,这是一个用于指令引导视频背景替换的新数据集和基准,解决了该领域缺乏高质量训练数据的问题。它提出了一种具有解耦指导的可扩展流水线,以生成逼真的前景-背景交互。
这篇研究论文探讨了大型语言模型如何将社会角色的细粒度性编码为一个结构化的潜在维度。研究证实,这一“细粒度轴”在 Qwen3 和 Llama-3 等不同架构中保持一致,并且可以通过激活 steering(activation steering)进行因果干预。
本文介绍了一种自动研究框架,利用专家代理通过代码执行与反馈的经验闭环,迭代优化训练配方。该系统借助谱系反馈(lineage feedback),无需人工干预,即可在 Parameter Golf 和 NanoChat 等任务上自主提升性能。
本文介绍了 MARBLE,这是一种针对扩散模型进行多奖励强化学习微调的梯度空间优化框架,无需手动权重调整即可实现策略梯度的和谐统一。
本文介绍了 ScaleLogic 框架,该框架证明了强化学习的训练计算资源消耗遵循与大型语言模型推理深度相关的幂律分布。文章强调,逻辑表达力对于提升下游迁移能力和训练效率至关重要。
本文介绍了 AI 协作者数学家(AI Co-Mathematician),这是一个利用代理式 AI 支持数学家进行构思和定理证明等开放式研究任务的工作台。早期测试表明,该系统在困难的问题解决基准测试中取得了最先进的结果,包括在 FrontierMath Tier 4 中获得了 48% 的得分。
Skill1 是一个统一框架,通过共享的任务结果目标,训练单一策略以协同进化技能选择、利用与蒸馏。在 ALFWorld 和 WebShop 上的实验表明,该框架在复杂任务环境中优于现有的基线方法。
本文介绍了 SkillOS,这是一种强化学习框架,使大型语言模型智能体能够学习用于自进化的长期技能策展策略,从而提升任务性能与泛化能力。
UniPool 为混合专家(MoE)模型引入了一种共享专家池架构,在降低参数随深度增长的同时,相较于标准 MoE 基线提高了效率和性能。
本文介绍了 DeScore,这是一种通过解耦推理和打分过程来提高训练效率和泛化能力的视频奖励模型。它利用多模态大语言模型采用“先思考再打分”的范式,解决了现有判别式和生成式奖励模型的局限性。