HuggingFace

来自 HuggingFace 的文章

CyberSecQwen-4B：为什么防御性网络安全需要小型、专用、本地可运行的模型

Hugging Face Blog ↗ · 20小时前缓存

CyberSecQwen-4B 是一个小型、专用的 4B 参数模型，针对防御性网络安全任务进行了微调，设计为在单个 GPU 上本地运行，解决了隐私、成本和离线部署需求。

1 人收藏 1 人点赞

EMO：通过预训练混合专家实现涌现模块化

Hugging Face Blog ↗ · 22小时前缓存

Allen AI 发布了 EMO 模型，这是一种混合专家模型，其中模块化结构从数据中自然涌现，使得仅使用 12.5% 的专家就能完成一项任务，同时保持接近完整模型的性能。

0 人收藏 0 人点赞

HiDream-ai/HiDream-O1-Image

Hugging Face Models Trending ↗ · 昨天缓存

HiDream-ai 已开源 HiDream-O1-Image（8B），这是一款基于像素级统一 Transformer（UiT）构建的统一图像生成基础模型，原生支持文本生成图像、图像编辑以及主体驱动的个性化生成，分辨率最高可达 2048×2048，无需外部 VAE 或独立文本编码器。该模型在 Artificial Analysis 文生图竞技场中首次亮相即位列第 8，是目前领先的开放权重文生图模型之一。

0 人收藏 0 人点赞

MedQA：在AMD ROCm上微调临床AI——无需CUDA

Hugging Face Blog ↗ · 昨天缓存

一个教程和项目，演示在AMD MI300X上使用ROCm对Qwen3-1.7B进行LoRA微调，用于临床问答，为医疗AI开发提供无需CUDA的替代方案。

0 人收藏 0 人点赞

EMO：用于涌现模块化的专家混合模型预训练

Hugging Face Daily Papers ↗ · 2天前缓存

EMO 是一种专家混合模型（Mixture-of-Experts），通过将相似领域的词元与共享专家分组实现模块化部署，在保持与标准 MoE 相当的性能的同时，支持显著的专家剪枝（保留 25% 的专家即可保留 99% 的性能）且不会导致性能下降。

0 人收藏 0 人点赞

PianoCoRe：整合与优化的大规模钢琴MIDI数据集

Hugging Face Daily Papers ↗ · 2天前缓存

PianoCoRe是一个大规模钢琴MIDI数据集，对开源音乐语料库进行统一和优化，包含5,625首作品、483位作曲家的250,046个演奏版本，提供音符级乐谱对齐，适用于音乐信息检索任务，并包含一个MIDI质量分类器和对齐优化流程。

0 人收藏 0 人点赞

GeoStack：一种用于VLMs中拟阿贝尔知识组合的框架

Hugging Face Daily Papers ↗ · 2天前缓存

GeoStack 引入了一种几何框架，用于在视觉语言模型中组合独立训练的领域专家，而不会出现灾难性遗忘，实现了常数时间推理，并将几何误差降低了10倍。

0 人收藏 0 人点赞

StraTA：通过策略轨迹抽象激励智能体强化学习

Hugging Face Daily Papers ↗ · 2天前缓存

StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法，通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制，在样本效率和最终性能上超越了前沿模型和先前 RL 基线。

0 人收藏 0 人点赞

当无基准存在时：验证无真实标签的LLM安全评分比较

Hugging Face Daily Papers ↗ · 2天前缓存

本文介绍了一个框架，用于在没有真实标签的情况下验证LLM安全评分比较，通过使用'工具有效性链'来建立部署证据。该方法通过一个名为SimpleAudit的本地优先工具在挪威安全包上进行了演示，并比较了Borealis和Gemma 3等模型。

0 人收藏 0 人点赞

Sparkle：通过解耦指导实现生动的指令引导视频背景替换

Hugging Face Daily Papers ↗ · 2天前缓存

本文介绍了Sparkle，这是一个用于指令引导视频背景替换的新数据集和基准，解决了该领域缺乏高质量训练数据的问题。它提出了一种具有解耦指导的可扩展流水线，以生成逼真的前景-背景交互。

0 人收藏 0 人点赞

粒度轴：语言模型中社会角色的微观到宏观隐式方向

Hugging Face Daily Papers ↗ · 2天前缓存

这篇研究论文探讨了大型语言模型如何将社会角色的细粒度性编码为一个结构化的潜在维度。研究证实，这一“细粒度轴”在 Qwen3 和 Llama-3 等不同架构中保持一致，并且可以通过激活 steering（activation steering）进行因果干预。

0 人收藏 0 人点赞

利用专家代理进行自动研究：开发高效且非平凡的训练配方

Hugging Face Daily Papers ↗ · 2天前缓存

本文介绍了一种自动研究框架，利用专家代理通过代码执行与反馈的经验闭环，迭代优化训练配方。该系统借助谱系反馈（lineage feedback），无需人工干预，即可在 Parameter Golf 和 NanoChat 等任务上自主提升性能。

0 人收藏 0 人点赞

MARBLE：用于扩散强化学习的多目标奖励平衡

Hugging Face Daily Papers ↗ · 2天前缓存

本文介绍了 MARBLE，这是一种针对扩散模型进行多奖励强化学习微调的梯度空间优化框架，无需手动权重调整即可实现策略梯度的和谐统一。

0 人收藏 0 人点赞

强化学习能否教会大型语言模型进行长程推理？表达力是关键

Hugging Face Daily Papers ↗ · 2天前缓存

本文介绍了 ScaleLogic 框架，该框架证明了强化学习的训练计算资源消耗遵循与大型语言模型推理深度相关的幂律分布。文章强调，逻辑表达力对于提升下游迁移能力和训练效率至关重要。

0 人收藏 0 人点赞

AI 协作者数学家：利用代理式 AI 加速数学家的研究

Hugging Face Daily Papers ↗ · 2天前缓存

本文介绍了 AI 协作者数学家（AI Co-Mathematician），这是一个利用代理式 AI 支持数学家进行构思和定理证明等开放式研究任务的工作台。早期测试表明，该系统在困难的问题解决基准测试中取得了最先进的结果，包括在 FrontierMath Tier 4 中获得了 48% 的得分。

0 人收藏 0 人点赞

Skill1：通过强化学习实现技能增强型智能体的统一进化

Hugging Face Daily Papers ↗ · 2天前缓存

Skill1 是一个统一框架，通过共享的任务结果目标，训练单一策略以协同进化技能选择、利用与蒸馏。在 ALFWorld 和 WebShop 上的实验表明，该框架在复杂任务环境中优于现有的基线方法。

0 人收藏 0 人点赞

SkillOS：面向自进化智能体的技能策展学习

Hugging Face Daily Papers ↗ · 2天前缓存

本文介绍了 SkillOS，这是一种强化学习框架，使大型语言模型智能体能够学习用于自进化的长期技能策展策略，从而提升任务性能与泛化能力。

0 人收藏 0 人点赞

连续潜在扩散语言模型

Hugging Face Daily Papers ↗ · 2天前缓存

Cola DLM 是一种分层潜在扩散语言模型，它通过文本到潜空间的映射以及条件解码，实现高效且非自回归的文本生成。

0 人收藏 0 人点赞

UniPool：一种用于混合专家模型的全球共享专家池

Hugging Face Daily Papers ↗ · 2天前缓存

UniPool 为混合专家（MoE）模型引入了一种共享专家池架构，在降低参数随深度增长的同时，相较于标准 MoE 基线提高了效率和性能。

0 人收藏 0 人点赞

先思考，再打分：解耦推理与打分的视频奖励建模

Hugging Face Daily Papers ↗ · 2天前缓存

本文介绍了 DeScore，这是一种通过解耦推理和打分过程来提高训练效率和泛化能力的视频奖励模型。它利用多模态大语言模型采用“先思考再打分”的范式，解决了现有判别式和生成式奖励模型的局限性。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈