HuggingFace

学习，快与慢：走向持续适应的LLMs

Hugging Face Daily Papers ↗ · 昨天缓存

一种针对LLMs的快慢学习框架，将固定的慢权重与优化的快上下文权重相结合，在持续学习场景中实现了高达3倍的样本效率提升，并减少了灾难性遗忘。

0 人收藏 0 人点赞

解决循环：用于语言和推理的吸引子模型

Hugging Face Daily Papers ↗ · 昨天缓存

本文介绍了吸引子模型，该模型利用定点求解和隐式微分进行高效的迭代优化，在降低计算成本的同时，实现了相较于传统Transformer更优的语言建模和推理性能。

0 人收藏 0 人点赞

EgoForce: 前臂引导的相机空间3D手部姿态——来自单目第一人称相机

Hugging Face Daily Papers ↗ · 昨天缓存

EgoForce是一个单目3D手部重建框架，使用统一网络，包含可微分前臂表示、手臂-手部变换器和射线空间求解器，能够在不同相机模型下恢复绝对手部姿态和位置，在多个第一人称基准测试中达到了最先进的精度。

0 人收藏 0 人点赞

UniPath: 统一多模态推理中理解与生成的适应性协调

Hugging Face Daily Papers ↗ · 昨天缓存

UniPath 提出了一种框架，用于统一多模态模型中理解与生成的适应性协调，利用协调路径多样性来提升相对于固定策略的性能。

0 人收藏 0 人点赞

ORBIT：通过原点调控合并保留GenRetrieval中的基础语言能力

Hugging Face Daily Papers ↗ · 昨天缓存

ORBIT提出了一种方法，通过跟踪参数距离并使用权重平均，缓解了为生成式检索微调的大语言模型中的灾难性遗忘，优于常见的持续学习基线。

0 人收藏 0 人点赞

因果语言建模的短暂介入可提升编码器的继续预训练效果

Hugging Face Daily Papers ↗ · 昨天缓存

本文表明，在编码器适配过程中从掩码语言建模（MLM）切换至因果语言建模（CLM），能够提升在生物医学文本上的下游任务性能。作者发布了 ModernBERT-bio 和 ModernCamemBERT-bio，作为当前最先进的生物医学编码器。

0 人收藏 0 人点赞

WildRelight：面向单图像重光照的实世界基准与物理引导自适应

Hugging Face Daily Papers ↗ · 昨天缓存

本文介绍了 WildRelight，这是一个针对单图像重光照的实世界基准数据集，旨在弥合合成场景与自然场景之间的差距。该研究提出了一种物理引导的自适应框架，利用扩散后验采样和测试时自适应来提升模型在实世界数据上的表现。

0 人收藏 0 人点赞

用于样本高效连续控制的无偏模型化表示

Hugging Face Daily Papers ↗ · 昨天缓存

本文介绍了 DR.Q 算法，该算法通过最大化互信息并采用淡出优先经验回放，改善了 Q-learning 的模型化表示，从而减少了连续控制任务中的偏差和过拟合。

0 人收藏 0 人点赞

Pion：一种通过正交等价变换保持谱的优化器

Hugging Face Daily Papers ↗ · 昨天缓存

本文介绍了 Pion，这是一种用于大语言模型训练的的新型谱保持优化器。它利用正交等价变换在权重更新过程中维持奇异值，从而提供与标准优化器相当的稳定性能。

0 人收藏 0 人点赞

多流大语言模型：通过并行思维、输入与输出流解锁语言模型的潜力

Hugging Face Daily Papers ↗ · 昨天缓存

本文提出了多流大语言模型（Multi-Stream LLMs），将基于顺序消息的指令微调转变为并行流处理。这种方法允许语言模型在多个并发数据流中同时进行读取、思考和生成，解决了自主智能体应用中的瓶颈问题。

0 人收藏 0 人点赞

AlphaGRPO：通过分解可验证奖励释放统一多模态模型中的自反式生成能力

Hugging Face Daily Papers ↗ · 昨天缓存

AlphaGRPO 是一个新框架，将组相对策略优化（Group Relative Policy Optimization）应用于统一多模态模型（UMMs），通过自反式精炼和分解可验证奖励来增强生成效果。

0 人收藏 0 人点赞

ToolCUA：迈向计算机使用代理的 GUI-工具路径编排优化

Hugging Face Daily Papers ↗ · 昨天缓存

ToolCUA 是一个全新的代理框架，通过分阶段训练和强化学习，优化计算机使用代理的 GUI-工具路径选择。它通过在 GUI 操作和高级工具调用之间进行有效交替，在 OSWorld-MCP 上达到了最先进的性能。

0 人收藏 0 人点赞

Lite3R：一种高效的模型无关前馈3D重建框架

Hugging Face Daily Papers ↗ · 昨天缓存

Lite3R 是一个模型无关框架，通过稀疏线性注意力和 FP8 感知量化，提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时，它将延迟和内存占用降低了高达 2.4 倍。

0 人收藏 0 人点赞

MEME：多实体与动态记忆评估

Hugging Face Daily Papers ↗ · 昨天缓存

MEME 基准测试在多实体和动态变化的条件下评估 AI 记忆系统，揭示了即便采用先进的检索技术，在依赖关系推理方面依然存在显著挑战。

0 人收藏 0 人点赞

L2P：释放像素生成的潜在潜力

Hugging Face Daily Papers ↗ · 昨天缓存

L2P 论文提出了一种潜在空间到像素空间（Latent-to-Pixel）的迁移范式，该范式利用预训练的潜在扩散模型（LDM），以极低的训练开销构建高效的像素空间模型，并实现 4K 分辨率生成。

0 人收藏 0 人点赞

世界行动模型：具身智能的下一个前沿

Hugging Face Daily Papers ↗ · 昨天缓存

本综述论文介绍了世界行动模型（World Action Models，WAMs），这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系，分析了数据生态系统，并概述了这一新兴范式的评估协议。

0 人收藏 0 人点赞

通过失败轨迹进行基于策略的自我进化以实现智能体安全对齐

Hugging Face Daily Papers ↗ · 昨天缓存

本文提出了 FATE，这是一种基于策略（on-policy）的框架，它利用失败轨迹通过自我进化和感知帕累托前沿的优化来增强使用工具的 LLM 智能体的安全性和性能。

0 人收藏 0 人点赞

异步智能体强化学习中丢失旧 logits：非策略修正中的语义不匹配及修复方法

Hugging Face Daily Papers ↗ · 昨天缓存

本文探讨了大型语言模型（LLM）异步强化学习中的旧 logits 缺失问题，提出了精确与近似的修正方法，以提升训练稳定性和性能。

0 人收藏 0 人点赞

MoCam：通过结构化去噪动态实现统一的新视角合成

Hugging Face Daily Papers ↗ · 昨天缓存

MoCam 是一篇研究论文，介绍了一种基于扩散的统一新视角合成框架，该框架通过动态协调几何和外观先验，提高了对几何误差的鲁棒性。

0 人收藏 0 人点赞

AutoLLMResearch：通过从低成本学习来优化高成本，训练研究智能体以自动化大型语言模型实验配置

Hugging Face Daily Papers ↗ · 昨天缓存

本文介绍了 AutoLLMResearch，这是一个智能体框架，旨在通过在低保真环境中学习并外推至高成本设置，实现昂贵的大型语言模型（LLM）实验配置的自动化。其目标是减少可扩展 LLM 研究中的计算浪费以及对专家直觉的依赖。

0 人收藏 0 人点赞

HuggingFace

提交意见反馈