HuggingFace

文本到图像模型是归纳主义火鸡吗？一个用于因果推理的反事实基准

Hugging Face Daily Papers ↗ · 3天前缓存

本文介绍了CF-World，一个用于评估文本到图像模型是否依赖因果推理或仅仅是模式匹配的反事实基准。实验表明，所有模型在反事实设置下表现急剧下降，表明它们的理解仅限于视觉-文本紧密耦合的模式，而非真正的因果推理。

0 人收藏 0 人点赞

基于多目标强化学习的LLM预训练整体数据调度器

Hugging Face Daily Papers ↗ · 3天前缓存

介绍了一种基于强化学习的整体数据调度器（HDS），该框架利用多目标奖励函数在LLM预训练过程中动态调整数据混合策略，使达到目标困惑度所需的迭代次数减少44%，并在MMLU上提升7.2%。

0 人收藏 0 人点赞

ReMMD：面向多模态虚假信息检测的真实多语言多图像智能验证框架

Hugging Face Daily Papers ↗ · 3天前缓存

ReMMD 提出了一种面向多模态虚假信息检测的真实多语言多图像智能验证框架，包含一个包含 500 个样本和 2,756 张图像的基准数据集 ReMMDBench，以及一个以更低成本实现更优真实性检测性能的智能体 ReMMD-Agent。

0 人收藏 0 人点赞

DREAM：通过自回归建模实现密集检索嵌入

Hugging Face Daily Papers ↗ · 3天前缓存

DREAM通过利用自回归语言模型的注意力来监督查询-文档相似度，从而训练密集检索嵌入，无需标注数据。在不同模型规模下，它在BEIR和RTEB基准测试上始终优于基线。

0 人收藏 0 人点赞

NatureBench：编码代理能否达到《自然》系列论文已发表的最优水平？

Hugging Face Daily Papers ↗ · 3天前缓存

NatureBench是一个跨学科基准测试，包含来自《自然》出版物的90个科学任务，旨在评估AI编码代理实现真正发现的能力。当前代理主要通过方法转化而非科学创新取得成功。

0 人收藏 0 人点赞

FlowR2A：学习奖励到动作分布的多模态驾驶规划

Hugging Face Daily Papers ↗ · 3天前缓存

FlowR2A提出了一种新颖的方法，通过流匹配解码器将密集奖励监督与动态提议生成相结合，用于多模态驾驶规划，在NAVSIM基准测试上取得了最先进的结果。

0 人收藏 0 人点赞

逃离自我确认陷阱：面向智能体经验学习的执行-提炼-验证范式

Hugging Face Daily Papers ↗ · 3天前缓存

本文提出EDV框架，在执行-提炼-验证阶段使用多个异构智能体为LLM智能体构建可靠经验，防止自我确认错误，并提升在长周期基准测试上的性能。

0 人收藏 0 人点赞

在 Transformers.js 中尝试提议的跨源存储 API

Hugging Face Blog ↗ · 3天前缓存

这篇客座文章探讨了提议的跨源存储API，用于改进Transformers.js中AI模型资源的缓存，从而实现跨源的高效复用，同时保持浏览器内推理的隐私和完整性。

0 人收藏 0 人点赞

每周使用AI、开源工具并辅以人工审核发布huggingface_hub

Hugging Face Blog ↗ · 3天前缓存

Hugging Face 描述了如何利用AI、开源工具和人工监督，为其huggingface_hub库构建每周发布流水线，从而实现更快、更可靠的版本发布。

0 人收藏 0 人点赞

Chunjiang-Intelligence/DeepSeek-v4-Fable

Hugging Face Models Trending ↗ · 3天前缓存

DeepSeek-V4-Fable 是建立在 DeepSeek-V4-Flash 上的 Claude-5-Fable 的蒸馏变体，专为自主进攻性安全研究、CTF 问题解决和受控环境利用规划而设计，具有严格的授权要求。

0 人收藏 0 人点赞

Qwen/Qwen-AgentWorld-35B-A3B

Hugging Face Models Trending ↗ · 3天前缓存

Qwen 发布 Qwen-AgentWorld-35B-A3B，这是一个原生语言世界模型，能够通过长链思维推理模拟七个领域的智能体环境。该模型采用三阶段流水线训练，支持 MCP、搜索、终端、SWE、Android、Web 和操作系统交互。

0 人收藏 0 人点赞

HauhauCS/Gemma4-12B-QAT-Uncensored-HauhauCS-Balanced

Hugging Face Models Trending ↗ · 3天前缓存

无审查版本的Gemma4-12B发布，采用了量化感知训练（QAT）和多令牌预测头，通过推测解码实现约60%的生成速度提升。该模型在保持质量的同时移除了拒绝回答，现已可在Hugging Face上获取。

0 人收藏 0 人点赞

Hugging Face 上的 PP-OCRv6：支持 50 种语言、参数规模从 1.5M 到 34.5M 的 OCR 模型

Hugging Face Blog ↗ · 3天前缓存

PP-OCRv6 是 PaddleOCR 通用 OCR 模型系列的最新版本，提供从 1.5M 到 34.5M 参数的三个档次，支持 50 种语言，并在准确率上较之前版本有显著提升。

0 人收藏 0 人点赞

计划不持久：为何上下文管理对LLM智能体至关重要

Hugging Face Daily Papers ↗ · 4天前缓存

本文研究了LLM智能体在长时间交互过程中如何因计划信息被从上下文中驱逐而丢失。通过重放配对和压缩压力测试，作者展示了标准智能体不会将计划作为持久状态携带，并提出了衡量计划信号衰减的诊断方法。

0 人收藏 0 人点赞

ReNIO：为LLM在线策略蒸馏重新加权负轨迹重要性

Hugging Face Daily Papers ↗ · 4天前缓存

ReNIO通过基于token级概率比重新加权负轨迹来增强LLM的在线策略蒸馏，提升了数学和代码生成任务中的推理性能。

0 人收藏 0 人点赞

VeriEvol: 通过可验证的Evol-Instruct扩展多模态数学推理

Hugging Face Daily Papers ↗ · 4天前缓存

VeriEvol是一个新颖的框架，用于在视觉数学推理中扩展强化学习，通过一个双轴方法来确保可靠的奖励标签，该双轴方法将提示难度与答案可靠性分离，使用进化算子和假设检验验证。它在五个基准的视觉数学测试集上取得了显著的准确率提升。

0 人收藏 0 人点赞

智能体AI的搭便车指南：从基础到系统

Hugging Face Daily Papers ↗ · 4天前缓存

一本全面的实践者指南，涵盖构建自主AI系统的整个技术栈，从基础Transformer架构到多智能体协调和生产部署等高级智能体主题。

0 人收藏 0 人点赞

ChartWalker：跨图表RAG任务基准测试

Hugging Face Daily Papers ↗ · 4天前缓存

ChartWalker 提出了一种新颖的跨图表检索增强生成（RAG）框架，采用分层知识图谱构建和结构感知采样。它发布了一个具有挑战性的基准测试（ChartWalker-Bench）和一个智能体基线（ChartWalker-Agent），揭示了当前RAG范式中的显著性能差距。

0 人收藏 0 人点赞

Semantic Browsing: 图像生成中的可控多样性

Hugging Face Daily Papers ↗ · 4天前缓存

Semantic Browsing 引入了一种方法，通过使用一个 Vision Language Model 和代理工作流，在文本到图像生成中实现基于语义决策的结构化、可解释的可控多样性。

0 人收藏 0 人点赞

FedOT：面向联邦潜在扩散模型的水印所有权验证和泄露溯源

Hugging Face Daily Papers ↗ · 4天前缓存

FedOT提出了一种分块水印和潜在向量变换框架，用于联邦潜在扩散模型的所有权验证和泄露溯源，并防止水印移除攻击。

0 人收藏 0 人点赞

HuggingFace

提交意见反馈