来自 HuggingFace 的文章
本文介绍了CF-World,一个用于评估文本到图像模型是否依赖因果推理或仅仅是模式匹配的反事实基准。实验表明,所有模型在反事实设置下表现急剧下降,表明它们的理解仅限于视觉-文本紧密耦合的模式,而非真正的因果推理。
介绍了一种基于强化学习的整体数据调度器(HDS),该框架利用多目标奖励函数在LLM预训练过程中动态调整数据混合策略,使达到目标困惑度所需的迭代次数减少44%,并在MMLU上提升7.2%。
ReMMD 提出了一种面向多模态虚假信息检测的真实多语言多图像智能验证框架,包含一个包含 500 个样本和 2,756 张图像的基准数据集 ReMMDBench,以及一个以更低成本实现更优真实性检测性能的智能体 ReMMD-Agent。
DREAM通过利用自回归语言模型的注意力来监督查询-文档相似度,从而训练密集检索嵌入,无需标注数据。在不同模型规模下,它在BEIR和RTEB基准测试上始终优于基线。
NatureBench是一个跨学科基准测试,包含来自《自然》出版物的90个科学任务,旨在评估AI编码代理实现真正发现的能力。当前代理主要通过方法转化而非科学创新取得成功。
FlowR2A提出了一种新颖的方法,通过流匹配解码器将密集奖励监督与动态提议生成相结合,用于多模态驾驶规划,在NAVSIM基准测试上取得了最先进的结果。
本文提出EDV框架,在执行-提炼-验证阶段使用多个异构智能体为LLM智能体构建可靠经验,防止自我确认错误,并提升在长周期基准测试上的性能。
这篇客座文章探讨了提议的跨源存储API,用于改进Transformers.js中AI模型资源的缓存,从而实现跨源的高效复用,同时保持浏览器内推理的隐私和完整性。
Hugging Face 描述了如何利用AI、开源工具和人工监督,为其huggingface_hub库构建每周发布流水线,从而实现更快、更可靠的版本发布。
DeepSeek-V4-Fable 是建立在 DeepSeek-V4-Flash 上的 Claude-5-Fable 的蒸馏变体,专为自主进攻性安全研究、CTF 问题解决和受控环境利用规划而设计,具有严格的授权要求。
Qwen 发布 Qwen-AgentWorld-35B-A3B,这是一个原生语言世界模型,能够通过长链思维推理模拟七个领域的智能体环境。该模型采用三阶段流水线训练,支持 MCP、搜索、终端、SWE、Android、Web 和操作系统交互。
无审查版本的Gemma4-12B发布,采用了量化感知训练(QAT)和多令牌预测头,通过推测解码实现约60%的生成速度提升。该模型在保持质量的同时移除了拒绝回答,现已可在Hugging Face上获取。
PP-OCRv6 是 PaddleOCR 通用 OCR 模型系列的最新版本,提供从 1.5M 到 34.5M 参数的三个档次,支持 50 种语言,并在准确率上较之前版本有显著提升。
本文研究了LLM智能体在长时间交互过程中如何因计划信息被从上下文中驱逐而丢失。通过重放配对和压缩压力测试,作者展示了标准智能体不会将计划作为持久状态携带,并提出了衡量计划信号衰减的诊断方法。
VeriEvol是一个新颖的框架,用于在视觉数学推理中扩展强化学习,通过一个双轴方法来确保可靠的奖励标签,该双轴方法将提示难度与答案可靠性分离,使用进化算子和假设检验验证。它在五个基准的视觉数学测试集上取得了显著的准确率提升。
ChartWalker 提出了一种新颖的跨图表检索增强生成(RAG)框架,采用分层知识图谱构建和结构感知采样。它发布了一个具有挑战性的基准测试(ChartWalker-Bench)和一个智能体基线(ChartWalker-Agent),揭示了当前RAG范式中的显著性能差距。
Semantic Browsing 引入了一种方法,通过使用一个 Vision Language Model 和代理工作流,在文本到图像生成中实现基于语义决策的结构化、可解释的可控多样性。