来自 HuggingFace 的文章
ChartWalker 提出了一种新颖的跨图表检索增强生成(RAG)框架,采用分层知识图谱构建和结构感知采样。它发布了一个具有挑战性的基准测试(ChartWalker-Bench)和一个智能体基线(ChartWalker-Agent),揭示了当前RAG范式中的显著性能差距。
Semantic Browsing 引入了一种方法,通过使用一个 Vision Language Model 和代理工作流,在文本到图像生成中实现基于语义决策的结构化、可解释的可控多样性。
AOHP是一个基于Android的开源操作系统框架,将AI智能体视为一等公民,通过个性化服务组合和安全信息流等面向智能体的机制,将任务完成率提高21.12%,同时将token成本降低51.55%。
ShotcreteDepth是一个包含来自施工环境的立体RGB和LiDAR数据的双模态数据集,旨在支持在挑战性条件下进行深度感知研究。该数据集包含11,252个样本,其中220个已标注,并附带一个轻量级标注工具。
TROPT是一个开源框架,统一了离散文本触发优化,标准化了在LLM越狱和模型可解释性等领域中的开发与执行。它包含超过15种优化器和30个配方,降低了采用和推进的门槛。
本文介绍了AgentCIBench,一个用于评估计算机使用代理隐私风险的基准测试,发现15个前沿代理中有11个在超过50%的场景中泄露信息。
Vera 是一种分层扩散模型,专为视频编辑设计,通过生成编辑层和 Alpha 遮罩来保留源内容,并采用混合 Transformer(Mixture-of-Transformers)架构。
本文引入表征承诺,这是一种跨运行隐藏状态收敛,用于诊断LLM代理何时过早锁定了轨迹。研究表明,承诺预测轨迹一致性而非正确性,并提出了监控方法,用于检测代理何时自信地稳定下来,而不是假设一致性等于可信度。
Arbor通过使用约束网格(壳体、避让、接触区域)对潜在生成进行条件化,为3D资产生成引入了显式几何控制,在不牺牲物体质量的前提下提升了空间约束的遵从性。
HAKARI-Bench是一个轻量级基准测试,用于在多种配置和语言下比较检索方法,支持高效的模型选择和性能分析。它能在保持高相关性的同时,比运行完整基准测试(如MTEB)更快地复现其结果。
MeshFlow 引入了一种等变最优传输流匹配模型,用于直接生成三角形网格,在达到最先进质量的同时,相比自回归方法提供了约18倍的推理加速。
Foresight 是一个用于长时域机器人操作的故障检测框架,它利用基于动作条件的世界模型潜在表示和功能性保形预测来监控轨迹,仅使用最终任务标签进行训练。在仿真和真实机器人任务中均展示了最先进的性能。
这篇博文介绍了在代理框架中使用Gemma、Qwen等本地开源权重模型,自动对OpenClaw仓库中的问题和拉取请求进行分类,从而实现实时通知,无需依赖昂贵的封闭API模型。
KaLM-Reranker-V1 是一种快速重排序模型,通过采用编码器-解码器架构,结合 Matryoshka 嵌入池化和交叉注意力机制,将查询与段落计算解耦,在 BEIR 上实现了最先进的重排序性能,并在多语言基准测试中取得了具有竞争力的结果。
EnterpriseClawBench 提出了一个基于真实工作场景的企业智能体基准,包含 852 个可复现任务以及超越单一性能分数的综合评估指标。
DR-MV3D 提出了一种基于地图的强化学习框架,通过密集奖励来改进多视角3D视觉问答能力,其核心包括全局地图构建、视角轨迹规划和自我中心定位。