标签
Geometric Action Model (GAM) 将预训练的几何基础模型 (GFM) 重新用作语言条件机器人操作的统一骨干,在模拟和真实世界基准测试中,相比现有的基础模型规模基线,实现了更高的准确性、鲁棒性和效率。
介绍SciAgentArena,一个约200个任务的基准测试,用于评估真实科学研究中的AI智能体。发现智能体在明确指定的数据分析工作流程中表现有效,但在产生新颖见解和开放式探索方面存在困难。
本文提出ProReviewer,一种基于大语言模型的学术同行评审智能体,其被形式化为马尔可夫决策过程。该智能体通过维护结构化的评审日志主动探究论文,在多个质量维度上优于现有方法。
一位用户描述构建了一个广播仪表盘,追踪来自arXiv、GitHub和Hugging Face等21个来源的AI代理发展动态,指出了覆盖的强项和不足。
介绍了Kuramoto注意力,一种自注意力层,其中隐藏状态是环面上的相位角,通过门控余弦相似度和循环均值更新实现同步。该层在字符级语言建模上的性能与标准Transformer相当。
MoCA-Agent是一种声明市场代码智能体,通过将问题分解为原子声明并使用专业智能体买卖这些声明来改进金融和数值推理,在使用固定Qwen 3.6-27B主干的情况下,在多个基准测试中取得了强劲结果。
介绍BioDivergence,一个用于检测生物医学摘要中上下文条件矛盾的基准与评估框架,包含六类冲突分类法和一个由11,865个声明对构成的银标准数据集。
一个名为 Paper Deck 的开源工具,聚合来自 arXiv 和 Hugging Face 的 AI/ML 论文,支持阅读、收藏以及跨设备进度追踪。
本文介绍了WorldModelLens,这是一个用于世界模型可解释性的开源基础框架,采用能力类型化适配器接口,可泛化应用于PlaNet、Dreamer、IRIS和I-JEPA等多种架构。该框架提供了一个统一的钩子与缓存层用于激活分析,且在非活动状态下仅增加约12%的开销。
介绍了SAGE,首个端到端的LLM驱动的多智能体框架用于欺诈检测,它使用数据诊断树和具有自然语言梯度的马尔可夫决策过程,在类别不平衡下优化模型。实验表明,在五个数据集上,与基线相比F1有显著提升。
Harness-1 是一个 20B 参数规模的搜索代理,通过使用有状态搜索线索的强化学习进行训练,在检索基准测试中取得了强劲结果,并优于其他开源搜索子代理。
一个用于arXiv论文的语义搜索引擎,具备AI生成的TL;DR、声明分类、论文对比等功能。使用Next.js、Cloudflare和开源模型构建。
TRACE是一个用于长周期LLM智能体轨迹的监控框架,它通过分诊-检查-判断(Triage-Inspect-Judge)循环来连接时间上相隔较远的动作证据,在规避性破坏检测任务上实现了高召回率和F1值。
本文介绍了零样本嵌入漂移检测(ZEDD),这是一种轻量级框架,通过测量嵌入空间中的语义偏移来检测LLM中的提示注入攻击,在多种架构上实现了超过93%的准确率和低于3%的假阳性率。
介绍了CrowdMath,一个包含164条专家标注的进展链条的数据集,来自MIT PRIMES–AoPS CrowdMath项目,捕捉了协作数学问题解决过程。对六个前沿模型进行基准测试,发现它们在下一帖子预测上达到83-88%的准确率,但在帖子角色分类上仅有0.42的macro-F1,突显了在理解协作进展方面的差距。
个人收集的 1,700 篇 Arxiv 白皮书,按 90 个类别组织,包含交叉链接和综合,现已作为名为 Inquiring Lines 的网络工具公开发布。
引入CoVEBench,这是一个用于评估组合视频编辑能力的新基准,解决了现有模型在处理复杂多步骤指令时的局限性。该基准包含416个视频、626条指令和9,990个检查项,揭示当前模型在组合编辑任务中表现不佳。
本文指出,通常归因于大型语言模型的拟人化特征并非其独有,而是证明了像《帝国时代 II》这样更简单的系统也能表现出类似的感知特性,并呼吁在AI行为分析中建立明确的衡量标准。
提出一种利用语言特定统计图构建的领域感知发音错误检测与诊断方法,在L2-ARCTIC基准上达到59.52%的F1分数,优于多个基线模型。
LANTERN 引入了一个轻量级记忆层,能够在对话压缩后归档对话轮次并检索相关细节,恢复了78.3%丢失的事实,且无需任何LLM调用,性能优于基于MemGPT的方法。