arxiv

#arxiv

Geometric Action Model 用于机器人策略学习

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

Geometric Action Model (GAM) 将预训练的几何基础模型 (GFM) 重新用作语言条件机器人操作的统一骨干，在模拟和真实世界基准测试中，相比现有的基础模型规模基线，实现了更高的准确性、鲁棒性和效率。

0 人收藏 0 人点赞

#arxiv

跨尺度科学挑战的AI智能体基准测试

arXiv cs.AI ↗ · 2026-06-12 缓存

介绍SciAgentArena，一个约200个任务的基准测试，用于评估真实科学研究中的AI智能体。发现智能体在明确指定的数据分析工作流程中表现有效，但在产生新颖见解和开放式探索方面存在困难。

0 人收藏 0 人点赞

#arxiv

从被动生成到主动调查：一种主动的学术同行评审智能体

arXiv cs.CL ↗ · 2026-06-12 缓存

本文提出ProReviewer，一种基于大语言模型的学术同行评审智能体，其被形式化为马尔可夫决策过程。该智能体通过维护结构化的评审日志主动探究论文，在多个质量维度上优于现有方法。

0 人收藏 0 人点赞

#arxiv

构建了一个广播仪表盘，监测来自21个主要来源的AI代理发展动态——这是我正在追踪的内容以及缺失的部分

Reddit r/AI_Agents ↗ · 2026-06-11

一位用户描述构建了一个广播仪表盘，追踪来自arXiv、GitHub和Hugging Face等21个来源的AI代理发展动态，指出了覆盖的强项和不足。

0 人收藏 0 人点赞

#arxiv

Kuramoto注意力：在环面上同步自注意力

arXiv cs.LG ↗ · 2026-06-11 缓存

介绍了Kuramoto注意力，一种自注意力层，其中隐藏状态是环面上的相位角，通过门控余弦相似度和循环均值更新实现同步。该层在字符级语言建模上的性能与标准Transformer相当。

0 人收藏 0 人点赞

#arxiv

MoCA-Agent: 一种用于金融和数值推理的声明市场代码智能体

arXiv cs.AI ↗ · 2026-06-11 缓存

MoCA-Agent是一种声明市场代码智能体，通过将问题分解为原子声明并使用专业智能体买卖这些声明来改进金融和数值推理，在使用固定Qwen 3.6-27B主干的情况下，在多个基准测试中取得了强劲结果。

0 人收藏 0 人点赞

#arxiv

BioDivergence：面向生物医学摘要中隐藏上下文矛盾的基准与评估框架

arXiv cs.CL ↗ · 2026-06-11 缓存

介绍BioDivergence，一个用于检测生物医学摘要中上下文条件矛盾的基准与评估框架，包含六类冲突分类法和一个由11,865个声明对构成的银标准数据集。

0 人收藏 0 人点赞

#arxiv

我打造了 Paper Deck：发现 AI/ML 论文的更好方式 [P]

Reddit r/MachineLearning ↗ · 2026-06-10

一个名为 Paper Deck 的开源工具，聚合来自 arXiv 和 Hugging Face 的 AI/ML 论文，支持阅读、收藏以及跨设备进度追踪。

0 人收藏 0 人点赞

#arxiv

一个透镜，众多世界：面向世界模型可解释性的能力类型化接口

arXiv cs.LG ↗ · 2026-06-10 缓存

本文介绍了WorldModelLens，这是一个用于世界模型可解释性的开源基础框架，采用能力类型化适配器接口，可泛化应用于PlaNet、Dreamer、IRIS和I-JEPA等多种架构。该框架提供了一个统一的钩子与缓存层用于激活分析，且在非活动状态下仅增加约12%的开销。

0 人收藏 0 人点赞

#arxiv

SAGE：一种由LLM驱动的自我反思智能体框架用于欺诈检测

arXiv cs.AI ↗ · 2026-06-09 缓存

介绍了SAGE，首个端到端的LLM驱动的多智能体框架用于欺诈检测，它使用数据诊断树和具有自然语言梯度的马尔可夫决策过程，在类别不平衡下优化模型。实验表明，在五个数据集上，与基线相比F1有显著提升。

0 人收藏 0 人点赞

#arxiv

@patpcj：再次感谢您对我们工作的兴趣！链接在此，以免被“显示更多”埋没：论文：https://arxi…

X AI KOLs Following ↗ · 2026-06-08 缓存

Harness-1 是一个 20B 参数规模的搜索代理，通过使用有状态搜索线索的强化学习进行训练，在检索基准测试中取得了强劲结果，并优于其他开源搜索子代理。

0 人收藏 0 人点赞

#arxiv

我打造了一个语义化的arXiv搜索引擎，具备AI生成的TL;DR、声明分类和论文对比功能

Reddit r/artificial ↗ · 2026-06-08 缓存

一个用于arXiv论文的语义搜索引擎，具备AI生成的TL;DR、声明分类、论文对比等功能。使用Next.js、Cloudflare和开源模型构建。

0 人收藏 0 人点赞

#arxiv

TRACE：面向LLM智能体的自适应跨步证据聚合轨迹推理

arXiv cs.CL ↗ · 2026-06-08 缓存

TRACE是一个用于长周期LLM智能体轨迹的监控框架，它通过分诊-检查-判断（Triage-Inspect-Judge）循环来连接时间上相隔较远的动作证据，在规避性破坏检测任务上实现了高召回率和F1值。

0 人收藏 0 人点赞

#arxiv

零样本嵌入漂移检测：一种针对LLM中提示注入的轻量级防御方法

arXiv cs.AI ↗ · 2026-06-08 缓存

本文介绍了零样本嵌入漂移检测（ZEDD），这是一种轻量级框架，通过测量嵌入空间中的语义偏移来检测LLM中的提示注入攻击，在多种架构上实现了超过93%的准确率和低于3%的假阳性率。

0 人收藏 0 人点赞

#arxiv

CrowdMath: 一个众包数学研究讨论数据集

arXiv cs.AI ↗ · 2026-06-08 缓存

介绍了CrowdMath，一个包含164条专家标注的进展链条的数据集，来自MIT PRIMES–AoPS CrowdMath项目，捕捉了协作数学问题解决过程。对六个前沿模型进行基准测试，发现它们在下一帖子预测上达到83-88%的准确率，但在帖子角色分类上仅有0.42的macro-F1，突显了在理解协作进展方面的差距。

0 人收藏 0 人点赞

#arxiv