arxiv

标签

Cards List
#arxiv

Geometric Action Model 用于机器人策略学习

Hugging Face Daily Papers · 2026-06-15 缓存

Geometric Action Model (GAM) 将预训练的几何基础模型 (GFM) 重新用作语言条件机器人操作的统一骨干,在模拟和真实世界基准测试中,相比现有的基础模型规模基线,实现了更高的准确性、鲁棒性和效率。

0 人收藏 0 人点赞
#arxiv

跨尺度科学挑战的AI智能体基准测试

arXiv cs.AI · 2026-06-12 缓存

介绍SciAgentArena,一个约200个任务的基准测试,用于评估真实科学研究中的AI智能体。发现智能体在明确指定的数据分析工作流程中表现有效,但在产生新颖见解和开放式探索方面存在困难。

0 人收藏 0 人点赞
#arxiv

从被动生成到主动调查:一种主动的学术同行评审智能体

arXiv cs.CL · 2026-06-12 缓存

本文提出ProReviewer,一种基于大语言模型的学术同行评审智能体,其被形式化为马尔可夫决策过程。该智能体通过维护结构化的评审日志主动探究论文,在多个质量维度上优于现有方法。

0 人收藏 0 人点赞
#arxiv

构建了一个广播仪表盘,监测来自21个主要来源的AI代理发展动态——这是我正在追踪的内容以及缺失的部分

Reddit r/AI_Agents · 2026-06-11

一位用户描述构建了一个广播仪表盘,追踪来自arXiv、GitHub和Hugging Face等21个来源的AI代理发展动态,指出了覆盖的强项和不足。

0 人收藏 0 人点赞
#arxiv

Kuramoto注意力:在环面上同步自注意力

arXiv cs.LG · 2026-06-11 缓存

介绍了Kuramoto注意力,一种自注意力层,其中隐藏状态是环面上的相位角,通过门控余弦相似度和循环均值更新实现同步。该层在字符级语言建模上的性能与标准Transformer相当。

0 人收藏 0 人点赞
#arxiv

MoCA-Agent: 一种用于金融和数值推理的声明市场代码智能体

arXiv cs.AI · 2026-06-11 缓存

MoCA-Agent是一种声明市场代码智能体,通过将问题分解为原子声明并使用专业智能体买卖这些声明来改进金融和数值推理,在使用固定Qwen 3.6-27B主干的情况下,在多个基准测试中取得了强劲结果。

0 人收藏 0 人点赞
#arxiv

BioDivergence:面向生物医学摘要中隐藏上下文矛盾的基准与评估框架

arXiv cs.CL · 2026-06-11 缓存

介绍BioDivergence,一个用于检测生物医学摘要中上下文条件矛盾的基准与评估框架,包含六类冲突分类法和一个由11,865个声明对构成的银标准数据集。

0 人收藏 0 人点赞
#arxiv

我打造了 Paper Deck:发现 AI/ML 论文的更好方式 [P]

Reddit r/MachineLearning · 2026-06-10

一个名为 Paper Deck 的开源工具,聚合来自 arXiv 和 Hugging Face 的 AI/ML 论文,支持阅读、收藏以及跨设备进度追踪。

0 人收藏 0 人点赞
#arxiv

一个透镜,众多世界:面向世界模型可解释性的能力类型化接口

arXiv cs.LG · 2026-06-10 缓存

本文介绍了WorldModelLens,这是一个用于世界模型可解释性的开源基础框架,采用能力类型化适配器接口,可泛化应用于PlaNet、Dreamer、IRIS和I-JEPA等多种架构。该框架提供了一个统一的钩子与缓存层用于激活分析,且在非活动状态下仅增加约12%的开销。

0 人收藏 0 人点赞
#arxiv

SAGE:一种由LLM驱动的自我反思智能体框架用于欺诈检测

arXiv cs.AI · 2026-06-09 缓存

介绍了SAGE,首个端到端的LLM驱动的多智能体框架用于欺诈检测,它使用数据诊断树和具有自然语言梯度的马尔可夫决策过程,在类别不平衡下优化模型。实验表明,在五个数据集上,与基线相比F1有显著提升。

0 人收藏 0 人点赞
#arxiv

@patpcj:再次感谢您对我们工作的兴趣!链接在此,以免被“显示更多”埋没:论文:https://arxi…

X AI KOLs Following · 2026-06-08 缓存

Harness-1 是一个 20B 参数规模的搜索代理,通过使用有状态搜索线索的强化学习进行训练,在检索基准测试中取得了强劲结果,并优于其他开源搜索子代理。

0 人收藏 0 人点赞
#arxiv

我打造了一个语义化的arXiv搜索引擎,具备AI生成的TL;DR、声明分类和论文对比功能

Reddit r/artificial · 2026-06-08 缓存

一个用于arXiv论文的语义搜索引擎,具备AI生成的TL;DR、声明分类、论文对比等功能。使用Next.js、Cloudflare和开源模型构建。

0 人收藏 0 人点赞
#arxiv

TRACE:面向LLM智能体的自适应跨步证据聚合轨迹推理

arXiv cs.CL · 2026-06-08 缓存

TRACE是一个用于长周期LLM智能体轨迹的监控框架,它通过分诊-检查-判断(Triage-Inspect-Judge)循环来连接时间上相隔较远的动作证据,在规避性破坏检测任务上实现了高召回率和F1值。

0 人收藏 0 人点赞
#arxiv

零样本嵌入漂移检测:一种针对LLM中提示注入的轻量级防御方法

arXiv cs.AI · 2026-06-08 缓存

本文介绍了零样本嵌入漂移检测(ZEDD),这是一种轻量级框架,通过测量嵌入空间中的语义偏移来检测LLM中的提示注入攻击,在多种架构上实现了超过93%的准确率和低于3%的假阳性率。

0 人收藏 0 人点赞
#arxiv

CrowdMath: 一个众包数学研究讨论数据集

arXiv cs.AI · 2026-06-08 缓存

介绍了CrowdMath,一个包含164条专家标注的进展链条的数据集,来自MIT PRIMES–AoPS CrowdMath项目,捕捉了协作数学问题解决过程。对六个前沿模型进行基准测试,发现它们在下一帖子预测上达到83-88%的准确率,但在帖子角色分类上仅有0.42的macro-F1,突显了在理解协作进展方面的差距。

0 人收藏 0 人点赞
#arxiv

Arxiv 白皮书研究合集 [R]

Reddit r/MachineLearning · 2026-06-07

个人收集的 1,700 篇 Arxiv 白皮书,按 90 个类别组织,包含交叉链接和综合,现已作为名为 Inquiring Lines 的网络工具公开发布。

0 人收藏 0 人点赞
#arxiv

CoVEBench:视频编辑模型能否处理复杂指令?

Hugging Face Daily Papers · 2026-06-07 缓存

引入CoVEBench,这是一个用于评估组合视频编辑能力的新基准,解决了现有模型在处理复杂多步骤指令时的局限性。该基准包含416个视频、626条指令和9,990个检查项,揭示当前模型在组合编辑任务中表现不佳。

0 人收藏 0 人点赞
#arxiv

@MilesCranmer: 这篇论文太疯狂了,我超爱 https://arxiv.org/abs/2605.31514

X AI KOLs Following · 2026-06-06 缓存

本文指出,通常归因于大型语言模型的拟人化特征并非其独有,而是证明了像《帝国时代 II》这样更简单的系统也能表现出类似的感知特性,并呼吁在AI行为分析中建立明确的衡量标准。

0 人收藏 0 人点赞
#arxiv

利用语言特定统计图的领域感知发音错误检测与诊断

arXiv cs.CL · 2026-06-05 缓存

提出一种利用语言特定统计图构建的领域感知发音错误检测与诊断方法,在L2-ARCTIC基准上达到59.52%的F1分数,优于多个基线模型。

0 人收藏 0 人点赞
#arxiv

LANTERN:分层归档与时序情景检索网络,用于长上下文LLM对话

arXiv cs.CL · 2026-06-05 缓存

LANTERN 引入了一个轻量级记忆层,能够在对话压缩后归档对话轮次并检索相关细节,恢复了78.3%丢失的事实,且无需任何LLM调用,性能优于基于MemGPT的方法。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈