agentic-reasoning

#agentic-reasoning

AGORA: 基于档案的智能体工作场所文档推理基准

arXiv cs.CL ↗ · 2026-06-24 缓存

AGORA 是一个新的基准，用于评估大型语言模型在工作场所文档上进行基于档案的推理任务，包含 362 个问题，涉及 9,664 份真实文档。最强模型仅达到 59.4% 的准确率，凸显出巨大的改进空间。

0 人收藏 0 人点赞

#agentic-reasoning

Nemotron 3 Ultra：用于智能体推理的高效开源混合专家Mamba-Transformer模型

Hugging Face Daily Papers ↗ · 2026-06-12 缓存

Nemotron 3 Ultra 是一个550B参数的混合Mamba-Attention专家混合语言模型，在20T tokens上预训练，扩展至1M上下文，并通过SFT、RL和MOPD进行后训练。相比同等精度的一流LLM，其推理吞吐量最高可提升6倍，并已开源。

0 人收藏 0 人点赞

#agentic-reasoning

PhotoCraft: 基于层次化自演化记忆的深度图像搜索智能体推理

arXiv cs.CL ↗ · 2026-06-03 缓存

PhotoCraft 提出了一种无需训练的层次化记忆系统，用于照片搜索智能体，集成了工作记忆、情景记忆和语义记忆，以维持长期上下文并在任务间迁移知识，在 DISBench 上取得了高达 18.5% 的提升。

0 人收藏 0 人点赞

#agentic-reasoning

自适应潜在智能体推理

arXiv cs.CL ↗ · 2026-06-03 缓存

本文介绍了自适应潜在智能体推理（ALAR），一种针对LLM智能体的双模式框架，它使用紧凑的潜在推理处理常规轮次，并选择性地升级为显式思维链以应对更困难的决策，实现了高达84.6%的令牌减少，同时保持任务准确性。

0 人收藏 0 人点赞

#agentic-reasoning

DAR：基于智能体框架的道义推理

Hugging Face Daily Papers ↗ · 2026-06-03

本文介绍了DAR（Deontic Agentic Reasoning），一个智能体框架，使LLM能够交互式地查询法律法规和政策，用于法律/监管推理任务。在DeonticBench上评估的结果表明，智能体引导可以提升前沿模型，但可能会导致较弱模型在数值任务上表现下降，同时消耗更多令牌。

0 人收藏 0 人点赞

#agentic-reasoning

CP-Agent：一种用于反馈驱动型竞赛编程的校准风险控制代理

arXiv cs.CL ↗ · 2026-05-26 缓存

CP-Agent 提出了一种借助大型语言模型的校准风险控制方法，用于反馈驱动型竞赛编程，无需参数更新即可在基准测试上取得显著改进。

0 人收藏 0 人点赞

#agentic-reasoning

SAM：面向长程推理智能体的状态自适应记忆

Hugging Face Daily Papers ↗ · 2026-05-23 缓存

本文提出 SAM，一个状态自适应记忆框架，能够动态管理长程智能体推理中的交互历史，实现意图驱动的回忆，而无需重新训练基础模型。它在多个基准测试（如 BrowseComp 和 HLE）上优于强基线方法。

0 人收藏 0 人点赞

#agentic-reasoning

@reach_vb: GPT-5.5 为 Omarchy 4 分支生成了 3 万行 QML 代码，并精准完成了微妙的智能体推理！！

X AI KOLs Following ↗ · 2026-05-22 缓存

OpenAI 的 GPT-5.5 模型在复杂的智能体任务和代码生成方面显示出显著改进，超越了先前版本以及如 Claude Opus 等竞争模型。

0 人收藏 0 人点赞

#agentic-reasoning

通过自我调节的模拟规划实现高效代理推理

Hugging Face Daily Papers ↗ · 2026-05-21 缓存

介绍了 SR²AM，一种通过自我调节的模拟规划实现高效代理推理的框架，在推理 token 减少 26-95% 的同时，达到了与 20-30 倍参数规模模型相竞争的性能。

0 人收藏 0 人点赞

#agentic-reasoning

CopT: 用于通用与智能体推理的连续空间对比在线思考

Hugging Face Daily Papers ↗ · 2026-05-19 缓存

CopT为大型语言模型引入了一种对比性在线思考框架，首先生成草稿答案，然后通过对比验证和动态思考来提高准确性并减少token消耗。在数学、代码和智能体推理任务上，准确率最高提升23%，token使用量最多降低57%。

0 人收藏 0 人点赞

#agentic-reasoning

VideoSeeker: 通过原生智能体工具调用激励实例级视频理解

Hugging Face Daily Papers ↗ · 2026-05-15 缓存

VideoSeeker 引入了一种实例级视频理解的新范式，将智能体推理与视觉提示相结合，通过自动化数据合成和强化学习实现卓越性能，超越了 GPT-4o 和 Gemini-2.5-Pro。

0 人收藏 0 人点赞

#agentic-reasoning

ATLAS：智能体还是隐式视觉推理？一个词足矣

Hugging Face Daily Papers ↗ · 2026-05-14 缓存

ATLAS提出了一种视觉推理框架，该框架通过功能标记将智能体操作和隐式表示相结合，实现了通过下一个标记预测和强化学习进行高效训练，同时避免了中间图像的生成。

0 人收藏 0 人点赞

#agentic-reasoning

学习探索：通过探索感知策略优化扩展代理推理

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

本文提出一种探索感知的强化学习框架，使LLM代理仅在不确定性高时自适应探索，从而提升在基于文本和基于GUI的基准测试上的性能。

0 人收藏 0 人点赞

#agentic-reasoning

工具即连续流：用于演进式智能体推理

arXiv cs.AI ↗ · 2026-05-11 缓存

本文介绍了 FlowAgent，这是一个新颖的框架，它利用条件流匹配将工具链重新概念化为连续轨迹生成，以提高长时序智能体推理的鲁棒性。

0 人收藏 0 人点赞

#agentic-reasoning

AlphaEarth嵌入几何刻画：面向智能体环境推理

arXiv cs.CL ↗ · 2026-04-22 缓存

分析Google AlphaEarth在1210万美国样本上的64维嵌入流形，揭示其非欧结构与向量算术失效，并构建具备几何感知工具的智能体系统，在环境查询上超越参数基线。

0 人收藏 0 人点赞

agentic-reasoning

提交意见反馈