标签
介绍Apodex,一个自进化型重型求解器,采用verification-centric agent team架构进行深度研究,支持自我求解、证据链验证等功能,目前处于抢先体验阶段且完全免费。
ScaffoldAgent 提出了一个基于效用引导的动态大纲优化框架,用于开放式深度研究。通过扩展、收缩和修订操作,该框架改进了长文报告生成和事实依据的准确性。
MetaResearcher 提出了一种框架,用于在对抗性虚拟环境中通过自我反思强化学习训练深度研究智能体,解决了静态环境和仅事实检索任务的局限性。
研究人员使用32块H100 GPU训练了一个Deep Research智能体,并开源了所有组件,从而促进了社区访问和进一步开发。
MosaicLeaks 提出了一个新的基准,用于衡量深度研究型AI助手的隐私泄露情况,结果表明这些助手经常通过外部查询泄露私人信息,并提出了一种训练方法(PA-DR),在降低泄露的同时提升任务性能。
来自Boston Children's Hospital、Harvard和OpenAI的研究人员使用OpenAI o3 Deep Research reasoning模型重新分析了376例未解决的罕见疾病病例,经过专家审查和临床确认后,额外确诊了18例(确诊率4.8%)。这项发表在NEJM AI上的研究展示了人工智能辅助工作流程如何帮助专家在科学知识不断发展的情况下重新审视疑难病例。
OpenAI 强调 o3 Deep Research 如何通过整合临床特征、遗传模式、变异证据和科学文献,为专家提供可操作的假设,从而帮助罕见病诊断。
Apodex 发布了 Apodex-1.0,一个深度研究模型,它使用一个带有全局验证的重型代理团队,在包括 BrowseComp、DeepSearchQA 和 HLE 在内的多个基准测试中取得了最先进的结果。
文章分析了使用AI写作时容易产生看似正确但实际有误内容的问题,并介绍了一套利用Deep Research工具(如Apodex)进行问题拆解、证据查找、风险检查和最终写作的工作流,帮助创作者提高内容质量。
一个小团队在学术预算下,仅使用32块H100和8K个合成样本,训练了一个前沿级别的深度研究智能体,并完全公开了从2B到35B模型的权重、代码和论文,这些模型在关键基准测试中匹配或超越了封闭的前沿智能体。
Yu Su 的团队在有限的学术预算下训练了一个前沿的 Deep Research Agent,使用 8K 合成样本和强化学习,并发布了完全开放的训练基础设施和从 2B 到 35B 参数的模型。
Apodex 1.0 是一个基于 Qwen3.5 后训练的自我进化 AI 系统,在 BrowseComp、DeepSearchQA 和 HLE-text 上达到 SOTA。其 4B 迷你模型性能超越 30B 级别模型,并配有 AgentOS 运行时用于任务编排。开放权重可用。
本文介绍了PhySciBench——一个包含200个专家精心策划的物理科学问题的基准,以及DelveAgent——一个多智能体框架,与Gemini Deep Research等基线相比,该框架提高了准确性并降低了推理成本。
介绍XBCP(跨语言BrowseComp-Plus),这是一个用于在跨语言和多语言环境中评估深度研究智能体和检索器的基准。结果表明,当证据与查询语言不同时,性能显著下降,凸显了检索失败以及智能体在整合语言不匹配证据方面的困难。
本文介绍了S1-DeepResearch-32B,这是一个开源模型及包含15K条轨迹的数据集,用于深度研究代理,通过联合建模信息获取、知识综合与规划,在20个基准测试中取得了最先进的性能。
本文提出混合开放式三方进化(HOTE)框架,该框架使用混合模式强化学习协同进化提议者、求解者和评判者,用于深度研究任务,以8B模型实现了超越更大静态模型的最优结果。
作者分享了一种使用深度研究代理审查库健康状况的方法,发现最有价值的信号是代理在其来源出现分歧时进行标记,而不是生成精美但带有虚假自信的摘要。Apodex 能够清晰地呈现矛盾,从而更容易判断其可信度。
Tavily 宣布其 Deep Research API,这是一个单一端点,可端到端执行多步研究,并返回结构化且附有来源的报告。该 API 支持自定义文件、输出模式和可配置的研究模式。
ApodexAI 发布了 Apodex-1.0,这是一个深度研究模型,作为使用工具的 ReAct 代理运行。其重型模式 Apodex-1.0-H 采用异步代理团队,最多包含 150 个子代理,在深度研究基准测试(包括 BrowseComp、DeepSearchQA、HLE 和 FrontierScience)上取得了新的最先进结果,超越了 GPT-5.5-pro 和 Claude-Opus-4.8 等模型。
Apodex 1.0 是一个用于深度研究的重型AI智能体团队,通过搜索网络、推理证据并生成带有可验证证据链的报告,实现了最先进的性能(SOTA)。