标签
介绍了TVIR,一个用于生成文本-视觉交织报告的基准和层次化多代理框架,评估了自动化报告生成中的事实可靠性和视觉对齐。
本文提出 Ptah,一种多智能体框架,通过专门智能体和验证机制交错文本与视觉证据,生成可验证的多模态深度研究报告,并引入 PtahEval 进行评估。
本文展示了如何使用AI工具Sense Nova Skills,通过一个简单的提示词生成完整的全球电动汽车行业研究报告,并附上了GitHub仓库和插件的链接。
AnchorDiff提出了一种拓扑感知的掩码扩散框架用于放射学报告生成,整合了基于RadGraph的临床锚点和基于置信度的重写,在MIMIC-CXR和MIMIC-RG4基准测试上取得了最先进的结果。
Google DeepMind 推出 Deep Research 与 Deep Research Max,两款基于 Gemini 3.1 Pro 的自主智能体,可浏览网络及自定义数据,生成带完整引用的专业报告。
DR³-Eval 是一个基准测试,用于评估深度研究代理在多模态、多文件报告生成中的表现,它通过真实的网络环境模拟和全面的评估框架,衡量信息召回、事实准确性、引用覆盖率、指令遵循和深度质量。