标签
本技术报告介绍了DuMate-DeepResearch,一个用于深度研究任务的多智能体框架。该框架将智能体核心与工具生态系统解耦,并集成了基于图的动态规划、递归双层执行以及基于评分标准的测试时优化。该系统在两个深度研究基准测试中取得了最先进的结果,展示了可审计智能体基础设施的价值。
一位心理健康专业人士认为,如果提示得当,AI可以提供出奇有效的治疗建议和个性化服务,有时在细微差别和可及性方面超越传统疗法,尤其是对神经多样性个体而言。
介绍了Future-L1,一种交错潜在视觉推理框架,通过在潜在空间中保持视觉语义来改进视频事件预测。在FutureBench和TwiFF-Bench基准上取得了最先进的结果。
Holo 3.1 在面向计算机使用代理的 AndroidWorld 基准测试中取得了最先进的性能,展示了在本地部署中改进的速度和成本效益。
一位Hugging Face团队成员宣布为重启的PapersWithCode网站增加会议支持功能,用户可浏览所有CVPR 2026论文及其arXiv ID,按任务分类,并关联GitHub、项目页面和Hugging Face资源。
Epoch AI Research 分析了开源权重模型与专有模型之间的能力差距,发现自年初以来,开源权重模型一直比最先进水平落后约四个月。
LLMBridge 提出了一种基于LLM的端到端指称桥接解析流水线,在三个英语数据集上取得了最先进的性能。该系统将启发式预处理/后处理与LLM自然语言推理相结合。
Cartesia推出Sonic 3.5,这是一款支持42种语言的全新TTS模型,在Artificial Analysis Speech Arena排行榜上位居榜首。
Qwopus 3.6 27B 现已全面上线,这是一个融合模型(Qwen + Opus),在 SWE MMLU Pro 上实现了最先进的智能编码性能,达到 75.25%,支持 Q8 KV 缓存下的 303k token 上下文,在 Q5_K_M 量化下仅需 24GB VRAM 即可运行。
Allen AI 推出了 ArtifactLinker,该系统可预测哪些AI模型能在 HuggingFace 的基准测试中取得最先进的结果,并通过运行验证。
TabPFN-MT 将 PFN 扩展到表格数据的多任务上下文学习,在小到中等规模数据集上取得了最先进的结果,同时将推理成本从 O(T) 次前向传播降低到 O(1) 次。
DrugSAGE是一个框架,能够积累并复用跨任务记忆,高效构建最先进的药物发现模型,在保留任务上比基线智能体性能提升10-30%。
Poetiq的Meta-System通过标准API访问进行递归自我改进,无需微调,在LiveCodeBench Pro编码基准测试上取得了新的SOTA结果,超越了GPT 5.5等领先模型。
SureThing 在 LongMemEval 基准测试中取得了最先进的结果,综合得分达到 88.0%,促使开发者用其替换现有 AI 智能体中的记忆层。
Reason-ModernColBERT 在 BrowseComp-Plus 上取得了近乎完美的结果,超越了 SOTA 和 54 倍大的模型,随后 Agent-ModernColBERT 通过极少的训练进一步提升了性能。
RecGen 1 和 2 是全新发布的AI模型,声称在将图像转换为3D模型方面达到了业界领先的性能,并且有可能开源。
Google DeepMind的AI联合数学家取得了困难问题求解基准测试中的最先进结果,在FrontierMath Tier 4上获得48%的得分,是所有被评估AI系统中的最高分。
OpenAI 研究人员解读 ChatGPT Images 2.0 成为顶尖图像生成模型的关键突破,重点展示其“思考”与智能能力。
仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积实现 SOTA,证明文档理解无需巨无霸模型。
UniCorn 是一个框架,通过使用多智能体系统进行提示生成、图像创建和质量评估,使统一多模态模型能够自我改进,在 TIIF、WISE 和 OneIG-EN 等文本到图像基准上取得了最先进的结果。