标签
GLM-5.2是一个新的开源编码模型,已经赶上了闭源SOTA模型,可能扰乱OpenAI和Anthropic的收入。
提出TempoWave,一种即插即用的时间小波数字接口,将时间序列观测值映射为基于多小波系数的逐位嵌入,改进了基于LLM的时间序列预测,并在多个基准上达到最先进水平。
Ornith-1.0 是一系列专注于智能体编码的开源 LLM,参数范围从 9B 到 397B,在同等规模的开源模型中达到了最先进的性能。
Fara1.5 是一系列原生的电脑使用代理,使用 FaraGen1.5 可扩展数据管道进行训练。这些模型在浏览器使用基准测试中取得了新的最优结果,与更大的前沿模型竞争。
OpenAI发布GPT-5.5-Cyber完整版本,这是一款专注于网络安全的AI模型,在CyberGym上达到最先进性能,并宣布通过Patch The Planet和Codex Security提升安全性的努力。
Apodex 发布了 Apodex-1.0,一个深度研究模型,它使用一个带有全局验证的重型代理团队,在包括 BrowseComp、DeepSearchQA 和 HLE 在内的多个基准测试中取得了最先进的结果。
ThinkDeception提出了一种新颖框架,利用多模态大语言模型和带有思维链推理的渐进式强化学习策略进行可解释的欺骗检测,在标准基准上取得了最新的最优结果。
Firecrawl发布了针对AI/ML论文的顶级研究索引,声称在arXivQA上召回率比竞争对手高出18%,专为自主研究代理设计。
StepGuard 提出了一个结合动态双策略优化(DDPO)和置信引导自适应导航反思(CANR)的框架,以解决网页导航智能体中的奖励不对齐和错误传播问题,实现了最先进的性能。
UniAR提出了一个统一的自回归框架,使用单个离散视觉分词器桥接视觉理解与生成,在图像生成和编辑方面取得了最佳成果。
Bardienus Duisterhof 介绍了 Modality Forcing,这是一种对训练后的文本到图像(T2I)模型进行后处理的方法,在5个单目深度估计基准中,有4个达到了最先进的结果。
本文介绍了EinsteinArena,一个代理原生平台,通过自主AI代理之间的开放交互,实现去中心化的科学发现。该平台已经产生了12项新的最先进成果,包括改进了11维接吻数问题的最佳已知下界,从593提高到604,这表明集体AI驱动的研究可以源自代理之间分享见解并相互借鉴。
Anthropic 发布了 Fable 5,声称它在软件工程、科学、知识工作和视觉等关键基准测试中达到了最先进水平,超过了所有先前可用的模型。
Claude Fable 5 已发布,据称在各项基准测试中达到最先进水平,并在质量上有改进,尤其在复杂长任务上。它与 Mythos 使用相同的基础模型,但增加了安全措施。
ApodexAI 发布了 Apodex-1.0,这是一个深度研究模型,作为使用工具的 ReAct 代理运行。其重型模式 Apodex-1.0-H 采用异步代理团队,最多包含 150 个子代理,在深度研究基准测试(包括 BrowseComp、DeepSearchQA、HLE 和 FrontierScience)上取得了新的最先进结果,超越了 GPT-5.5-pro 和 Claude-Opus-4.8 等模型。
Apodex 1.0 是一个用于深度研究的重型AI智能体团队,通过搜索网络、推理证据并生成带有可验证证据链的报告,实现了最先进的性能(SOTA)。
本技术报告介绍了DuMate-DeepResearch,一个用于深度研究任务的多智能体框架。该框架将智能体核心与工具生态系统解耦,并集成了基于图的动态规划、递归双层执行以及基于评分标准的测试时优化。该系统在两个深度研究基准测试中取得了最先进的结果,展示了可审计智能体基础设施的价值。
一位心理健康专业人士认为,如果提示得当,AI可以提供出奇有效的治疗建议和个性化服务,有时在细微差别和可及性方面超越传统疗法,尤其是对神经多样性个体而言。