state-of-the-art

#state-of-the-art

DuMate-DeepResearch：一个可审计的多智能体系统，具备递归搜索与基于评分标准的推理

arXiv cs.AI ↗ · 2026-06-08 缓存

本技术报告介绍了DuMate-DeepResearch，一个用于深度研究任务的多智能体框架。该框架将智能体核心与工具生态系统解耦，并集成了基于图的动态规划、递归双层执行以及基于评分标准的测试时优化。该系统在两个深度研究基准测试中取得了最先进的结果，展示了可审计智能体基础设施的价值。

0 人收藏 0 人点赞

#state-of-the-art

好消息与坏消息：对某些人而言，AI比大多数治疗更好。你需要理解一些细微差别，但它确实极其有价值。

Reddit r/ArtificialInteligence ↗ · 2026-06-05

一位心理健康专业人士认为，如果提示得当，AI可以提供出奇有效的治疗建议和个性化服务，有时在细微差别和可及性方面超越传统疗法，尤其是对神经多样性个体而言。

0 人收藏 0 人点赞

#state-of-the-art

先想象后预测：用于视频事件预测的交错潜在视觉推理

Hugging Face Daily Papers ↗ · 2026-06-04 缓存

介绍了Future-L1，一种交错潜在视觉推理框架，通过在潜在空间中保持视觉语义来改进视频事件预测。在FutureBench和TwiFF-Bench基准上取得了最先进的结果。

0 人收藏 0 人点赞

#state-of-the-art

@NielsRogge: Holo 3.1 在流行的计算机使用代理基准 AndroidWorld 上达到了新的 SOTA，可在此处探索 https://paper…

X AI KOLs Following ↗ · 2026-06-02 缓存

Holo 3.1 在面向计算机使用代理的 AndroidWorld 基准测试中取得了最先进的性能，展示了在本地部署中改进的速度和成本效益。

0 人收藏 0 人点赞

#state-of-the-art

在PapersWithCode上浏览CVPR 2026论文 [P]

Reddit r/MachineLearning ↗ · 2026-06-02

一位Hugging Face团队成员宣布为重启的PapersWithCode网站增加会议支持功能，用户可浏览所有CVPR 2026论文及其arXiv ID，按任务分类，并关联GitHub、项目页面和Hugging Face资源。

0 人收藏 0 人点赞

#state-of-the-art

@EpochAIResearch：我们重新审视了开源权重模型与专有模型之间的能力差距。自年初以来，开源权重模型一直比最先进水平落后约四个月...

X AI KOLs Following ↗ · 2026-05-29 缓存

Epoch AI Research 分析了开源权重模型与专有模型之间的能力差距，发现自年初以来，开源权重模型一直比最先进水平落后约四个月。

0 人收藏 0 人点赞

#state-of-the-art

LLMBridge：面向英语端到端指称桥接解析的LLM流水线

arXiv cs.CL ↗ · 2026-05-29 缓存

LLMBridge 提出了一种基于LLM的端到端指称桥接解析流水线，在三个英语数据集上取得了最先进的性能。该系统将启发式预处理/后处理与LLM自然语言推理相结合。

0 人收藏 0 人点赞

#state-of-the-art

@_albertgu: 为@cartesia团队推出Sonic 3.5感到无比自豪，它树立了TTS领域的新标杆。我个人…

X AI KOLs Following ↗ · 2026-05-22 缓存

Cartesia推出Sonic 3.5，这是一款支持42种语言的全新TTS模型，在Artificial Analysis Speech Arena排行榜上位居榜首。

0 人收藏 0 人点赞

#state-of-the-art

@outsource_: 重大消息：QWOPUS 3.6 27B 已全面上线！SOTA QWEN 3.6 27b + Opus 来了！智能编码王者：75.25%（152/202）在……

X AI KOLs Timeline ↗ · 2026-05-22 缓存

Qwopus 3.6 27B 现已全面上线，这是一个融合模型（Qwen + Opus），在 SWE MMLU Pro 上实现了最先进的智能编码性能，达到 75.25%，支持 Q8 KV 缓存下的 303k token 上下文，在 Q5_K_M 量化下仅需 24GB VRAM 即可运行。

1 人收藏 0 人点赞

#state-of-the-art

@allen_ai: 大多数模型仅对一部分现有基准进行了评估。ArtifactLinker，我们的新系统，预测哪些…

X AI KOLs Following ↗ · 2026-05-22 缓存

Allen AI 推出了 ArtifactLinker，该系统可预测哪些AI模型能在 HuggingFace 的基准测试中取得最先进的结果，并通过运行验证。

0 人收藏 0 人点赞

#state-of-the-art

TabPFN-MT: 一种面向表格数据的原生多任务上下文学习器

arXiv cs.LG ↗ · 2026-05-21 缓存

TabPFN-MT 将 PFN 扩展到表格数据的多任务上下文学习，在小到中等规模数据集上取得了最先进的结果，同时将推理成本从 O(T) 次前向传播降低到 O(1) 次。

0 人收藏 0 人点赞

#state-of-the-art

DrugSAGE：自演化智能体经验实现高效最先进的药物发现

arXiv cs.LG ↗ · 2026-05-18 缓存

DrugSAGE是一个框架，能够积累并复用跨任务记忆，高效构建最先进的药物发现模型，在保留任务上比基线智能体性能提升10-30%。

0 人收藏 0 人点赞

#state-of-the-art

Poetiq：递归自我改进实现新的SOTA编码性能

Reddit r/singularity ↗ · 2026-05-15 缓存

Poetiq的Meta-System通过标准API访问进行递归自我改进，无需微调，在LiveCodeBench Pro编码基准测试上取得了新的SOTA结果，超越了GPT 5.5等领先模型。

0 人收藏 0 人点赞

#state-of-the-art

@hasantoxr: 我要用这个替换掉我给智能体搭建的所有记忆层。SureThing 在 LongMemEval 上刷新了 SOTA。88.0% …

X AI KOLs Timeline ↗ · 2026-05-12

SureThing 在 LongMemEval 基准测试中取得了最先进的结果，综合得分达到 88.0%，促使开发者用其替换现有 AI 智能体中的记忆层。

0 人收藏 0 人点赞

#state-of-the-art

@antoine_chaffin: Reason-ModernColBERT 几乎完美解决了 BrowseComp-Plus，碾压 SOTA，并超越了 54 倍大的模型。还不错吧…

X AI KOLs Following ↗ · 2026-05-12 缓存

Reason-ModernColBERT 在 BrowseComp-Plus 上取得了近乎完美的结果，超越了 SOTA 和 54 倍大的模型，随后 Agent-ModernColBERT 通过极少的训练进一步提升了性能。

0 人收藏 0 人点赞

#state-of-the-art

RecGen 1 & 2：全新发布的图像转3D模型AI，达到业界领先水平，可能开源。

Reddit r/singularity ↗ · 2026-05-10

RecGen 1 和 2 是全新发布的AI模型，声称在将图像转换为3D模型方面达到了业界领先的性能，并且有可能开源。

0 人收藏 0 人点赞

#state-of-the-art

[Google DeepMind] AI联合数学家也在困难问题求解基准测试中取得了最先进的结果，包括在FrontierMath Tier 4上获得48%的得分，这是所有被评估AI系统的新最高分。

Reddit r/singularity ↗ · 2026-05-08

Google DeepMind的AI联合数学家取得了困难问题求解基准测试中的最先进结果，在FrontierMath Tier 4上获得48%的得分，是所有被评估AI系统中的最高分。

0 人收藏 0 人点赞

#state-of-the-art

@OpenAI：是什么让 ChatGPT Images 2.0 成为最先进的图像生成模型？背后的研究人员亲自解释。串推……

X AI KOLs ↗ · 2026-04-21 缓存

OpenAI 研究人员解读 ChatGPT Images 2.0 成为顶尖图像生成模型的关键突破，重点展示其“思考”与智能能力。

0 人收藏 0 人点赞

#state-of-the-art

@techNmak：1.7B 参数轻量 VLM，在 OmniDocBench 上碾压巨头的 OCR 新王者

X AI KOLs Timeline ↗ · 2026-04-20 缓存

仅 1.7B 参数的多语言文档解析器 dots.ocr，用轻量体积实现 SOTA，证明文档理解无需巨无霸模型。

0 人收藏 0 人点赞

#state-of-the-art

UniCorn：通过自生成监督走向自我改进的统一多模态模型

Papers with Code Trending ↗ · 2026-01-06 缓存

UniCorn 是一个框架，通过使用多智能体系统进行提示生成、图像创建和质量评估，使统一多模态模型能够自我改进，在 TIIF、WISE 和 OneIG-EN 等文本到图像基准上取得了最先进的结果。

0 人收藏 0 人点赞

state-of-the-art

提交意见反馈