state-of-the-art

标签

Cards List
#state-of-the-art

DuMate-DeepResearch:一个可审计的多智能体系统,具备递归搜索与基于评分标准的推理

arXiv cs.AI · 2026-06-08 缓存

本技术报告介绍了DuMate-DeepResearch,一个用于深度研究任务的多智能体框架。该框架将智能体核心与工具生态系统解耦,并集成了基于图的动态规划、递归双层执行以及基于评分标准的测试时优化。该系统在两个深度研究基准测试中取得了最先进的结果,展示了可审计智能体基础设施的价值。

0 人收藏 0 人点赞
#state-of-the-art

好消息与坏消息:对某些人而言,AI比大多数治疗更好。你需要理解一些细微差别,但它确实极其有价值。

Reddit r/ArtificialInteligence · 2026-06-05

一位心理健康专业人士认为,如果提示得当,AI可以提供出奇有效的治疗建议和个性化服务,有时在细微差别和可及性方面超越传统疗法,尤其是对神经多样性个体而言。

0 人收藏 0 人点赞
#state-of-the-art

先想象后预测:用于视频事件预测的交错潜在视觉推理

Hugging Face Daily Papers · 2026-06-04 缓存

介绍了Future-L1,一种交错潜在视觉推理框架,通过在潜在空间中保持视觉语义来改进视频事件预测。在FutureBench和TwiFF-Bench基准上取得了最先进的结果。

0 人收藏 0 人点赞
#state-of-the-art

@NielsRogge: Holo 3.1 在流行的计算机使用代理基准 AndroidWorld 上达到了新的 SOTA,可在此处探索 https://paper…

X AI KOLs Following · 2026-06-02 缓存

Holo 3.1 在面向计算机使用代理的 AndroidWorld 基准测试中取得了最先进的性能,展示了在本地部署中改进的速度和成本效益。

0 人收藏 0 人点赞
#state-of-the-art

在PapersWithCode上浏览CVPR 2026论文 [P]

Reddit r/MachineLearning · 2026-06-02

一位Hugging Face团队成员宣布为重启的PapersWithCode网站增加会议支持功能,用户可浏览所有CVPR 2026论文及其arXiv ID,按任务分类,并关联GitHub、项目页面和Hugging Face资源。

0 人收藏 0 人点赞
#state-of-the-art

@EpochAIResearch:我们重新审视了开源权重模型与专有模型之间的能力差距。自年初以来,开源权重模型一直比最先进水平落后约四个月...

X AI KOLs Following · 2026-05-29 缓存

Epoch AI Research 分析了开源权重模型与专有模型之间的能力差距,发现自年初以来,开源权重模型一直比最先进水平落后约四个月。

0 人收藏 0 人点赞
#state-of-the-art

LLMBridge:面向英语端到端指称桥接解析的LLM流水线

arXiv cs.CL · 2026-05-29 缓存

LLMBridge 提出了一种基于LLM的端到端指称桥接解析流水线,在三个英语数据集上取得了最先进的性能。该系统将启发式预处理/后处理与LLM自然语言推理相结合。

0 人收藏 0 人点赞
#state-of-the-art

@_albertgu: 为@cartesia团队推出Sonic 3.5感到无比自豪,它树立了TTS领域的新标杆。我个人…

X AI KOLs Following · 2026-05-22 缓存

Cartesia推出Sonic 3.5,这是一款支持42种语言的全新TTS模型,在Artificial Analysis Speech Arena排行榜上位居榜首。

0 人收藏 0 人点赞
#state-of-the-art

@outsource_: 重大消息:QWOPUS 3.6 27B 已全面上线!SOTA QWEN 3.6 27b + Opus 来了!智能编码王者:75.25%(152/202)在……

X AI KOLs Timeline · 2026-05-22 缓存

Qwopus 3.6 27B 现已全面上线,这是一个融合模型(Qwen + Opus),在 SWE MMLU Pro 上实现了最先进的智能编码性能,达到 75.25%,支持 Q8 KV 缓存下的 303k token 上下文,在 Q5_K_M 量化下仅需 24GB VRAM 即可运行。

1 人收藏 0 人点赞
#state-of-the-art

@allen_ai: 大多数模型仅对一部分现有基准进行了评估。ArtifactLinker,我们的新系统,预测哪些…

X AI KOLs Following · 2026-05-22 缓存

Allen AI 推出了 ArtifactLinker,该系统可预测哪些AI模型能在 HuggingFace 的基准测试中取得最先进的结果,并通过运行验证。

0 人收藏 0 人点赞
#state-of-the-art

TabPFN-MT: 一种面向表格数据的原生多任务上下文学习器

arXiv cs.LG · 2026-05-21 缓存

TabPFN-MT 将 PFN 扩展到表格数据的多任务上下文学习,在小到中等规模数据集上取得了最先进的结果,同时将推理成本从 O(T) 次前向传播降低到 O(1) 次。

0 人收藏 0 人点赞
#state-of-the-art

DrugSAGE:自演化智能体经验实现高效最先进的药物发现

arXiv cs.LG · 2026-05-18 缓存

DrugSAGE是一个框架,能够积累并复用跨任务记忆,高效构建最先进的药物发现模型,在保留任务上比基线智能体性能提升10-30%。

0 人收藏 0 人点赞
#state-of-the-art

Poetiq:递归自我改进实现新的SOTA编码性能

Reddit r/singularity · 2026-05-15 缓存

Poetiq的Meta-System通过标准API访问进行递归自我改进,无需微调,在LiveCodeBench Pro编码基准测试上取得了新的SOTA结果,超越了GPT 5.5等领先模型。

0 人收藏 0 人点赞
#state-of-the-art

@hasantoxr: 我要用这个替换掉我给智能体搭建的所有记忆层。SureThing 在 LongMemEval 上刷新了 SOTA。88.0% …

X AI KOLs Timeline · 2026-05-12

SureThing 在 LongMemEval 基准测试中取得了最先进的结果,综合得分达到 88.0%,促使开发者用其替换现有 AI 智能体中的记忆层。

0 人收藏 0 人点赞
#state-of-the-art

@antoine_chaffin: Reason-ModernColBERT 几乎完美解决了 BrowseComp-Plus,碾压 SOTA,并超越了 54 倍大的模型。还不错吧…

X AI KOLs Following · 2026-05-12 缓存

Reason-ModernColBERT 在 BrowseComp-Plus 上取得了近乎完美的结果,超越了 SOTA 和 54 倍大的模型,随后 Agent-ModernColBERT 通过极少的训练进一步提升了性能。

0 人收藏 0 人点赞
#state-of-the-art

RecGen 1 & 2:全新发布的图像转3D模型AI,达到业界领先水平,可能开源。

Reddit r/singularity · 2026-05-10

RecGen 1 和 2 是全新发布的AI模型,声称在将图像转换为3D模型方面达到了业界领先的性能,并且有可能开源。

0 人收藏 0 人点赞
#state-of-the-art

[Google DeepMind] AI联合数学家也在困难问题求解基准测试中取得了最先进的结果,包括在FrontierMath Tier 4上获得48%的得分,这是所有被评估AI系统的新最高分。

Reddit r/singularity · 2026-05-08

Google DeepMind的AI联合数学家取得了困难问题求解基准测试中的最先进结果,在FrontierMath Tier 4上获得48%的得分,是所有被评估AI系统中的最高分。

0 人收藏 0 人点赞
#state-of-the-art

@OpenAI:是什么让 ChatGPT Images 2.0 成为最先进的图像生成模型?背后的研究人员亲自解释。串推……

X AI KOLs · 2026-04-21 缓存

OpenAI 研究人员解读 ChatGPT Images 2.0 成为顶尖图像生成模型的关键突破,重点展示其“思考”与智能能力。

0 人收藏 0 人点赞
#state-of-the-art

@techNmak:1.7B 参数轻量 VLM,在 OmniDocBench 上碾压巨头的 OCR 新王者

X AI KOLs Timeline · 2026-04-20 缓存

仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积实现 SOTA,证明文档理解无需巨无霸模型。

0 人收藏 0 人点赞
#state-of-the-art

UniCorn:通过自生成监督走向自我改进的统一多模态模型

Papers with Code Trending · 2026-01-06 缓存

UniCorn 是一个框架,通过使用多智能体系统进行提示生成、图像创建和质量评估,使统一多模态模型能够自我改进,在 TIIF、WISE 和 OneIG-EN 等文本到图像基准上取得了最先进的结果。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈