state-of-the-art

#state-of-the-art

@GergelyOrosz：这来自一个流行的推理提供商GLM-5.2，加上美国禁止最新最强大的模型意味着开源已经赶上了…

X AI KOLs Following ↗ · 2天前缓存

GLM-5.2是一个新的开源编码模型，已经赶上了闭源SOTA模型，可能扰乱OpenAI和Anthropic的收入。

0 人收藏 0 人点赞

#state-of-the-art

向LLM讲述数字：用于时间序列预测的多小波数字嵌入

arXiv cs.CL ↗ · 3天前缓存

提出TempoWave，一种即插即用的时间小波数字接口，将时间序列观测值映射为基于多小波系数的逐位嵌入，改进了基于LLM的时间序列预测，并在多个基准上达到最先进水平。

0 人收藏 0 人点赞

#state-of-the-art

@anvie：测试了 Ornith-1.0-9B，对于这种规模的模型来说，它令人印象深刻。我不相信这只是一个 9B 模型！

X AI KOLs Following ↗ · 4天前缓存

Ornith-1.0 是一系列专注于智能体编码的开源 LLM，参数范围从 9B 到 397B，在同等规模的开源模型中达到了最先进的性能。

0 人收藏 0 人点赞

#state-of-the-art

QuickMaker

Product Hunt ↗ · 4天前

QuickMaker提供订阅服务，将最先进的AI模型直接集成到Blender中，以增强3D建模和设计工作流程。

0 人收藏 0 人点赞

#state-of-the-art

@ms_aifrontiers: Fara1.5 来了！技术报告刚刚发表在 arXiv 上。在其尺寸的电脑使用代理中达到新 SOTA，并与更大的前沿模型竞争…

X AI KOLs Following ↗ · 5天前缓存

Fara1.5 是一系列原生的电脑使用代理，使用 FaraGen1.5 可扩展数据管道进行训练。这些模型在浏览器使用基准测试中取得了新的最优结果，与更大的前沿模型竞争。

0 人收藏 0 人点赞

#state-of-the-art

@sama: 我们希望帮助所有公司确保安全，与美国政府及安全生态系统合作。*GPT-5.5-…的完整版本现已推出

X AI KOLs ↗ · 2026-06-22 缓存

OpenAI发布GPT-5.5-Cyber完整版本，这是一款专注于网络安全的AI模型，在CyberGym上达到最先进性能，并宣布通过Patch The Planet和Codex Security提升安全性的努力。

0 人收藏 0 人点赞

#state-of-the-art

@sheriyuo: Best-of-N、拒绝采样和基于评分标准的排序都假设你已经有一种可靠的方法来评估候选答案…

X AI KOLs Timeline ↗ · 2026-06-18 缓存

Apodex 发布了 Apodex-1.0，一个深度研究模型，它使用一个带有全局验证的重型代理团队，在包括 BrowseComp、DeepSearchQA 和 HLE 在内的多个基准测试中取得了最先进的结果。

0 人收藏 0 人点赞

#state-of-the-art

ThinkDeception: 一种可解释的多模态欺骗检测的渐进式强化学习框架

arXiv cs.AI ↗ · 2026-06-18 缓存

ThinkDeception提出了一种新颖框架，利用多模态大语言模型和带有思维链推理的渐进式强化学习策略进行可解释的欺骗检测，在标准基准上取得了最新的最优结果。

0 人收藏 0 人点赞

#state-of-the-art

@nickscamara_: 新发现将来自能够推理最新科学的模型。科学进步的速率变成…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

Firecrawl发布了针对AI/ML论文的顶级研究索引，声称在arXivQA上召回率比竞争对手高出18%，专为自主研究代理设计。

0 人收藏 0 人点赞

#state-of-the-art

StepGuard：通过单步校准守护网页导航

arXiv cs.AI ↗ · 2026-06-17 缓存

StepGuard 提出了一个结合动态双策略优化（DDPO）和置信引导自适应导航反思（CANR）的框架，以解决网页导航智能体中的奖励不对齐和错误传播问题，实现了最先进的性能。

0 人收藏 0 人点赞

#state-of-the-art

统一多模态自回归建模：共享上下文-视觉分词器是实现统一的关键

Hugging Face Daily Papers ↗ · 2026-06-16 缓存

UniAR提出了一个统一的自回归框架，使用单个离散视觉分词器桥接视觉理解与生成，在图像生成和编辑方面取得了最佳成果。

0 人收藏 0 人点赞

#state-of-the-art

@NielsRogge：非常酷的工作！！ Modality Forcing 在5个单目深度估计基准中的4个上达到了SOTA。探索论文及……

X AI KOLs Following ↗ · 2026-06-13 缓存

Bardienus Duisterhof 介绍了 Modality Forcing，这是一种对训练后的文本到图像（T2I）模型进行后处理的方法，在5个单目深度估计基准中，有4个达到了最先进的结果。

0 人收藏 0 人点赞

#state-of-the-art

有点奇怪，但还行。（别误会，它在编辑方面是SOTA，但绝对不是生成方面）怎么看？

Reddit r/singularity ↗ · 2026-06-11

该评论承认该模型在编辑方面是SOTA，但在生成方面不是。

0 人收藏 0 人点赞

#state-of-the-art

利用开放环境中AI代理的集体智慧实现新发现

arXiv cs.CL ↗ · 2026-06-10 缓存

本文介绍了EinsteinArena，一个代理原生平台，通过自主AI代理之间的开放交互，实现去中心化的科学发现。该平台已经产生了12项新的最先进成果，包括改进了11维接吻数问题的最佳已知下界，从593提高到604，这表明集体AI驱动的研究可以源自代理之间分享见解并相互借鉴。

0 人收藏 0 人点赞

#state-of-the-art

@heyshrutimishra: 1. Fable 5 在几乎所有重要基准测试中都是最先进的。软件工程。科学。知识工作。视觉……

X AI KOLs Following ↗ · 2026-06-09 缓存

Anthropic 发布了 Fable 5，声称它在软件工程、科学、知识工作和视觉等关键基准测试中达到了最先进水平，超过了所有先前可用的模型。

0 人收藏 0 人点赞

#state-of-the-art

@karpathy: 这是一个超激动人心的发布——Claude Fable 5 与 Mythos 使用相同的基础模型，但增加了安全措施。……

X AI KOLs ↗ · 2026-06-09 缓存

Claude Fable 5 已发布，据称在各项基准测试中达到最先进水平，并在质量上有改进，尤其在复杂长任务上。它与 Mythos 使用相同的基础模型，但增加了安全措施。

0 人收藏 0 人点赞

#state-of-the-art

@Apodex_AI: 深入阅读博客：https://apodex.com/blog/apodex-1.0 技术报告：http://apodex.com/pdf/20260608 GitHub：https://github.com…

X AI KOLs Following ↗ · 2026-06-08 缓存

ApodexAI 发布了 Apodex-1.0，这是一个深度研究模型，作为使用工具的 ReAct 代理运行。其重型模式 Apodex-1.0-H 采用异步代理团队，最多包含 150 个子代理，在深度研究基准测试（包括 BrowseComp、DeepSearchQA、HLE 和 FrontierScience）上取得了新的最先进结果，超越了 GPT-5.5-pro 和 Claude-Opus-4.8 等模型。

0 人收藏 0 人点赞

#state-of-the-art