research

#research

@HongcanGuo: 一种全新的文本建模方法

X AI KOLs Timeline ↗ · 5天前缓存

一位名叫HongcanGuo的研究人员透露了一种全新的文本建模方法，但推文未提供技术细节。

0 人收藏 0 人点赞

#research

@GoSailGlobal: https://x.com/GoSailGlobal/status/2052573500800700560

X AI KOLs Timeline ↗ · 5天前缓存

SWE-WebDev Bench 是 arXiv 上的一篇论文，评测了 6 个主流 vibe coding 平台（Lovable、Replit Agent3、Vercel v0-Max、Base44、Emergent E1-OPUS、QwikBuild），发现所有平台工程综合分都没超过 60%，前端 UI 漂亮但后端、安全、生产就绪度集体翻车，需要 12-60 小时人工修复才能上线。

0 人收藏 0 人点赞

#research

切勿复制粘贴！代码检索的改写策略

Hugging Face Daily Papers ↗ · 5天前缓存

本研究论文探讨了代码检索中的文本改写策略，发现完全的自然语言改写能带来最大的性能提升。本文引入了基于熵的诊断方法，以帮助判断何时使用成本较高的 LLM 改写是有益的。

0 人收藏 0 人点赞

#research

DiffRetriever：基于扩散语言模型的并行代表性令牌检索

Hugging Face Daily Papers ↗ · 5天前缓存

本文介绍了 DiffRetriever，这是一种利用扩散语言模型并行生成多个代表性令牌以实现高效信息检索的方法，在速度和准确率上均优于自回归基线方法。

0 人收藏 0 人点赞

#research

我们向50个大语言模型发放了45份心理问卷。我们发现的结果并非“个性”。

Reddit r/artificial ↗ · 5天前

研究人员分析了50个大语言模型在45份心理测量问卷上的表现，识别出一个“匹诺曹维度”（Pinocchio Dimension），该维度衡量模型如何认可内在体验，而非反映真实的人格特质。

0 人收藏 0 人点赞

#research

大多数关于“智能体 AI”的讨论都感觉太抽象了。这里是我的智能体研究系统的实际样子

Reddit r/artificial ↗ · 6天前

作者分享了他为识别和评估公司内 AI 用例而构建的智能体研究系统的实际分解。该系统使用六个智能体进行发现、评估和上下文提取，强调人在决策环中，而非完全自主。

0 人收藏 0 人点赞

#research

SkillOS：面向自进化智能体的技能策展学习

Hugging Face Daily Papers ↗ · 6天前缓存

本文介绍了 SkillOS，这是一种强化学习框架，使大型语言模型智能体能够学习用于自进化的长期技能策展策略，从而提升任务性能与泛化能力。

0 人收藏 0 人点赞

#research

UniPool：一种用于混合专家模型的全球共享专家池

Hugging Face Daily Papers ↗ · 6天前缓存

UniPool 为混合专家（MoE）模型引入了一种共享专家池架构，在降低参数随深度增长的同时，相较于标准 MoE 基线提高了效率和性能。

0 人收藏 0 人点赞

#research

Stream-T1：用于流式视频生成的测试时扩展

Hugging Face Daily Papers ↗ · 2026-05-06 缓存

Stream-T1 是一种针对流式视频生成提出的测试时扩展（TTS）框架，通过噪声传播和奖励剪枝等机制，提升了时间一致性和生成质量。该论文通过利用块级合成技术，解决了现有基于扩散模型的方法计算成本过高的问题。

0 人收藏 0 人点赞

#research

APEX：面向 AI 生成音乐的规模化多任务美学感知流行度预测

Hugging Face Daily Papers ↗ · 2026-05-05 缓存

APEX 是一个大规模的 multi-task learning 框架，利用冻结的音频嵌入来预测 AI 生成音乐的流行度和美学质量。该模型通过联合预测参与度信号和感知质量维度，在不同的生成架构上展现出了强大的泛化能力。

0 人收藏 0 人点赞

#research

GLM 5.1 战略思考，数据中心反抗加剧，当有用的LLM变得无用时，人形机器人开始工作

The Batch ↗ · 2026-04-24 缓存

Andrew Ng 讨论了编码代理如何以不同速度加速不同类型的软件工作，其中前端开发受益最大，研究受益最小。

0 人收藏 0 人点赞

#research

@CoreAutoAI：今天我们发布 Core Automation，目标是打造可优化并自动执行工作的系统，首先从研究流程开始。

X AI KOLs Timeline ↗ · 2026-04-21 缓存

CoreAutoAI 推出 Core Automation，一套旨在优化并自动执行工作、率先聚焦研究流程的系统。

0 人收藏 0 人点赞

#research

EchoChain：面向中断场景的全双工状态更新推理基准

arXiv cs.CL ↗ · 2026-04-21 缓存

EchoChain 是一项全新基准测试，旨在评估 AI 模型在用户中途打断时修正正在进行中的回复的能力。该基准提炼出三种典型故障模式（上下文惯性、中断遗忘、目标偏移），结果表明，在当前评估的实时语音模型中，无一系统的通过率突破 50%。

0 人收藏 0 人点赞

#research

用于事实核查的多模态声明提取

arXiv cs.CL ↗ · 2026-04-21

研究人员提出了首个用于从社交媒体中进行多模态声明提取的基准，评估了最先进的多模态大语言模型，并引入了MICE——一个意图感知框架，在处理图文结合帖子中的修辞意图和上下文线索方面有所改进。

0 人收藏 0 人点赞

#research

@JeremyNguyenPhD：佛蒙特大学研究者@girayaslim与@emily_beam带来的Agentic AI训练营，共2场×90分钟……

X AI KOLs Timeline ↗ · 2026-04-21 缓存

佛蒙特大学研究人员举办2×90分钟Agentic AI训练营，聚焦将Claude Code与Codex集成进科研与教学流程。

0 人收藏 0 人点赞

#research

@AiwithYasir：突发：这篇来自斯坦福与哈佛的论文解释了为何大多数“agentic AI”系统在演示中惊艳、落地却翻车

X AI KOLs Timeline ↗ · 2026-04-20 缓存

斯坦福与哈佛研究者指出，agentic AI 系统在现实部署中失败，并非因为“不够聪明”，而是某些根本性问题导致演示效果在实际场景中崩溃。

0 人收藏 0 人点赞

#research

有哪些基础研究探讨了能否通过 LLM 实现 AGI？

Reddit r/artificial ↗ · 2026-04-20

我尚未见到任何论文或真正的研究证据来支撑这一论点的任何一方。我希望能超越纯粹的主观意见来讨论这个问题。

0 人收藏 0 人点赞

#research

@mubeitech: Transformer根本不是AI的终局。这是英伟达AI研究副总裁Sanja Fidler给出的断言。这位掌管英伟达空间智能实验室的负责人，看到的是当前架构的死穴。现在的模型训练成本太昂贵。对海量数据的依赖深不见底。必须在架构底…

X AI KOLs Timeline ↗ · 2026-04-20 缓存

英伟达AI研究副总裁Sanja Fidler断言Transformer并非AI的终局架构，指出当前模型训练成本过高、对海量数据依赖严重，需要在架构底层寻求新突破，新一代架构变种已开始涌现。

0 人收藏 0 人点赞

#research

# 研究人员用量子计算机提升AI预测能力来源：[https://www.cnet.com/tech/services-and-software/researchers-use-quantum-computer-to-improve-ai-predictions/](https://www.cnet.com/tech/services-and-software/researchers-use-quantum-computer-to-improve-ai-predictions/) 量子计算机协助AI模型完成在传统计算机上需数周才能算出的计算。 ![Julian Dossett头像](https://www.cnet.com/a/img/resize/e869742f773a9d41939ee253577b93

0 人收藏 0 人点赞

#research

@Prince_Canuma：我的 MLX 与研究家用计算平台：• M3 Ultra — 512GB（由社区与 @wai_protocol 赞助）• RTX PRO 6000 — 96GB…

X AI KOLs Timeline ↗ · 2026-04-19

一位研究人员分享了用于 MLX 和 AI 研究的家用计算配置，包含配备 512GB 的 M3 Ultra、配备 96GB 的 RTX PRO 6000，以及用于模型移植与压力测试的配备 96GB 的 M3 Max。

0 人收藏 0 人点赞

research

提交意见反馈