research

#research

@modal：5月30日，我们将与@OpenAIDevs和@AntlerGlobal合作举办 Autoresearch Systems Hackathon，以解决……

X AI KOLs Following ↗ · 昨天缓存

Modal 宣布与 OpenAI Devs 和 Antler Global 合作，将于 5 月 30 日举办 Autoresearch Systems Hackathon，旨在应对数据和计算密集型挑战。

0 人收藏 0 人点赞

#research

图像即句子：扩展交错指令以实现统一的视觉生成

Hugging Face Daily Papers ↗ · 昨天缓存

本文介绍了 INSET，这是一个统一的多模态模型，它将图像作为原生词汇嵌入到文本指令中，从而提高了在图像生成和编辑任务中处理复杂交错输入的能力。

0 人收藏 0 人点赞

#research

长视频生成（阅读时间 4 分钟）

TLDR AI ↗ · 昨天缓存

本文介绍了 A²RD，这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新（Retrieve–Synthesize–Refine–Update）循环机制，并推出了一个新的基准测试 LVBench-C，以解决长时视频合成中的语义漂移问题。

0 人收藏 0 人点赞

#research

MEMOREPAIR：智能体记忆中的屏障优先级联修复

arXiv cs.AI ↗ · 2天前缓存

本文介绍了 MemoRepair，这是一种针对智能体记忆的屏障优先级联修复协议，旨在解决源数据变更时衍生工件过时的问题。实验表明，与穷举修复方法相比，MemoRepair 显著降低了失效记忆的暴露率和修复成本。

0 人收藏 0 人点赞

#research

HMACE：面向组合优化的异构多智能体协同进化

arXiv cs.AI ↗ · 2天前缓存

本文介绍了 HMACE，这是一种异构多智能体协同进化框架，利用大型语言模型（LLM）自动化设计启发式算法，以解决 NP 难组合优化问题。实验表明，在旅行商问题（TSP）和装箱问题（BPP）等任务上，该方法在质量与效率的权衡方面优于单智能体和基准多智能体方法。

0 人收藏 0 人点赞

#research

大语言模型在最长简单链式推理任务上的表现如何：关于等价类问题的实证研究

arXiv cs.AI ↗ · 2天前缓存

本实证研究通过评估大语言模型在等价类问题上的表现，以考察其长链推理能力。研究发现，非推理模型在此类任务上表现失败，而推理模型虽表现更好，但仍难以完全解决特定结构性难题。

0 人收藏 0 人点赞

#research

MIPIAD：基于 Qwen 与 TF-IDF 混合模型及元集成学习的多语言间接提示注入攻击防御

arXiv cs.CL ↗ · 2天前缓存

本文提出了 MIPIAD，这是一种针对间接提示注入攻击的多语言防御框架，融合了基于 Qwen2.5 的分类器、TF-IDF 特征以及元集成学习。该框架在英语和孟加拉语基准测试中表现出色，取得了较高的 F1 和 AUROC 分数，同时缩小了跨语言差距。

0 人收藏 0 人点赞

#research

有基准却无度量——生成式人工智能应以现实效用为评估标准

arXiv cs.LG ↗ · 2天前缓存

本文主张生成式人工智能的评估应从静态基准转向衡量现实效用和人类成果。文章提出了 SCU-GenEval 框架及辅助工具，旨在解决基准表现与部署成功之间的脱节问题。

0 人收藏 0 人点赞

#research

从零阶选择到二阶判断：组合硬化暴露前沿大语言模型的组合性缺陷

arXiv cs.CL ↗ · 2天前缓存

本文介绍了 LogiHard，这是一个利用组合硬化来暴露前沿大语言模型组合性缺陷的框架，展示了模型在逻辑推理任务中准确率的显著下降。

0 人收藏 0 人点赞

#research

ProtSent：蛋白质句子转换器

arXiv cs.LG ↗ · 2天前缓存

本文介绍了 ProtSent，这是一个用于蛋白质语言模型的对比微调框架，能够提升嵌入质量，从而优化远程同源性检测和结构检索等下游任务。

0 人收藏 0 人点赞

#research

MIND：用于生成模型评估的 Monge 初始距离

arXiv cs.LG ↗ · 2天前缓存

本文介绍了 MIND（Monge 初始距离），这是一种用于评估生成模型的新指标，比标准的 Fréchet 初始距离（FID）具有更高的样本效率、更快的速度以及更强的鲁棒性。

0 人收藏 0 人点赞

#research

Region4Web：重新思考网络智能体的观测空间粒度

arXiv cs.CL ↗ · 2天前缓存

本文介绍了 Region4Web 框架，该框架通过将观测空间组织成功能区域而非单个元素，从而提升了网络智能体的性能。研究表明，这种方法在 WebArena 基准测试上缩短了观测长度并提高了任务成功率。

0 人收藏 0 人点赞

#research

MedExAgent：在嘈杂的临床环境中训练大语言模型代理进行询问、检查与诊断

arXiv cs.CL ↗ · 2天前缓存

本文介绍了 MedExAgent，这是一个将临床诊断形式化为部分可观测马尔可夫决策过程（POMDP）以处理嘈杂和不完整信息的框架。该框架提出了一种结合监督微调与强化学习的两阶段训练流程，以提高医疗大语言模型的诊断准确性和成本效益。

0 人收藏 0 人点赞

#research

通过熵门控连续比特流扩散缩小语言建模中的自回归差距

arXiv cs.CL ↗ · 2天前缓存

本文介绍了一种扩散语言模型，将文本视为二进制比特流上的连续过程，利用熵门控随机采样来缩小与自回归模型的性能差距。该模型在 LM1B 和 OWT 基准测试中取得了最先进的结果，同时降低了内存占用。

0 人收藏 0 人点赞

#research

大语言模型中的模型合并扩展定律

Hugging Face Daily Papers ↗ · 2天前缓存

本文建立了语言模型合并的实证扩展定律，确定了模型规模、专家数量与性能之间的幂律关系，从而能够为最佳模型组合提供预测性规划。

0 人收藏 0 人点赞

#research

Signals：无需 LLM 评审即可找出最具信息量的智能体轨迹 [R]

Reddit r/MachineLearning ↗ · 2天前

Katanemo Labs 推出了 'Signals'，这是一种轻量级方法，可在不使用 LLM 评审或 GPU 的情况下识别出具有高信息量的智能体轨迹，从而在轨迹分析中实现更高的效率。

0 人收藏 0 人点赞

#research

@ylecun：一派胡言。Attention 诞生于蒙特利尔，PyTorch 诞生于纽约，AlphaGo 诞生于伦敦，AlphaFold 诞生于伦敦，ESMFold 诞生于纽约，Llama 1 诞生于巴黎……

X AI KOLs Following ↗ · 3天前缓存

Yann LeCun 通过列举 Attention、PyTorch 和 AlphaFold 等关键突破起源于蒙特利尔、伦敦和巴黎等地，反驳了硅谷在人工智能创新方面占据主导地位的说法。

0 人收藏 0 人点赞

#research

宇宙射线是量子计算机的致命弱点——软件或许能解决这一问题

Lobsters Hottest ↗ · 3天前缓存

一项新研究揭示了一种软件策略，可将超导量子计算机因宇宙射线引发的错误率降低近50万倍，将故障频率从每10秒一次降至每月不到一次。

0 人收藏 0 人点赞

#research

@0xLogicrw: Tilde Research 发现，被 DeepSeek V4、Kimi K2.5、GLM-5 等头部模型采用的优化器 Muon 有一个隐藏缺陷：它会在训练早期让 MLP 层超过四分之一的神经元永久死亡。团队据此设计了替代优化器 Auro…

X AI KOLs Timeline ↗ · 3天前

Tilde Research 发现 Muon 优化器存在导致 MLP 神经元早期死亡的缺陷，并开源了替代方案 Aurora。Aurora 在保持正交性的同时解决了神经元死亡问题，显著提升了训练效率。

0 人收藏 0 人点赞

#research

Aurora：一种针对矩形矩阵的杠杆感知优化器

Lobsters Hottest ↗ · 3天前缓存

Tilde Research 推出了 Aurora，这是一种新型优化器，旨在在保持正交性的同时防止 MLP 层中的神经元死亡，在 nanoGPT 基准测试中取得了最新成果，并在 1B 模型上实现了 100 倍的数据效率。

0 人收藏 0 人点赞

research

提交意见反馈