标签
Modal 宣布与 OpenAI Devs 和 Antler Global 合作,将于 5 月 30 日举办 Autoresearch Systems Hackathon,旨在应对数据和计算密集型挑战。
本文介绍了 INSET,这是一个统一的多模态模型,它将图像作为原生词汇嵌入到文本指令中,从而提高了在图像生成和编辑任务中处理复杂交错输入的能力。
本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。
本文介绍了 MemoRepair,这是一种针对智能体记忆的屏障优先级联修复协议,旨在解决源数据变更时衍生工件过时的问题。实验表明,与穷举修复方法相比,MemoRepair 显著降低了失效记忆的暴露率和修复成本。
本文介绍了 HMACE,这是一种异构多智能体协同进化框架,利用大型语言模型(LLM)自动化设计启发式算法,以解决 NP 难组合优化问题。实验表明,在旅行商问题(TSP)和装箱问题(BPP)等任务上,该方法在质量与效率的权衡方面优于单智能体和基准多智能体方法。
本实证研究通过评估大语言模型在等价类问题上的表现,以考察其长链推理能力。研究发现,非推理模型在此类任务上表现失败,而推理模型虽表现更好,但仍难以完全解决特定结构性难题。
本文提出了 MIPIAD,这是一种针对间接提示注入攻击的多语言防御框架,融合了基于 Qwen2.5 的分类器、TF-IDF 特征以及元集成学习。该框架在英语和孟加拉语基准测试中表现出色,取得了较高的 F1 和 AUROC 分数,同时缩小了跨语言差距。
本文主张生成式人工智能的评估应从静态基准转向衡量现实效用和人类成果。文章提出了 SCU-GenEval 框架及辅助工具,旨在解决基准表现与部署成功之间的脱节问题。
本文介绍了 LogiHard,这是一个利用组合硬化来暴露前沿大语言模型组合性缺陷的框架,展示了模型在逻辑推理任务中准确率的显著下降。
本文介绍了 ProtSent,这是一个用于蛋白质语言模型的对比微调框架,能够提升嵌入质量,从而优化远程同源性检测和结构检索等下游任务。
本文介绍了 MIND(Monge 初始距离),这是一种用于评估生成模型的新指标,比标准的 Fréchet 初始距离(FID)具有更高的样本效率、更快的速度以及更强的鲁棒性。
本文介绍了 Region4Web 框架,该框架通过将观测空间组织成功能区域而非单个元素,从而提升了网络智能体的性能。研究表明,这种方法在 WebArena 基准测试上缩短了观测长度并提高了任务成功率。
本文介绍了 MedExAgent,这是一个将临床诊断形式化为部分可观测马尔可夫决策过程(POMDP)以处理嘈杂和不完整信息的框架。该框架提出了一种结合监督微调与强化学习的两阶段训练流程,以提高医疗大语言模型的诊断准确性和成本效益。
本文介绍了一种扩散语言模型,将文本视为二进制比特流上的连续过程,利用熵门控随机采样来缩小与自回归模型的性能差距。该模型在 LM1B 和 OWT 基准测试中取得了最先进的结果,同时降低了内存占用。
Katanemo Labs 推出了 'Signals',这是一种轻量级方法,可在不使用 LLM 评审或 GPU 的情况下识别出具有高信息量的智能体轨迹,从而在轨迹分析中实现更高的效率。
Yann LeCun 通过列举 Attention、PyTorch 和 AlphaFold 等关键突破起源于蒙特利尔、伦敦和巴黎等地,反驳了硅谷在人工智能创新方面占据主导地位的说法。
一项新研究揭示了一种软件策略,可将超导量子计算机因宇宙射线引发的错误率降低近50万倍,将故障频率从每10秒一次降至每月不到一次。
Tilde Research 发现 Muon 优化器存在导致 MLP 神经元早期死亡的缺陷,并开源了替代方案 Aurora。Aurora 在保持正交性的同时解决了神经元死亡问题,显著提升了训练效率。
Tilde Research 推出了 Aurora,这是一种新型优化器,旨在在保持正交性的同时防止 MLP 层中的神经元死亡,在 nanoGPT 基准测试中取得了最新成果,并在 1B 模型上实现了 100 倍的数据效率。