标签
微软的NextLat引入了一种训练目标,它奖励信念状态表示,而不是仅仅依赖于下一个词预测,从而推动模型向紧凑的世界模型发展,以实现更好的泛化。
微软研究院提出Next-Latent Prediction (NextLat)方法,一种自监督学习方法,训练变换器预测自身下一个潜在状态,从而形成用于推理和规划的紧凑世界模型,并通过自推测解码实现高达3.3倍的推理加速。
微软研究院在最新的Research Focus通讯中重点介绍了多项进展,包括使用CoddSpeed实现30倍加速分析、AI野生动物重新识别,以及无需重新训练即可跨任务学习的LLM。
微软的 Project Ire 是一个自主恶意软件分类代理,它通过行为逆向工程成功识别出一个规避了主流 EDR 工具的 LOTUSLITE 变体,且无需依赖 IOC 签名。
Microsoft Research 推出 Arbor,一个使用持久假设树精炼进行累积学习的通用自主研究代理,在六个研究任务上超越 Codex 和 Claude Code,并在 MLE-Bench Lite 上达到 86% 的 Any-Medal。
微软研究院推出Mirage,一种潜在空间记忆,直接将3D场景存储为潜在标记,实现视频生成速度提升高达10.57倍,内存使用降低55倍,并达到最先进的一致性。
微软研究院最新通讯重点介绍了AgentPex(一个用于自动评估智能体行为的开源系统);关于排序系统方差缩减的新理论工作;呼吁从文档转向仓库以促进人机协作;以及一项关于AI价值对齐的全球挑战。
三篇值得关注的人工智能论文综述:SkillOpt 将技能文档视为可训练参数以优化冻结的智能体;一种新方法将智能体工作流编译成模型权重,实现100倍成本降低;而 AutoScientists 引入了一个去中心化智能体团队,无需中央规划者即可进行长期科学研究。
微软研究院推出了SkillOpt,该方法将智能体技能文档视为可训练的外部状态,利用优化器模型进行受限编辑,并通过预留集进行验证。该方案在52个评估单元中取得最佳或并列结果,在GPT-5.5上准确率提升超过23个百分点,且零额外推理成本,技能可迁移。
介绍 SkillOpt,一个将自然语言技能视为可训练外部参数而非微调模型权重的优化器。它通过有界编辑和验证门控实现稳定、可控的技能更新,在 7 个模型的 6 个基准测试的 52 个设置中取得最佳或并列最佳结果。
Magma 是微软研究院推出的一个开源仓库,用于构建整合视觉、语言和行动的多模态 AI 智能体,提供模型链接、推理示例、训练说明和演示。
微软2026年《未来工作》报告指出,生成式AI正以前所未有的速度重塑职场,但红利分配极不均匀,初级岗位受冲击最大;AI正从加速工具变为协作伙伴,人的专业判断力反而更加重要。
微软研究在微软研究论坛虚拟系列中宣布了新的工具、模型、仓库和论文,包括MagenticLite、智能体驱动的GitHub工作流、验证优先的智能体以及语义匹配微调。
Microsoft推出GridSFM,这是一个小型基础模型,能够在毫秒内预测交流最优潮流,显著提高电网效率并降低拥堵成本。
微软研究院宣布了MatterSim的更新,包括MatterSim-MT,这是一个用于材料表征的多任务基础模型,更快的模拟(速度提升3-5倍),以及一种新材料热导率预测的实验验证。
本文介绍了 Switchcraft,这是首个专为智能体工具调用优化的 AI 模型路由器,旨在降低推理成本。通过使用轻量级的 DistilBERT 分类器,它在保持高工具使用准确性的同时,实现了显著的成本节约。
Microsoft Research 和 Salesforce 发布的新论文揭示,由于“迷失于对话”(Lost in Conversation)现象,LLM 在多轮对话中的性能显著下降,这对当前单轮基准测试的可靠性提出了挑战。
Microsoft Research 的这篇论文介绍了一种随机调度技术,旨在为发现软件系统中的 Bug 提供概率性保证。该成果已发表于 ASPLOS 会议,核心在于利用算法随机性来实现系统化的故障检测。
本文介绍了 DataDignity,这是一个针对精准溯源(pinpoint provenance)的框架与基准(FakeWiki),旨在识别支持大语言模型(LLM)回答的具体训练数据来源。文章提出了 ScoringModel 和 SteerFuse 两种方法,以在标准检索基线之上提高归属准确率。
本文介绍了 AgenticRAG,这是一个来自微软的框架,通过为大型语言模型(LLM)配备迭代搜索、文档导航和分析工具,增强了企业知识库的检索能力。它在多个基准测试中展示了相比标准 RAG 流水线在召回率和事实准确性方面的显著提升。