标签
本文提出了一种用于配电缺陷检测的多模态智能体框架,评估了基础模型在感知、推理和工具使用能力方面的表现,并提供了新的领域特定数据集和基准。
本教程提供了一个统一的框架,将多种世界建模方法整合在一起,用于物理AI,涵盖了显式世界模型和隐式世界模型及其在预测、推理和规划中的作用。
TimeRouter 提出了一种高效的时间序列基础模型路由框架,利用轻量级判别路由和选择性门控,无需大型语言模型(LLM)开销即可自适应选择最佳专家模型,在 GIFT-EVAL 排行榜上达到了最先进水平。
在WWDC26上,苹果宣布了多个面向开发者的开源SDK和免费可试用能力,包括Foundation Models框架开源、Game Porting Toolkit 4、Xcode 27智能代理、Private Cloud Compute免费算力、Core AI框架以及新一代App Intents框架。
一条推文引用了一篇涵盖六种不同类型基础模型的文章,指出这些模型使用相同的构建模块,根据任务类型特征重新组合,并暗示未来可能实现统一。
Qualia 入选 Google DeepMind 机器人项目,旨在训练具身模型以完成真实世界的体力任务,推动机器人领域的基础模型与推理发展。
ETH Zurich 已开源其2026年机器人学习课程的完整内容,包括幻灯片、讲座录像、编程作业和GitHub仓库,内容涵盖从模仿学习到机器人基础模型等主题,并邀请了行业领袖进行客座讲座。
本文系统评估了11种用于基础模型预训练的合成时间序列生成器,发现生成器的排名在不同架构下不稳定,但所有生成器的等权重混合结果与最佳单个生成器相当或更优。将这种混合与真实数据融合可得到最强的预训练语料,从而将合成预训练重新定义为语料组合问题而非生成器选择问题。
本文提出了基础模型代理中“部署时记忆化”的概念,分析了记忆设计选择(摘要激进程度、检索广度、删除模式)如何影响个性化效用、提取风险和删除保真度,并提出了新的指标,如个性化召回率、对抗提取率和遗忘残留分数。
本文提出SDBN,一种将对抗训练与参数高效微调相结合的框架,旨在提升基础模型在噪声和有限数据下的鲁棒性,并在低资源场景中展现出显著改进。
InternVideo3 引入了多模态上下文推理(MCR)和高效注意力机制,以增强长时域多模态任务,在视频理解基准上取得了强劲的结果,并展示了视频智能体能力。
在WWDC上,苹果发布了由Google Gemini驱动的新Siri AI,强调隐私和本地处理,但功能大多只是追赶竞争对手,且要到今年晚些时候才能推出。
苹果宣布其私有云计算架构现已扩展到第三方硬件,具体来说是Google的服务器,利用Nvidia、Intel和Google的安全技术来为AFM 3 Cloud Pro等高级AI模型维持隐私保障。
宣布推出基础模型命令行工具,可通过更新Mac并下载Xcode 27测试版,然后在终端中运行'fm'来获取。
一项研究评估了Prithvi-EO-2.0基础模型在19个不同全球洪水事件中用于卫星洪水制图的效果,发现检测精度共同受土地覆盖和洪水类型的影响。
本文提出了一种新颖的主动学习框架,利用基础模型先验来同时解决类别不平衡和标签噪声问题,在图像和文本领域相比基线方法节省了超过50%的标注成本。
Apple 宣布,首次App Store下载量少于200万的开发者可以通过Private Cloud Compute免费使用其Foundation Models,无需支付云端API费用,旨在通过降低AI基础设施门槛来吸引独立开发者。
在 Extreme Alpha RN 活动中,一位来自 Google 的特邀嘉宾将讨论下一代基础模型,另外还有 MLX 联合创始人 Awni Hannun 也将出席。
一篇关于现代深度学习的详细个人综述,聚焦于基础模型、视觉语言模型及其架构决策,面向那些希望获得直觉而非密集数学的读者。
Apple 在 WWDC 上推出全新 Siri AI,基于与 Google 合作开发的新 Apple Foundation Models,具备对话式界面、系统集成和隐私优先处理,并将在其设备生态系统中逐步推出。