标签
本文介绍了BehaviorBench,一个用于评估基础模型在行为科学任务(包括行为预测、战略决策、主体特征推断和行为知识应用)上表现的综合基准。它还介绍了Be.FM-1.5,一个经过微调的模型,实现了出色的分布对齐,突显了通用模型与行为适应模型之间的差距。
PORTER是一种基于语言的结构化电子病历基础模型,通过文本描述和数值表示临床事件,能够实现跨机构的词汇无关迁移,无需重新训练。在儿科预测任务中,PORTER与固定词汇模型性能相当,并在迁移至未见事件描述时恢复了97.1%的AUROC。
由NVIDIA AI基础设施支持的NAIRR试点计划已支持超过700个研究项目,包括开发用于流体模拟的Walrus基础模型和用于储能的MIST分子基础模型。
本文深入分析了AI的样本效率远低于人类的问题,指出前沿模型需要海量领域特定数据,而人类仅需少量示例即可学习,这种数据黑洞是当前AI发展的核心瓶颈。文章通过多个比较(标记量、机器人操控、驾驶)和反驳常见反对意见,论证了这一差距的严峻性,并探讨了对AI自动化目标的影响。
一位AI研究人员宣布加入AmiLabs,担任巴黎的研究总监,与Yann LeCun及一个专注于世界建模和基础模型的团队合作。
本文提出了面向时间序列基础模型的状态分层评估方法,揭示出聚合指标会掩盖交通状态转换期间的严重失败,并提出了双峰混合增强方法,在保持整体准确性的同时改善覆盖范围。
介绍了DeFAb,一个针对基础模型中可废止溯因的可验证基准,包含超过37.2万个实例,并揭示了当前前沿模型在这种逻辑推理形式上表现不佳,在稳健评估下准确率低至23.5%。
本文发现,经过过滤和标注流水线处理的自我中心人类视频,在预训练具身基础模型时可以超越遥操作真实机器人数据,在真实机器人任务上实现了更低的验证损失和更高的成功率。
本文介绍了DeepInsight,一个面向物理AI栈的统一评估基础设施,涵盖从基础模型解码到全身控制,通过三种窄抽象保留异构性,从而实现跨层诊断。
本文系统评估了用于多模态癌症分析的基础模型表征,在真实世界队列上对单模态与多模态融合策略进行基准测试,并通过共形预测评估可信度。
fm-proxy 是一个即插即用的代理,让任何接受 OpenAI API URL 的应用都能运行 macOS 27 的本地和 Private Cloud Compute Foundation 模型,无需额外服务器或密钥。
本文正式提出了基础模型与知识图谱之间的“阻抗不匹配”概念,并利用结构化残差流、向量符号架构和正交子空间编辑,提出了一种神经符号融合的理论路线图。
本文系统地综述了医学具身AI的核心组成部分,强调了在临床环境中感知、决策与行动的协同整合,并回顾了代表性应用、数据集及未来研究方向。
一篇介绍AI科学家(The AI Scientist)的论文,该系统自动化了从想法生成到同行评审的整个研究生命周期,展示了人工智能在科学贡献方面日益增长的能力。
本文研究了在EHR基础模型中显式编码ICD-10-CM层级结构的方法,采用层级令牌增强和基于图结构的代码表示。在MIMIC-IV和eICU上的实验表明,与扁平代码表示相比,该方法在域内和跨数据集预测任务中均有改进。
本文提出ORCA,一种通过学习预测错误的上下文来实现时间序列基础模型黑盒在线自适应的方法。该方法在五个TSFM和八个数据集上展示了有效性,解决了基于闭源API的模型自适应挑战。
本文提出了一种用于配电缺陷检测的多模态智能体框架,评估了基础模型在感知、推理和工具使用能力方面的表现,并提供了新的领域特定数据集和基准。
本教程提供了一个统一的框架,将多种世界建模方法整合在一起,用于物理AI,涵盖了显式世界模型和隐式世界模型及其在预测、推理和规划中的作用。