标签
General Intuition 宣布获得3.2亿美元A轮融资,估值达23亿美元,将利用Medal的游戏数据构建大型动作基础模型。
Santiago认为,构建最佳基础模型的公司不一定会在基于这些模型的产品上胜出;专注和注重细节是关键,以云服务提供商为例。
本文介绍了一种使用冻结基础模型的可穿戴压力检测检索增强个性化方法,无需标记用户数据即可实现接近监督微调的性能。
本文介绍了BehaviorBench,一个用于评估基础模型在行为科学任务(包括行为预测、战略决策、主体特征推断和行为知识应用)上表现的综合基准。它还介绍了Be.FM-1.5,一个经过微调的模型,实现了出色的分布对齐,突显了通用模型与行为适应模型之间的差距。
PORTER是一种基于语言的结构化电子病历基础模型,通过文本描述和数值表示临床事件,能够实现跨机构的词汇无关迁移,无需重新训练。在儿科预测任务中,PORTER与固定词汇模型性能相当,并在迁移至未见事件描述时恢复了97.1%的AUROC。
由NVIDIA AI基础设施支持的NAIRR试点计划已支持超过700个研究项目,包括开发用于流体模拟的Walrus基础模型和用于储能的MIST分子基础模型。
本文深入分析了AI的样本效率远低于人类的问题,指出前沿模型需要海量领域特定数据,而人类仅需少量示例即可学习,这种数据黑洞是当前AI发展的核心瓶颈。文章通过多个比较(标记量、机器人操控、驾驶)和反驳常见反对意见,论证了这一差距的严峻性,并探讨了对AI自动化目标的影响。
EBench 是一个用于通用移动操作策略的诊断基准,提供跨越26个任务和4个泛化维度的多维度概况,揭示超出总体成功率的架构性优缺点。
一位AI研究人员宣布加入AmiLabs,担任巴黎的研究总监,与Yann LeCun及一个专注于世界建模和基础模型的团队合作。
本文提出了面向时间序列基础模型的状态分层评估方法,揭示出聚合指标会掩盖交通状态转换期间的严重失败,并提出了双峰混合增强方法,在保持整体准确性的同时改善覆盖范围。
介绍了DeFAb,一个针对基础模型中可废止溯因的可验证基准,包含超过37.2万个实例,并揭示了当前前沿模型在这种逻辑推理形式上表现不佳,在稳健评估下准确率低至23.5%。
本文发现,经过过滤和标注流水线处理的自我中心人类视频,在预训练具身基础模型时可以超越遥操作真实机器人数据,在真实机器人任务上实现了更低的验证损失和更高的成功率。
本文介绍了DeepInsight,一个面向物理AI栈的统一评估基础设施,涵盖从基础模型解码到全身控制,通过三种窄抽象保留异构性,从而实现跨层诊断。
本文系统评估了用于多模态癌症分析的基础模型表征,在真实世界队列上对单模态与多模态融合策略进行基准测试,并通过共形预测评估可信度。
fm-proxy 是一个即插即用的代理,让任何接受 OpenAI API URL 的应用都能运行 macOS 27 的本地和 Private Cloud Compute Foundation 模型,无需额外服务器或密钥。
本文正式提出了基础模型与知识图谱之间的“阻抗不匹配”概念,并利用结构化残差流、向量符号架构和正交子空间编辑,提出了一种神经符号融合的理论路线图。
本文系统地综述了医学具身AI的核心组成部分,强调了在临床环境中感知、决策与行动的协同整合,并回顾了代表性应用、数据集及未来研究方向。
一篇介绍AI科学家(The AI Scientist)的论文,该系统自动化了从想法生成到同行评审的整个研究生命周期,展示了人工智能在科学贡献方面日益增长的能力。
本文研究了在EHR基础模型中显式编码ICD-10-CM层级结构的方法,采用层级令牌增强和基于图结构的代码表示。在MIMIC-IV和eICU上的实验表明,与扁平代码表示相比,该方法在域内和跨数据集预测任务中均有改进。