标签
BEAMS倡议提出了一套基准测试集,用于评估建模与仿真中的AI工具,重点关注以人为本和负责任的AI实践。测试显示,基于LLM的引擎存在差异,在定性任务上的表现优于因果推理。
一项研究表明,仅改变人物提示的格式(散文与要点)就戏剧性地翻转了LLM在囚徒困境中的行为,从96%的合作率降至20%,说明了在内容相同的情况下对格式的极端敏感性(p < 0.001)。
Project Genie 是 Google 的通用世界模型,现已与 Street View 集成,能够基于真实地点创建交互式环境,可供 Google AI Ultra 订阅用户使用。
DeepMind 发布 Genie 3,一个通用世界模型,能够从文本提示生成交互式环境,分辨率达 720p、帧率 24fps,相比前代版本具有更好的一致性和实时交互能力。