ai-simulation

#ai-simulation

BEAMS: AI在建模与仿真中的基准测试与评估

arXiv cs.AI ↗ · 2026-05-29 缓存

BEAMS倡议提出了一套基准测试集，用于评估建模与仿真中的AI工具，重点关注以人为本和负责任的AI实践。测试显示，基于LLM的引擎存在差异，在定性任务上的表现优于因果推理。

0 人收藏 0 人点赞

#ai-simulation

Reddit r/ArtificialInteligence ↗ · 2026-05-22

一项研究表明，仅改变人物提示的格式（散文与要点）就戏剧性地翻转了LLM在囚徒困境中的行为，从96%的合作率降至20%，说明了在内容相同的情况下对格式的极端敏感性（p < 0.001）。

0 人收藏 0 人点赞

#ai-simulation

Google DeepMind Blog ↗ · 2026-05-17 缓存

Project Genie 是 Google 的通用世界模型，现已与 Street View 集成，能够基于真实地点创建交互式环境，可供 Google AI Ultra 订阅用户使用。

0 人收藏 0 人点赞

#ai-simulation

Google DeepMind Blog ↗ · 2025-10-24 缓存

DeepMind 发布 Genie 3，一个通用世界模型，能够从文本提示生成交互式环境，分辨率达 720p、帧率 24fps，相比前代版本具有更好的一致性和实时交互能力。

0 人收藏 0 人点赞