标签
Koval 是一个面向语音智能体的模拟与可观测性平台,帮助企业安全扩展语音应用。创始人 Brooke Hopkins 分享了语音作为 AI 自然交互界面的潜力,以及语音 AI 与自动驾驶在架构上的相似性。
Y Combinator 重点介绍了 Coval,这是一个面向AI语音助手的仿真和可观测性平台,该平台已获得了2820万美元的A轮融资。创始人Brooke Hopkins分享了从Waymo学到的经验,以及语音作为关键AI界面的兴起。
一篇批评性分析Qwen-AgentWorld论文的优质推文串,该论文提出面向通用智能体的语言世界模型。批评聚焦于模拟器保真度、基准设计及成本问题,在胡说八道指数上仅得4.5/10分。
Beyond All Reason 是一款受 Total Annihilation 启发的免费即时战略游戏,具有模拟弹道、地形变形和大规模战斗等特点。
构建了一个程序化的水平对置六缸发动机模拟,灵感来源于性能车发动机布局。
麻省理工学院的研究人员开发了一种基于机器学习的方法,能够准确模拟金属合金的行为,无论其化学复杂性如何,从而实现更快、更便宜的材料创新。
LegalWorld是一个生命周期交互环境,将中国民事诉讼建模为跨越五个阶段的因果关联状态链,并与LongJud-Bench配合,用于评估法律智能体在整个过程中的表现。
讨论了AI智能体在执行行动前模拟后果的必要性,超越简单的权限检查,评估更广泛的影响,并确保负责任的自动化。
本文介绍了 Environments AI,这是一个能够为物理模拟生成并运行代码的工具,有助于更轻松地创建模拟环境。
本文介绍CEO-Bench,一个用于评估LLM在CEO级战略资源重新配置上的多智能体基准,揭示了系统性故障模式以及结构性的整合-大胆权衡。
介绍PhET Interactive Simulations,一款由科罗拉多大学出品、免费且无广告的互动科学模拟工具,覆盖物理、化学、生物等多个学科,已累计超18亿次模拟,适合各年龄段学生和教师使用。
这篇博客文章主张在计算机体系结构中回归严谨的全系统时序仿真,以克服“时序仿真墙”并准确捕捉现代系统行为,提倡使用统计上可靠的方法测量正确的执行区间,而不是详细仿真一切。
Guava 是一个用于具身工具使用的框架,它将高级推理与外部模块相结合,使紧凑模型能够以极少的训练数据执行复杂的操作任务。实验表明,其性能可与前沿专有模型相媲美。
CEO-Bench 引入了一个模拟基准测试,评估语言模型智能体在500天内管理初创公司的能力,测试内容包括长期规划、噪声处理、适应性和多任务协调。结果显示,即使是最强的模型也表现挣扎,只有Claude Opus 4.8和GPT-5.5的最终余额高于起始资金。
Google 已使其 Earth 飞行模拟器可通过网页浏览器访问,无需下载,将此前隐藏的桌面功能带给更广泛的用户。
Emergence AI 进行了一项实验,让5个不同的AI在虚拟小镇中各自统治15天,结果从零犯罪到世界崩溃不等,被认为是最接近真实的AI对齐压力测试。