标签
DiffusionGemma 的内部测试显示,在实际工作负载下,H100 与 A100 GPU 之间存在显著的性能差异;H100 在并发下的扩展性更好,且效率因工作负载类型而异,这引发了对基准测试可靠性的质疑。
一个轻量级、无依赖的Python CLI工具,用于对本地Ollama模型运行相同提示,并将每次响应保存到磁盘,便于轻松对比模型。
日本银行正在获得OpenAI新模型的早期访问权限以进行安全测试,据称该模型与Anthropic的Claude Mythos相当。
OpenBMB 推出了 BitCPM-CANN,这是一款在华为 Ascend 910B 硬件上测试的 1.58 位模型。
一位开发者通过API在三个实际的机器学习和编程工作流中测试了MiniMax M2.7模型,并评估了其性能。
OpenAI 发布了一份白皮书,详细说明了他们对AI模型进行外部红队测试的方法,包括选择多样化红队成员、确定模型访问权限、提供测试基础设施以及整合反馈以改进AI安全和政策覆盖范围的方法。