model-testing

#model-testing

在实际工作负载下，DiffusionGemma 与基准演示的表现截然不同

Reddit r/LocalLLaMA ↗ · 12小时前

DiffusionGemma 的内部测试显示，在实际工作负载下，H100 与 A100 GPU 之间存在显著的性能差异；H100 在并发下的扩展性更好，且效率因工作负载类型而异，这引发了对基准测试可靠性的质疑。

0 人收藏 0 人点赞

#model-testing

Reddit r/singularity ↗ · 3天前

早期测试和泄露信息表明，3.5 Pro模型的结果令人失望，未达到预期。

0 人收藏 0 人点赞

#model-testing

TLDR AI ↗ · 2026-06-05 缓存

一个轻量级、无依赖的Python CLI工具，用于对本地Ollama模型运行相同提示，并将每次响应保存到磁盘，便于轻松对比模型。

0 人收藏 0 人点赞

#model-testing

X AI KOLs Following ↗ · 2026-05-30 缓存

日本银行正在获得OpenAI新模型的早期访问权限以进行安全测试，据称该模型与Anthropic的Claude Mythos相当。

0 人收藏 0 人点赞

#model-testing

Reddit r/LocalLLaMA ↗ · 2026-05-22

OpenBMB 推出了 BitCPM-CANN，这是一款在华为 Ascend 910B 硬件上测试的 1.58 位模型。

0 人收藏 0 人点赞

#model-testing

Hacker News Top ↗ · 2026-05-20

一位开发者通过API在三个实际的机器学习和编程工作流中测试了MiniMax M2.7模型，并评估了其性能。

0 人收藏 0 人点赞

#model-testing

OpenAI Blog ↗ · 2024-11-21 缓存

OpenAI 发布了一份白皮书，详细说明了他们对AI模型进行外部红队测试的方法，包括选择多样化红队成员、确定模型访问权限、提供测试基础设施以及整合反馈以改进AI安全和政策覆盖范围的方法。

0 人收藏 0 人点赞