model-testing

标签

Cards List
#model-testing

在实际工作负载下,DiffusionGemma 与基准演示的表现截然不同

Reddit r/LocalLLaMA · 12小时前

DiffusionGemma 的内部测试显示,在实际工作负载下,H100 与 A100 GPU 之间存在显著的性能差异;H100 在并发下的扩展性更好,且效率因工作负载类型而异,这引发了对基准测试可靠性的质疑。

0 人收藏 0 人点赞
#model-testing

早期测试和泄露显示3.5 pro结果令人失望

Reddit r/singularity · 3天前

早期测试和泄露信息表明,3.5 Pro模型的结果令人失望,未达到预期。

0 人收藏 0 人点赞
#model-testing

Ollama Model Tester (GitHub Repo)

TLDR AI · 2026-06-05 缓存

一个轻量级、无依赖的Python CLI工具,用于对本地Ollama模型运行相同提示,并将每次响应保存到磁盘,便于轻松对比模型。

0 人收藏 0 人点赞
#model-testing

@rohanpaul_ai: 路透社:日本银行正在获得OpenAI最新模型的早期访问权限以进行安全测试,该模型被认为与……

X AI KOLs Following · 2026-05-30 缓存

日本银行正在获得OpenAI新模型的早期访问权限以进行安全测试,据称该模型与Anthropic的Claude Mythos相当。

0 人收藏 0 人点赞
#model-testing

OpenBMB 推出 BitCPM-CANN 1.58 位模型

Reddit r/LocalLLaMA · 2026-05-22

OpenBMB 推出了 BitCPM-CANN,这是一款在华为 Ascend 910B 硬件上测试的 1.58 位模型。

0 人收藏 0 人点赞
#model-testing

通过API在三个真实的机器学习和编程工作流中测试MiniMax M2.7

Hacker News Top · 2026-05-20

一位开发者通过API在三个实际的机器学习和编程工作流中测试了MiniMax M2.7模型,并评估了其性能。

0 人收藏 0 人点赞
#model-testing

用人和AI推进红队测试

OpenAI Blog · 2024-11-21 缓存

OpenAI 发布了一份白皮书,详细说明了他们对AI模型进行外部红队测试的方法,包括选择多样化红队成员、确定模型访问权限、提供测试基础设施以及整合反馈以改进AI安全和政策覆盖范围的方法。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈