coding-tasks

标签

Cards List
#coding-tasks

DeepSWE基准测试显示,DeepSeek v4 Pro仅通过8%的任务

Reddit r/LocalLLaMA · 4天前

关于DeepSWE基准测试的讨论显示,DeepSeek v4 Pro仅通过了8%的任务,与它在类似任务上的表现相比,这个分数低得令人惊讶。

0 人收藏 0 人点赞
#coding-tasks

向 GPT-4o 和 Claude 提供了完全相同的双摆提示。它们在几秒钟内选择了相反的角约定。

Reddit r/ArtificialInteligence · 2026-05-16

一项实验向 GPT-4o、Claude 3.5 Sonnet 等其他模型提供相同的双摆提示,结果显示它们选择了相反的角约定,导致在共享渲染器中立即出现可见的不匹配。这种约定分裂在不同模型家族间并非随机,表明在经典力学问题的训练数据分布中存在偏差。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈