标签
关于DeepSWE基准测试的讨论显示,DeepSeek v4 Pro仅通过了8%的任务,与它在类似任务上的表现相比,这个分数低得令人惊讶。
一项实验向 GPT-4o、Claude 3.5 Sonnet 等其他模型提供相同的双摆提示,结果显示它们选择了相反的角约定,导致在共享渲染器中立即出现可见的不匹配。这种约定分裂在不同模型家族间并非随机,表明在经典力学问题的训练数据分布中存在偏差。