@OfirPress: 感谢Anthropic在新的系统卡中使用了*五个*我们的基准测试。
摘要
OfirPress感谢Anthropic在新的系统卡中使用了他们的五个基准测试。
感谢Anthropic在新的系统卡中使用了我们的*五个*基准测试。 https://t.co/nFhXtmv5T1
查看缓存全文
缓存时间: 2026/06/10 21:55
感谢 Anthropic 在新的系统卡中使用了我们的五个基准测试。https://t.co/nFhXtmv5T1
相似文章
@orca_build: Anthropic的新款Opus 4.8在Terminal-Bench 2.1上的得分比GPT 5.5低3.6%……但在UI任务上明显更出色。
Anthropic的Opus 4.8在Terminal-Bench 2.1上比GPT 5.5低3.6%,但擅长UI任务;Orca的编排功能让Codex能将UI任务委托给Claude Code。
OpenAI Five 基准测试:结果
OpenAI 发布了其 Dota 2 游戏系统 OpenAI Five 的基准测试结果,详细介绍了六个主要版本的训练方法,计算需求从 8 到 35 petaflop/s-days 不等,并推出了新的网络架构工具。
@SanthProject: 现在这个基准测试我支持,而不是那个被操纵得很离谱的DeepSwe基准测试
SanthProject赞扬了Cognition的新FrontierCode代码评估基准,称其为DeepSwe基准的公平替代方案。
Claude Opus 4.8:系统卡(阅读时间40分钟)
深度分析Anthropic的Claude Opus 4.8系统卡,详细阐述了相较Opus 4.7在能力、安全评估和对齐风险方面的增量改进。
@LeonEnglaender: 我们核心代码团队只有8个人,我们的30B-A3B模型与Claude Haiku 4.5性能相当,并超越了NVIDIA…
一个8人团队发布了采用Apache 2.0许可的30B-A3B编码模型,其性能与Claude Haiku 4.5相当,并在Artificial Analysis Coding Index上击败了NVIDIA的120B-A12B Nemotron 3 Super。