@OfirPress: 感谢Anthropic在新的系统卡中使用了五个我们的基准测试。

X AI KOLs Following 2026/06/09 17:52 新闻

benchmarks anthropic system-card acknowledgment

摘要

OfirPress感谢Anthropic在新的系统卡中使用了他们的五个基准测试。

感谢Anthropic在新的系统卡中使用了我们的*五个*基准测试。 https://t.co/nFhXtmv5T1

查看原文

查看缓存全文

缓存时间: 2026/06/10 21:55

感谢 Anthropic 在新的系统卡中使用了我们的五个基准测试。https://t.co/nFhXtmv5T1

相似文章

X AI KOLs Timeline

Anthropic的Opus 4.8在Terminal-Bench 2.1上比GPT 5.5低3.6%，但擅长UI任务；Orca的编排功能让Codex能将UI任务委托给Claude Code。

OpenAI Blog

OpenAI 发布了其 Dota 2 游戏系统 OpenAI Five 的基准测试结果，详细介绍了六个主要版本的训练方法，计算需求从 8 到 35 petaflop/s-days 不等，并推出了新的网络架构工具。

X AI KOLs Following

SanthProject赞扬了Cognition的新FrontierCode代码评估基准，称其为DeepSwe基准的公平替代方案。

TLDR AI

深度分析Anthropic的Claude Opus 4.8系统卡，详细阐述了相较Opus 4.7在能力、安全评估和对齐风险方面的增量改进。

X AI KOLs Timeline

一个8人团队发布了采用Apache 2.0许可的30B-A3B编码模型，其性能与Claude Haiku 4.5相当，并在Artificial Analysis Coding Index上击败了NVIDIA的120B-A12B Nemotron 3 Super。