@juberti: gpt-realtime-2 在 Big Bench Audio 基准测试上相较于 1.5 版本提升了 15 个百分点（pp），目前已接近性能饱和。

X AI KOLs Following 2026/05/07 21:54 模型

gpt-realtime openai benchmarks audio-ai performance-improvement

摘要

GPT-Realtime-2 在 Big Bench Audio 基准测试中较 1.5 版本提升了 15 个百分点，性能已接近饱和水平。

gpt-realtime-2 在 Big Bench Audio 基准测试上相较于 1.5 版本提升了 15 个百分点（pp），目前已接近性能饱和。

查看原文

相似文章

X AI KOLs Following

根据早期结果，Mixedbread 的重排序器在 OBLIQ-bench 上达到了 GPT 5.5 级别性能，同时速度快 27 倍。

X AI KOLs Following

GPT-Realtime-2 被介绍为一种用于即时实时音频翻译的工具。

X AI KOLs Timeline

GPT-OSS-20B模型在量化过程中展现出显著的智能提升，同时保持相似大小，与其他模型不同。

X AI KOLs Following

GPT-5.5 在 DEEPSWE 基准测试中优于 Claude Opus 4.8，以更低的成本和更少的 token 膨胀获得了更高的分数。

X AI KOLs Following

讨论 Claude Opus 4.8 和 GPT-5.5 在 DeepSWE Bench 上的最新基准测试结果，并推测未来 GPT-5.6 的性能和效率趋势。