@juberti: gpt-realtime-2 在 Big Bench Audio 基准测试上相较于 1.5 版本提升了 15 个百分点(pp),目前已接近性能饱和。
摘要
GPT-Realtime-2 在 Big Bench Audio 基准测试中较 1.5 版本提升了 15 个百分点,性能已接近饱和水平。
gpt-realtime-2 在 Big Bench Audio 基准测试上相较于 1.5 版本提升了 15 个百分点(pp),目前已接近性能饱和。
相似文章
@RuiTheBaker: GPT 5.5级别的排名,但快27倍?!@mixedbreadai
根据早期结果,Mixedbread 的重排序器在 OBLIQ-bench 上达到了 GPT 5.5 级别性能,同时速度快 27 倍。
@gdb: GPT-Realtime-2 用于即时实时翻译音频
GPT-Realtime-2 被介绍为一种用于即时实时音频翻译的工具。
@lucastech: 真的很酷,看到gpt-oss-20b与我测试过的所有其他模型相比有多大的不同,每种量化都显著…
GPT-OSS-20B模型在量化过程中展现出显著的智能提升,同时保持相似大小,与其他模型不同。
@sashimikun_void: GPT-5.5 在 DEEPSWE 基准测试中优于 Claude Opus 4.8。Opus 4.8 耗时两倍,生成三倍的…
GPT-5.5 在 DEEPSWE 基准测试中优于 Claude Opus 4.8,以更低的成本和更少的 token 膨胀获得了更高的分数。
@omarsar0: 效率前沿!你认为 GPT-5.6 会落在哪里?
讨论 Claude Opus 4.8 和 GPT-5.5 在 DeepSWE Bench 上的最新基准测试结果,并推测未来 GPT-5.6 的性能和效率趋势。