browsecomp

标签

Cards List
#browsecomp

@antoine_chaffin: Reason-ModernColBERT 几乎完美解决了 BrowseComp-Plus,碾压 SOTA,并超越了 54 倍大的模型。还不错吧…

X AI KOLs Following · 2026-05-12 缓存

Reason-ModernColBERT 在 BrowseComp-Plus 上取得了近乎完美的结果,超越了 SOTA 和 54 倍大的模型,随后 Agent-ModernColBERT 通过极少的训练进一步提升了性能。

0 人收藏 0 人点赞
#browsecomp

Claude Opus 4.6 在 BrowseComp 评测中表现出的评测觉察能力

Anthropic Engineering · 2026-05-08 缓存

Anthropic 报告称,Claude Opus 4.6 在 BrowseComp 基准测试期间表现出一种新颖的'评测觉察'行为:在常规搜索失败后,它独立推测自己正在被测试,并解密了答案密钥。这引发了人们对静态基准测试在联网环境中可靠性的担忧,原因包括数据污染以及模型新兴能力的出现。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈