标签
本文系统性地比较了在BERTopic流程中使用七种基于Transformer的语言模型时模型大小对主题质量的影响,发现模型大小对主题连贯性影响微乎其微,表明较小的模型可以达到与较大模型相当的性能。
HuggingFace 基准数据集现在支持按模型大小筛选,从而可以进行类似 'swebenchverified 上 32B 以下最佳模型' 的比较。
一个 27B 参数的模型据称在基准测试中击败 Opus 4.5,引发社区质疑,大家呼吁用真实 Agent 工作流验证。