@bo_wangbo：我们在内部随意训练了很多SOTA搜索模型，要不要时不时搞个小发布？

X AI KOLs Following 2026/05/18 18:05 模型

search colbert multilingual open-source encoder-model model-release

摘要

暗示即将以低调方式发布一个强大的开源多语言ColBERT搜索模型。

我们在内部随意训练了很多SOTA搜索模型，要不要时不时搞个小发布？🤣🤣

查看原文

查看缓存全文

缓存时间: 2026/05/19 08:45

我们内部随意训练了许多SOTA搜索模型，要不时不时搞点小惊喜放出🤣🤣

Antoine Chaffin (@antoine_chaffin): @bo_wangbo 悄咪咪发布了可能是目前最强的开源多语言ColBERT（而且还是基于编码器的 🫶）

非常高兴看到这个，我在PyLate里玩过@perplexity_ai基于Qwen的编码器，发现只需设置trust_remote_code=True就能用，真的很酷！

相似文章

@bo_wangbo: 好吧，也许这是个好时机？我们在pplx训练了一个小型colbert模型，它是对pplx-embed-0.6的继续训练…

X AI KOLs Following

Perplexity AI发布了pplx-embed-v1-late-0.6b，一个用于检索的小型ColBERT后期交互嵌入模型，基于他们现有的嵌入模型微调并针对MaxSim评分进行了优化，现已在HuggingFace上开源。

@antoine_chaffin: Reason-ModernColBERT 几乎完美解决了 BrowseComp-Plus，碾压 SOTA，并超越了 54 倍大的模型。还不错吧…

X AI KOLs Following

Reason-ModernColBERT 在 BrowseComp-Plus 上取得了近乎完美的结果，超越了 SOTA 和 54 倍大的模型，随后 Agent-ModernColBERT 通过极少的训练进一步提升了性能。

@raphaelsrty：今天我们开源 LateOn 与 DenseOn，两款 149 M 参数的开放检索模型

X AI KOLs Following

Raphael 开源两款检索模型：LateOn（ColBERT 多向量）与 DenseOn（单向量），均 149 M 参数，在 BEIR 上超越体量 4 倍的大模型。

@Honcia13: 开源TTS直接卷疯了！园区诈骗又有新武器？清华 OpenBMB 刚刚放出 VoxCPM2： 200亿参数 + 200万小时多语言数据训练，48kHz录音棚级音质！最狠的是——完全不用Tokenizer，直接在连续潜空间做扩散自回归，细…

X AI KOLs Timeline

清华大学 OpenBMB 发布了 VoxCPM2，这是一个拥有 200 亿参数的开源多语言 TTS 模型，支持无需 Tokenizer 的连续潜空间扩散自回归生成，具备 48kHz 录音棚级音质和强大的声音克隆与设计能力。

@lxfater: 网易有道开源了子曰4大模型，27B参数内，数理 SOTA 但真正让我觉得有趣的是它那个语音功能！！克隆个声音不稀奇，ElevenLabs 早能做但它们都有个通病，跨语种会串口音拿你的中文声音去说日语，它带着一口中国腔，一听就是外国人…

X AI KOLs Timeline

网易有道开源了子曰4大模型，27B参数，数理性能达到SOTA；其语音功能支持3秒跨语言声音克隆，14种语言且无口音问题，同时开源了全场景智能体龙虾。

相似文章

@bo_wangbo: 好吧，也许这是个好时机？我们在pplx训练了一个小型colbert模型，它是对pplx-embed-0.6的继续训练…

@antoine_chaffin: Reason-ModernColBERT 几乎完美解决了 BrowseComp-Plus，碾压 SOTA，并超越了 54 倍大的模型。还不错吧…

@raphaelsrty：今天我们开源 LateOn 与 DenseOn，两款 149 M 参数的开放检索模型

@Honcia13: 开源TTS直接卷疯了！园区诈骗又有新武器？ 清华 OpenBMB 刚刚放出 VoxCPM2： 200亿参数 + 200万小时多语言数据训练，48kHz录音棚级音质！ 最狠的是——完全不用Tokenizer，直接在连续潜空间做扩散自回归，细…

提交意见反馈

@Honcia13: 开源TTS直接卷疯了！园区诈骗又有新武器？清华 OpenBMB 刚刚放出 VoxCPM2： 200亿参数 + 200万小时多语言数据训练，48kHz录音棚级音质！最狠的是——完全不用Tokenizer，直接在连续潜空间做扩散自回归，细…