@bo_wangbo:我们在内部随意训练了很多SOTA搜索模型,要不要时不时搞个小发布?
摘要
暗示即将以低调方式发布一个强大的开源多语言ColBERT搜索模型。
查看缓存全文
缓存时间: 2026/05/19 08:45
我们内部随意训练了许多SOTA搜索模型,要不时不时搞点小惊喜放出🤣🤣
Antoine Chaffin (@antoine_chaffin): @bo_wangbo 悄咪咪发布了可能是目前最强的开源多语言ColBERT(而且还是基于编码器的 🫶)
非常高兴看到这个,我在PyLate里玩过@perplexity_ai基于Qwen的编码器,发现只需设置
trust_remote_code=True就能用,真的很酷!
相似文章
@bo_wangbo: 好吧,也许这是个好时机?我们在pplx训练了一个小型colbert模型,它是对pplx-embed-0.6的继续训练…
Perplexity AI发布了pplx-embed-v1-late-0.6b,一个用于检索的小型ColBERT后期交互嵌入模型,基于他们现有的嵌入模型微调并针对MaxSim评分进行了优化,现已在HuggingFace上开源。
@antoine_chaffin: Reason-ModernColBERT 几乎完美解决了 BrowseComp-Plus,碾压 SOTA,并超越了 54 倍大的模型。还不错吧…
Reason-ModernColBERT 在 BrowseComp-Plus 上取得了近乎完美的结果,超越了 SOTA 和 54 倍大的模型,随后 Agent-ModernColBERT 通过极少的训练进一步提升了性能。
@raphaelsrty:今天我们开源 LateOn 与 DenseOn,两款 149 M 参数的开放检索模型
Raphael 开源两款检索模型:LateOn(ColBERT 多向量)与 DenseOn(单向量),均 149 M 参数,在 BEIR 上超越体量 4 倍的大模型。
@Honcia13: 开源TTS直接卷疯了!园区诈骗又有新武器? 清华 OpenBMB 刚刚放出 VoxCPM2: 200亿参数 + 200万小时多语言数据训练,48kHz录音棚级音质! 最狠的是——完全不用Tokenizer,直接在连续潜空间做扩散自回归,细…
清华大学 OpenBMB 发布了 VoxCPM2,这是一个拥有 200 亿参数的开源多语言 TTS 模型,支持无需 Tokenizer 的连续潜空间扩散自回归生成,具备 48kHz 录音棚级音质和强大的声音克隆与设计能力。
@lxfater: 网易有道开源了子曰4大模型,27B参数内,数理 SOTA 但真正让我觉得有趣的是它那个语音功能!! 克隆个声音不稀奇,ElevenLabs 早能做 但它们都有个通病,跨语种会串口音 拿你的中文声音去说日语,它带着一口中国腔,一听就是外国人…
网易有道开源了子曰4大模型,27B参数,数理性能达到SOTA;其语音功能支持3秒跨语言声音克隆,14种语言且无口音问题,同时开源了全场景智能体龙虾。