@lxfater: 网易有道开源了子曰4大模型,27B参数内,数理 SOTA 但真正让我觉得有趣的是它那个语音功能!! 克隆个声音不稀奇,ElevenLabs 早能做 但它们都有个通病,跨语种会串口音 拿你的中文声音去说日语,它带着一口中国腔,一听就是外国人…

X AI KOLs Timeline 模型

摘要

网易有道开源了子曰4大模型,27B参数,数理性能达到SOTA;其语音功能支持3秒跨语言声音克隆,14种语言且无口音问题,同时开源了全场景智能体龙虾。

网易有道开源了子曰4大模型,27B参数内,数理 SOTA 但真正让我觉得有趣的是它那个语音功能!! 克隆个声音不稀奇,ElevenLabs 早能做 但它们都有个通病,跨语种会串口音 拿你的中文声音去说日语,它带着一口中国腔,一听就是外国人在硬讲 子曰4 主打的,就是把这口音去掉 你的声音说日语,听着就是个日本人在讲 3 秒克隆,支持 14 种语言(可以看视频演示) 做口播、配音、数字人,省钱效果还好,对不对? 而且子曰4 这大模型是真开源,给的是权重不是 API 54 个 G 权重直接下载,能本地跑 有道龙虾那个全场景智能体,也是 100% 开源的 大模型开源了,龙虾也开源了,全往外送 有道图啥?靠什么赚钱? 我还真扒到了它赚钱的秘密下面:
查看原文
查看缓存全文

缓存时间: 2026/05/22 11:49

网易有道开源了子曰4大模型,27B参数内,数理 SOTA

但真正让我觉得有趣的是它那个语音功能!!

克隆个声音不稀奇,ElevenLabs 早能做 但它们都有个通病,跨语种会串口音 拿你的中文声音去说日语,它带着一口中国腔,一听就是外国人在硬讲 子曰4 主打的,就是把这口音去掉

你的声音说日语,听着就是个日本人在讲 3 秒克隆,支持 14 种语言(可以看视频演示) 做口播、配音、数字人,省钱效果还好,对不对?

而且子曰4 这大模型是真开源,给的是权重不是 API 54 个 G 权重直接下载,能本地跑

有道龙虾那个全场景智能体,也是 100% 开源的 大模型开源了,龙虾也开源了,全往外送

有道图啥?靠什么赚钱? 我还真扒到了它赚钱的秘密下面:

相似文章

@Honcia13: 开源TTS直接卷疯了!园区诈骗又有新武器? 清华 OpenBMB 刚刚放出 VoxCPM2: 200亿参数 + 200万小时多语言数据训练,48kHz录音棚级音质! 最狠的是——完全不用Tokenizer,直接在连续潜空间做扩散自回归,细…

X AI KOLs Timeline

清华大学 OpenBMB 发布了 VoxCPM2,这是一个拥有 200 亿参数的开源多语言 TTS 模型,支持无需 Tokenizer 的连续潜空间扩散自回归生成,具备 48kHz 录音棚级音质和强大的声音克隆与设计能力。

@aigclink: 阿里通义实验室最新发布了款ASR:Fun-ASR 1.5,核心能力:方言工业级可用 单模型即可无缝覆盖30种语言、汉语七大方言体系及20+ 地方口音,古诗词吟诵也能精准转写 典型方言场景CER相对上代下降56.2%,有5种方言准确率破 9…

X AI KOLs Timeline

阿里通义实验室发布Fun-ASR 1.5,单模型覆盖30种语言、汉语七大方言及20余种地方口音,典型方言场景字错率较上代下降56.2%,5种方言准确率突破90%。

@MaxForAI: 如果你在做语音Agent,你应该试一下这个项目 来自南洋理工、新国立和上海 AI Lab的团队发布了:Mega-ASR 这个完全开源的ASR基于 Qwen3-ASR构建,目的是打破长期困扰ASR的在嘈杂、混响或其他受损现实环境中表现的瓶颈…

X AI KOLs Timeline

南洋理工、新国立和上海 AI Lab 联合发布 Mega-ASR,一个基于 Qwen3-ASR 构建的完全开源 ASR 模型,通过 Voices-in-the-Wild-2M 数据集和渐进式声学到语义优化,在真实世界嘈杂环境中实现最高 30% 的相对词错误率下降,且仅 1.7B 参数可在消费级硬件高效推理。