@lxfater: 网易有道开源了子曰4大模型，27B参数内，数理 SOTA 但真正让我觉得有趣的是它那个语音功能！！克隆个声音不稀奇，ElevenLabs 早能做但它们都有个通病，跨语种会串口音拿你的中文声音去说日语，它带着一口中国腔，一听就是外国人…

X AI KOLs Timeline 2026/05/22 07:35 模型

open-source large-language-model voice-cloning cross-lingual netease-youdao ziyue4 ai

摘要

网易有道开源了子曰4大模型，27B参数，数理性能达到SOTA；其语音功能支持3秒跨语言声音克隆，14种语言且无口音问题，同时开源了全场景智能体龙虾。

网易有道开源了子曰4大模型，27B参数内，数理 SOTA 但真正让我觉得有趣的是它那个语音功能！！克隆个声音不稀奇，ElevenLabs 早能做但它们都有个通病，跨语种会串口音拿你的中文声音去说日语，它带着一口中国腔，一听就是外国人在硬讲子曰4 主打的，就是把这口音去掉你的声音说日语，听着就是个日本人在讲 3 秒克隆，支持 14 种语言（可以看视频演示）做口播、配音、数字人，省钱效果还好，对不对？而且子曰4 这大模型是真开源，给的是权重不是 API 54 个 G 权重直接下载，能本地跑有道龙虾那个全场景智能体，也是 100% 开源的大模型开源了，龙虾也开源了，全往外送有道图啥？靠什么赚钱？我还真扒到了它赚钱的秘密下面：

查看原文

查看缓存全文

缓存时间: 2026/05/22 11:49

网易有道开源了子曰4大模型，27B参数内，数理 SOTA

但真正让我觉得有趣的是它那个语音功能！！

克隆个声音不稀奇，ElevenLabs 早能做但它们都有个通病，跨语种会串口音拿你的中文声音去说日语，它带着一口中国腔，一听就是外国人在硬讲子曰4 主打的，就是把这口音去掉

你的声音说日语，听着就是个日本人在讲 3 秒克隆，支持 14 种语言（可以看视频演示）做口播、配音、数字人，省钱效果还好，对不对？

而且子曰4 这大模型是真开源，给的是权重不是 API 54 个 G 权重直接下载，能本地跑

有道龙虾那个全场景智能体，也是 100% 开源的大模型开源了，龙虾也开源了，全往外送

有道图啥？靠什么赚钱？我还真扒到了它赚钱的秘密下面：

相似文章

@Honcia13: 开源TTS直接卷疯了！园区诈骗又有新武器？清华 OpenBMB 刚刚放出 VoxCPM2： 200亿参数 + 200万小时多语言数据训练，48kHz录音棚级音质！最狠的是——完全不用Tokenizer，直接在连续潜空间做扩散自回归，细…

X AI KOLs Timeline

清华大学 OpenBMB 发布了 VoxCPM2，这是一个拥有 200 亿参数的开源多语言 TTS 模型，支持无需 Tokenizer 的连续潜空间扩散自回归生成，具备 48kHz 录音棚级音质和强大的声音克隆与设计能力。

@aigclink: 阿里通义实验室最新发布了款ASR：Fun-ASR 1.5，核心能力：方言工业级可用单模型即可无缝覆盖30种语言、汉语七大方言体系及20+ 地方口音，古诗词吟诵也能精准转写典型方言场景CER相对上代下降56.2%，有5种方言准确率破 9…

X AI KOLs Timeline

阿里通义实验室发布Fun-ASR 1.5，单模型覆盖30种语言、汉语七大方言及20余种地方口音，典型方言场景字错率较上代下降56.2%，5种方言准确率突破90%。

@billtheinvestor: 上海交通大学开源 F5-TTS 语音生成模型。该模型基于 10 万小时数据训练，支持中英多语言合成。技术特性包含 Zero-shot 声音克隆、基于总时长的速度控制、情感表现控制及长文本合成。支持商用。

X AI KOLs Timeline

上海交通大学开源了 F5-TTS 语音生成模型，该模型基于 10 万小时数据训练，支持中英多语言合成及 Zero-shot 声音克隆，并允许商用。

@FeitengLi: 其实这些问题都能很好的解决了 1. 扔掉 whisper，换 ASR 模型，Qwen3-ASR 就很不错幻觉很少、也有一些别的ASR选择，whisper 幻觉多也要求 30s片段，Qwen3-ASR 塞更长的音频识别越准确，最大支持 20…

X AI KOLs Timeline

推荐使用Qwen3-ASR替代Whisper以减少幻觉，使用LattifAI工具进行精确的音文本对齐和字幕生成，并介绍自己的OmniVAD-Kit项目用于语音活动检测。

@MaxForAI: 如果你在做语音Agent，你应该试一下这个项目来自南洋理工、新国立和上海 AI Lab的团队发布了：Mega-ASR 这个完全开源的ASR基于 Qwen3-ASR构建，目的是打破长期困扰ASR的在嘈杂、混响或其他受损现实环境中表现的瓶颈…

X AI KOLs Timeline

南洋理工、新国立和上海 AI Lab 联合发布 Mega-ASR，一个基于 Qwen3-ASR 构建的完全开源 ASR 模型，通过 Voices-in-the-Wild-2M 数据集和渐进式声学到语义优化，在真实世界嘈杂环境中实现最高 30% 的相对词错误率下降，且仅 1.7B 参数可在消费级硬件高效推理。

相似文章

@Honcia13: 开源TTS直接卷疯了！园区诈骗又有新武器？ 清华 OpenBMB 刚刚放出 VoxCPM2： 200亿参数 + 200万小时多语言数据训练，48kHz录音棚级音质！ 最狠的是——完全不用Tokenizer，直接在连续潜空间做扩散自回归，细…

@billtheinvestor: 上海交通大学开源 F5-TTS 语音生成模型。该模型基于 10 万小时数据训练，支持中英多语言合成。技术特性包含 Zero-shot 声音克隆、基于总时长的速度控制、情感表现控制及长文本合成。支持商用。

@FeitengLi: 其实这些问题都能很好的解决了 1. 扔掉 whisper，换 ASR 模型，Qwen3-ASR 就很不错幻觉很少、也有一些别的ASR选择，whisper 幻觉多也要求 30s片段，Qwen3-ASR 塞更长的音频识别越准确，最大支持 20…

@MaxForAI: 如果你在做语音Agent，你应该试一下这个项目 来自南洋理工、新国立和上海 AI Lab的团队发布了：Mega-ASR 这个完全开源的ASR基于 Qwen3-ASR构建，目的是打破长期困扰ASR的在嘈杂、混响或其他受损现实环境中表现的瓶颈…

提交意见反馈

@Honcia13: 开源TTS直接卷疯了！园区诈骗又有新武器？清华 OpenBMB 刚刚放出 VoxCPM2： 200亿参数 + 200万小时多语言数据训练，48kHz录音棚级音质！最狠的是——完全不用Tokenizer，直接在连续潜空间做扩散自回归，细…

@MaxForAI: 如果你在做语音Agent，你应该试一下这个项目来自南洋理工、新国立和上海 AI Lab的团队发布了：Mega-ASR 这个完全开源的ASR基于 Qwen3-ASR构建，目的是打破长期困扰ASR的在嘈杂、混响或其他受损现实环境中表现的瓶颈…