@gkxspace: 我每月 AI 订阅两三千,其中有些是TTS、ASR之类的,主流的几家都挺贵,API协议也都不一样 我一直在想有没有可以一个套餐做到: 语音复刻、会议转写、AI 播客生成、实时语音问答、语音输入、写代码 可算找到了一个活菩萨,阶跃星辰的 S…
摘要
阶跃星辰推出Step Plan订阅服务,月费6.99美元,整合了LLM、TTS、ASR、图像生成等多种AI模型,支持OpenAI SDK直连,可用于语音复刻、会议转写、AI播客生成等场景。
查看缓存全文
缓存时间: 2026/05/20 16:35
我每月 AI 订阅两三千,其中有些是TTS、ASR之类的,主流的几家都挺贵,API协议也都不一样
我一直在想有没有可以一个套餐做到: 语音复刻、会议转写、AI 播客生成、实时语音问答、语音输入、写代码
可算找到了一个活菩萨,阶跃星辰的 Step Plan,一个月6.99美金,根本用不完,就这样,我把其他的陆续停了。
一个订阅里有各类模型,还都是 TOP级: 1、LLM:Step 3.5 Flash,模型延迟低到离谱,也可以接入Claude / Cursor / Cline 2、TTS:stepaudio-2.5-tts(查了一下,排名比 ElevenLabs 高) 3、ASR:实时语音对话,支持音色复刻 4、生图:文生图 + 图像编辑,0.7 秒出图
全部 OpenAI SDK 直连,换一行 base_url。
下面给大家一些案例吧(详情放评论区): 1、英文录音 → 54 秒出中文笔记 2、英文长文 → 双人对谈 mp3 通勤听 3、同一段话 → TTS 演 7 种情绪 4、鲁迅《孔乙己》→ 自动拆角色的有声书 5、英文播客 → 端到端中文重制版
@StepFun_ai
相似文章
@MaxForAI: 如果你在做语音Agent,你应该试一下这个项目 来自南洋理工、新国立和上海 AI Lab的团队发布了:Mega-ASR 这个完全开源的ASR基于 Qwen3-ASR构建,目的是打破长期困扰ASR的在嘈杂、混响或其他受损现实环境中表现的瓶颈…
南洋理工、新国立和上海 AI Lab 联合发布 Mega-ASR,一个基于 Qwen3-ASR 构建的完全开源 ASR 模型,通过 Voices-in-the-Wild-2M 数据集和渐进式声学到语义优化,在真实世界嘈杂环境中实现最高 30% 的相对词错误率下降,且仅 1.7B 参数可在消费级硬件高效推理。
@yhslgg: 老杨再特么分享一个宝藏开源工具——KrillinAI,GitHub 10000 星,做多语言音视频内容的绝对值得看! 一句话:从视频下载到字幕翻译、AI配音、视频合成,整条链路全包,还能自动生成平台封面,B站、抖音、小红书、YouTube…
KrillinAI 是一款开源工具,整合了视频下载、字幕翻译、AI配音、视频合成全流程,支持上下文感知翻译、语音克隆、自动布局和封面生成,兼容多种AI模型,适合多语言音视频内容创作与分发。
@laobaishare: 这太牛逼了。 谷歌刚甩出一款免费 AI 语音听写应用,支持 iOS 和 Mac。 所有付费功能全部解锁,不用订阅。 100% 免费,完全本地运行,由 Gemma 4 驱动。 这里下载 : https://ai.google.dev/edg…
谷歌推出一款免费AI语音听写应用,由Gemma 4驱动,支持iOS和Mac,完全本地运行,无需订阅。
@hisevenih: Ai语音圈直接炸锅了。 这个 GitHub 开源黑科技,把 AI 语音做到了离谱的程度, 真正实现了:一句话,一个声音。 记住这个项目名字:VoxCPM2 它在 GitHub 已经拿下了 20K Star。 最夸张的是, 它甚至无需参考音…
GitHub 开源项目 VoxCPM2 实现了无需参考音频的 AI 语音克隆,仅需一句话即可精准生成目标声线,已获 20K Star。
@denziideng: 又发现一个AI语音克隆“降维打击”…… 之前分享的 CosyVoice 3秒可克隆,觉得已经够吓人了,结果今天这个更要命,随便录了1分钟自己的声音训练后,它直接把声线、语气、情感、呼吸、停顿全部复刻,简直像本人灵魂附体! 阿里达摩院的 C…
GPT-SoVITS 是一款开源 AI 语音克隆工具,支持零样本(5秒声音)和少样本(1分钟训练)高保真声音克隆,跨语言推理,并自带完整 WebUI 工具链,在 GitHub 上已获 57.8k 星,成为语音克隆领域的领先开源项目。