@gkxspace: 我每月 AI 订阅两三千,其中有些是TTS、ASR之类的,主流的几家都挺贵,API协议也都不一样 我一直在想有没有可以一个套餐做到: 语音复刻、会议转写、AI 播客生成、实时语音问答、语音输入、写代码 可算找到了一个活菩萨,阶跃星辰的 S…

X AI KOLs Timeline 产品

摘要

阶跃星辰推出Step Plan订阅服务,月费6.99美元,整合了LLM、TTS、ASR、图像生成等多种AI模型,支持OpenAI SDK直连,可用于语音复刻、会议转写、AI播客生成等场景。

我每月 AI 订阅两三千,其中有些是TTS、ASR之类的,主流的几家都挺贵,API协议也都不一样 我一直在想有没有可以一个套餐做到: 语音复刻、会议转写、AI 播客生成、实时语音问答、语音输入、写代码 可算找到了一个活菩萨,阶跃星辰的 Step Plan,一个月6.99美金,根本用不完,就这样,我把其他的陆续停了。 一个订阅里有各类模型,还都是 TOP级: 1、LLM:Step 3.5 Flash,模型延迟低到离谱,也可以接入Claude / Cursor / Cline 2、TTS:stepaudio-2.5-tts(查了一下,排名比 ElevenLabs 高) 3、ASR:实时语音对话,支持音色复刻 4、生图:文生图 + 图像编辑,0.7 秒出图 全部 OpenAI SDK 直连,换一行 base_url。 下面给大家一些案例吧(详情放评论区): 1、英文录音 → 54 秒出中文笔记 2、英文长文 → 双人对谈 mp3 通勤听 3、同一段话 → TTS 演 7 种情绪 4、鲁迅《孔乙己》→ 自动拆角色的有声书 5、英文播客 → 端到端中文重制版 @StepFun_ai
查看原文
查看缓存全文

缓存时间: 2026/05/20 16:35

我每月 AI 订阅两三千,其中有些是TTS、ASR之类的,主流的几家都挺贵,API协议也都不一样

我一直在想有没有可以一个套餐做到: 语音复刻、会议转写、AI 播客生成、实时语音问答、语音输入、写代码

可算找到了一个活菩萨,阶跃星辰的 Step Plan,一个月6.99美金,根本用不完,就这样,我把其他的陆续停了。

一个订阅里有各类模型,还都是 TOP级: 1、LLM:Step 3.5 Flash,模型延迟低到离谱,也可以接入Claude / Cursor / Cline 2、TTS:stepaudio-2.5-tts(查了一下,排名比 ElevenLabs 高) 3、ASR:实时语音对话,支持音色复刻 4、生图:文生图 + 图像编辑,0.7 秒出图

全部 OpenAI SDK 直连,换一行 base_url。

下面给大家一些案例吧(详情放评论区): 1、英文录音 → 54 秒出中文笔记 2、英文长文 → 双人对谈 mp3 通勤听 3、同一段话 → TTS 演 7 种情绪 4、鲁迅《孔乙己》→ 自动拆角色的有声书 5、英文播客 → 端到端中文重制版

@StepFun_ai

相似文章

@MaxForAI: 如果你在做语音Agent,你应该试一下这个项目 来自南洋理工、新国立和上海 AI Lab的团队发布了:Mega-ASR 这个完全开源的ASR基于 Qwen3-ASR构建,目的是打破长期困扰ASR的在嘈杂、混响或其他受损现实环境中表现的瓶颈…

X AI KOLs Timeline

南洋理工、新国立和上海 AI Lab 联合发布 Mega-ASR,一个基于 Qwen3-ASR 构建的完全开源 ASR 模型,通过 Voices-in-the-Wild-2M 数据集和渐进式声学到语义优化,在真实世界嘈杂环境中实现最高 30% 的相对词错误率下降,且仅 1.7B 参数可在消费级硬件高效推理。

@yhslgg: 老杨再特么分享一个宝藏开源工具——KrillinAI,GitHub 10000 星,做多语言音视频内容的绝对值得看! 一句话:从视频下载到字幕翻译、AI配音、视频合成,整条链路全包,还能自动生成平台封面,B站、抖音、小红书、YouTube…

X AI KOLs Timeline

KrillinAI 是一款开源工具,整合了视频下载、字幕翻译、AI配音、视频合成全流程,支持上下文感知翻译、语音克隆、自动布局和封面生成,兼容多种AI模型,适合多语言音视频内容创作与分发。

@denziideng: 又发现一个AI语音克隆“降维打击”…… 之前分享的 CosyVoice 3秒可克隆,觉得已经够吓人了,结果今天这个更要命,随便录了1分钟自己的声音训练后,它直接把声线、语气、情感、呼吸、停顿全部复刻,简直像本人灵魂附体! 阿里达摩院的 C…

X AI KOLs Timeline

GPT-SoVITS 是一款开源 AI 语音克隆工具,支持零样本(5秒声音)和少样本(1分钟训练)高保真声音克隆,跨语言推理,并自带完整 WebUI 工具链,在 GitHub 上已获 57.8k 星,成为语音克隆领域的领先开源项目。