@gkxspace: 我每月 AI 订阅两三千，其中有些是TTS、ASR之类的，主流的几家都挺贵，API协议也都不一样我一直在想有没有可以一个套餐做到：语音复刻、会议转写、AI 播客生成、实时语音问答、语音输入、写代码可算找到了一个活菩萨，阶跃星辰的 S…

X AI KOLs Timeline 2026/05/20 13:04 产品

ai-subscription voice-cloning tts asr speech-to-text image-generation step-fun

摘要

阶跃星辰推出Step Plan订阅服务，月费6.99美元，整合了LLM、TTS、ASR、图像生成等多种AI模型，支持OpenAI SDK直连，可用于语音复刻、会议转写、AI播客生成等场景。

我每月 AI 订阅两三千，其中有些是TTS、ASR之类的，主流的几家都挺贵，API协议也都不一样我一直在想有没有可以一个套餐做到：语音复刻、会议转写、AI 播客生成、实时语音问答、语音输入、写代码可算找到了一个活菩萨，阶跃星辰的 Step Plan，一个月6.99美金，根本用不完，就这样，我把其他的陆续停了。一个订阅里有各类模型，还都是 TOP级： 1、LLM：Step 3.5 Flash，模型延迟低到离谱，也可以接入Claude / Cursor / Cline 2、TTS：stepaudio-2.5-tts(查了一下，排名比 ElevenLabs 高) 3、ASR：实时语音对话,支持音色复刻 4、生图：文生图 + 图像编辑，0.7 秒出图全部 OpenAI SDK 直连，换一行 base_url。下面给大家一些案例吧（详情放评论区）： 1、英文录音 → 54 秒出中文笔记 2、英文长文 → 双人对谈 mp3 通勤听 3、同一段话 → TTS 演 7 种情绪 4、鲁迅《孔乙己》→ 自动拆角色的有声书 5、英文播客 → 端到端中文重制版 @StepFun_ai

查看原文

查看缓存全文

缓存时间: 2026/05/20 16:35

我每月 AI 订阅两三千，其中有些是TTS、ASR之类的，主流的几家都挺贵，API协议也都不一样

我一直在想有没有可以一个套餐做到：语音复刻、会议转写、AI 播客生成、实时语音问答、语音输入、写代码

可算找到了一个活菩萨，阶跃星辰的 Step Plan，一个月6.99美金，根本用不完，就这样，我把其他的陆续停了。

一个订阅里有各类模型，还都是 TOP级： 1、LLM：Step 3.5 Flash，模型延迟低到离谱，也可以接入Claude / Cursor / Cline 2、TTS：stepaudio-2.5-tts(查了一下，排名比 ElevenLabs 高) 3、ASR：实时语音对话,支持音色复刻 4、生图：文生图 + 图像编辑，0.7 秒出图

全部 OpenAI SDK 直连，换一行 base_url。

下面给大家一些案例吧（详情放评论区）： 1、英文录音 → 54 秒出中文笔记 2、英文长文 → 双人对谈 mp3 通勤听 3、同一段话 → TTS 演 7 种情绪 4、鲁迅《孔乙己》→ 自动拆角色的有声书 5、英文播客 → 端到端中文重制版

@StepFun_ai

相似文章

@FinanceYF5: AI订阅套餐的补贴力度，比想象中大得多。 Claude Max 20x：$200/月，实际用量价值约$8,000 ChatGPT Pro 20x：$200/月，实际用量价值约$14,000 你花200块，他们在亏几千块养你。这个价格战，…

X AI KOLs Following

讨论AI订阅套餐的补贴力度，指出Claude Max和ChatGPT Pro每月200美元但实际用量价值远高于定价，暗示价格战激烈。

@FeitengLi: 下周把说话人标记和语音生成加上就不是这个便宜的早鸟价了

X AI KOLs Timeline

EdgeSpeak 正式发布，一款本地优先、保护隐私的精准转录工具，支持语义分段和时间戳，兼容 OpenAI Audio API 等，后续将增加说话人标记和语音生成功能。

@MaxForAI: 如果你在做语音Agent，你应该试一下这个项目来自南洋理工、新国立和上海 AI Lab的团队发布了：Mega-ASR 这个完全开源的ASR基于 Qwen3-ASR构建，目的是打破长期困扰ASR的在嘈杂、混响或其他受损现实环境中表现的瓶颈…

X AI KOLs Timeline

南洋理工、新国立和上海 AI Lab 联合发布 Mega-ASR，一个基于 Qwen3-ASR 构建的完全开源 ASR 模型，通过 Voices-in-the-Wild-2M 数据集和渐进式声学到语义优化，在真实世界嘈杂环境中实现最高 30% 的相对词错误率下降，且仅 1.7B 参数可在消费级硬件高效推理。

@yhslgg: 老杨再特么分享一个宝藏开源工具——KrillinAI，GitHub 10000 星，做多语言音视频内容的绝对值得看！一句话：从视频下载到字幕翻译、AI配音、视频合成，整条链路全包，还能自动生成平台封面，B站、抖音、小红书、YouTube…

X AI KOLs Timeline

KrillinAI 是一款开源工具，整合了视频下载、字幕翻译、AI配音、视频合成全流程，支持上下文感知翻译、语音克隆、自动布局和封面生成，兼容多种AI模型，适合多语言音视频内容创作与分发。

@cevenif: 兄弟们，那些还得掏钱才能用的语音工具，是时候跟它们说88了！开源免费的 Voicebox 已经杀出来了，直接把 ElevenLabs 和 WisprFlow 这两家付费巨头按在地上摩擦。功能：声音克隆，秒变任何人全局语音输入，随时…

X AI KOLs Timeline

一个开源免费的本地语音AI工作室，支持声音克隆、语音生成、全局听写，无需API密钥，完全本地运行，是ElevenLabs和WisprFlow的免费替代品。

相似文章

@FinanceYF5: AI订阅套餐的补贴力度，比想象中大得多。 Claude Max 20x：$200/月，实际用量价值约$8,000 ChatGPT Pro 20x：$200/月，实际用量价值约$14,000 你花200块，他们在亏几千块养你。 这个价格战，…

@FeitengLi: 下周把说话人标记和语音生成加上 就不是这个便宜的早鸟价了

@MaxForAI: 如果你在做语音Agent，你应该试一下这个项目 来自南洋理工、新国立和上海 AI Lab的团队发布了：Mega-ASR 这个完全开源的ASR基于 Qwen3-ASR构建，目的是打破长期困扰ASR的在嘈杂、混响或其他受损现实环境中表现的瓶颈…

@cevenif: 兄弟们，那些还得掏钱才能用的语音工具，是时候跟它们说88了！ 开源免费的 Voicebox 已经杀出来了，直接把 ElevenLabs 和 WisprFlow 这两家付费巨头按在地上摩擦。 功能： 声音克隆，秒变任何人 全局语音输入，随时…

提交意见反馈

@FinanceYF5: AI订阅套餐的补贴力度，比想象中大得多。 Claude Max 20x：$200/月，实际用量价值约$8,000 ChatGPT Pro 20x：$200/月，实际用量价值约$14,000 你花200块，他们在亏几千块养你。这个价格战，…

@FeitengLi: 下周把说话人标记和语音生成加上就不是这个便宜的早鸟价了

@MaxForAI: 如果你在做语音Agent，你应该试一下这个项目来自南洋理工、新国立和上海 AI Lab的团队发布了：Mega-ASR 这个完全开源的ASR基于 Qwen3-ASR构建，目的是打破长期困扰ASR的在嘈杂、混响或其他受损现实环境中表现的瓶颈…

@cevenif: 兄弟们，那些还得掏钱才能用的语音工具，是时候跟它们说88了！开源免费的 Voicebox 已经杀出来了，直接把 ElevenLabs 和 WisprFlow 这两家付费巨头按在地上摩擦。功能：声音克隆，秒变任何人全局语音输入，随时…