五种声音,不是换音调那么简单
Grok TTS 提供了五种声音,每种都有明确的性格定位,不是简单调个音高就算"不同声音"。如果你在做播客工具、有声书产品或者语音助手,选对声音角色直接影响用户体验。
表情标签系统:真正的杀手锏
用过 OpenAI TTS 或 ElevenLabs 的都知道,大部分 TTS API 能控制的就是语速和音量。Grok TTS 做了个我觉得很聪明的设计——内置"表情标签"系统,直接写在文本里就能控制语音的情绪表达。
内联标签,在特定位置插入表情动作:
所以我走进去 [pause] 它就在那里。[laugh] 我真的不敢相信!
支持的标签包括:[pause] 停顿、[laugh] 笑、[chuckle] 轻笑、[sigh] 叹气、[whisper] 耳语、[inhale] 吸气、[cry] 哭泣、[tsk] 啧声、[tongue-click] 弹舌、[lip-smack] 咂嘴。
包裹标签,改变整段话的语气风格:
我需要告诉你一件事。<whisper>这是个秘密。</whisper> 是不是很酷?
支持的风格有:<soft> 轻柔、<loud> 大声、<whisper> 耳语、<slow> 慢速、<fast> 快速、<higher-pitch> 升调、<lower-pitch> 降调、<sing-song> 唱腔、<singing> 唱歌、<laugh-speak> 笑着说、<emphasis> 强调。
还能嵌套,比如 <slow><soft>晚安,好梦。</soft></slow> 就是慢速轻柔地说晚安。这套标签让 TTS 从"念稿"直接升级到"演戏",做有声内容的表现力完全不在一个层次。
技术参数一览
- 输入限制:单次请求最多 15,000 字符,超过可以用 WebSocket 流式接口,没有长度上限
- 输出格式:MP3(通用)、WAV(无损)、PCM(实时处理)、μ-law/A-law(电话系统),采样率从 8kHz 到 48kHz 可选
- 语言支持:20 种语言,包括中文、英文、日文、韩文、法文、德文、西班牙文、阿拉伯文等,支持
auto自动检测,也能在同一段对话里无缝切换语言 - 调用方式:REST API 一次拿完整音频,WebSocket 支持流式输出
对一人公司意味着什么
说实话这个我用了才知道好在哪——不是说它比 OpenAI 或 ElevenLabs 好多少,而是表情标签这个设计思路,把语音表达的控制权完全交给了开发者。如果你在做语音类产品,比如 AI 播客生成、有声书工具、客服语音机器人,这套 API 值得认真评估。三分之一的价格意味着你在早期验证产品时,语音成本不再是瓶颈。拿来搭个自动化工作流,把文章内容批量转成带情绪的音频内容,完全可以一个人跑通整条链路。