xAI Grok 语音 API 实测：中文质感逼近真人，价格只有 OpenAI 三分之一

五种声音，不是换音调那么简单

Grok TTS 提供了五种声音，每种都有明确的性格定位，不是简单调个音高就算"不同声音"。如果你在做播客工具、有声书产品或者语音助手，选对声音角色直接影响用户体验。

表情标签系统：真正的杀手锏

用过 OpenAI TTS 或 ElevenLabs 的都知道，大部分 TTS API 能控制的就是语速和音量。Grok TTS 做了个我觉得很聪明的设计——内置"表情标签"系统，直接写在文本里就能控制语音的情绪表达。

内联标签，在特定位置插入表情动作：

所以我走进去 [pause] 它就在那里。[laugh] 我真的不敢相信！

支持的标签包括：[pause] 停顿、[laugh] 笑、[chuckle] 轻笑、[sigh] 叹气、[whisper] 耳语、[inhale] 吸气、[cry] 哭泣、[tsk] 啧声、[tongue-click] 弹舌、[lip-smack] 咂嘴。

包裹标签，改变整段话的语气风格：

我需要告诉你一件事。<whisper>这是个秘密。</whisper> 是不是很酷？

支持的风格有：<soft> 轻柔、<loud> 大声、<whisper> 耳语、<slow> 慢速、<fast> 快速、<higher-pitch> 升调、<lower-pitch> 降调、<sing-song> 唱腔、<singing> 唱歌、<laugh-speak> 笑着说、<emphasis> 强调。

还能嵌套，比如 <slow><soft>晚安，好梦。</soft></slow> 就是慢速轻柔地说晚安。这套标签让 TTS 从"念稿"直接升级到"演戏"，做有声内容的表现力完全不在一个层次。

技术参数一览

输入限制：单次请求最多 15,000 字符，超过可以用 WebSocket 流式接口，没有长度上限
输出格式：MP3（通用）、WAV（无损）、PCM（实时处理）、μ-law/A-law（电话系统），采样率从 8kHz 到 48kHz 可选
语言支持：20 种语言，包括中文、英文、日文、韩文、法文、德文、西班牙文、阿拉伯文等，支持 auto 自动检测，也能在同一段对话里无缝切换语言
调用方式：REST API 一次拿完整音频，WebSocket 支持流式输出

对一人公司意味着什么

说实话这个我用了才知道好在哪——不是说它比 OpenAI 或 ElevenLabs 好多少，而是表情标签这个设计思路，把语音表达的控制权完全交给了开发者。如果你在做语音类产品，比如 AI 播客生成、有声书工具、客服语音机器人，这套 API 值得认真评估。三分之一的价格意味着你在早期验证产品时，语音成本不再是瓶颈。拿来搭个自动化工作流，把文章内容批量转成带情绪的音频内容，完全可以一个人跑通整条链路。