为什么需要本地语音 API 服务

很多应用已经对接了 OpenAI 的音频 API,包括语音转文字(ASR)和文字转语音(TTS)。但云端调用意味着延迟、成本和隐私风险。对于独立开发者来说,如果能在本地起一个兼容 OpenAI 接口的服务,现有项目可以无缝迁移,这比重写一套本地推理逻辑省事得多。

Second State 团队最近开源了一套基于 Rust 的方案,正好解决这个问题。

方案组成

整套工具链包含三个部分:

  • OpenAI 兼容 API 服务器:提供 /v1/audio/transcriptions(语音识别)和 /v1/audio/speech(语音合成)两个标准端点,直接替代云端 API
  • Qwen3 ASR CLI 工具:命令行语音识别工具,零依赖,开箱即用
  • Qwen3 TTS CLI 工具:命令行语音合成工具,同样零依赖

底层跑的是 Qwen3 的 0.6B 和 1.7B 参数量的 ASR 和 TTS 模型,体积不大,个人设备完全带得动。

技术亮点

这个方案有几个设计上的优势值得关注:

  • 零依赖二进制分发:不需要装 Python、不需要配环境,下载即用。这一点对部署到边缘设备特别友好
  • Nvidia GPU 支持:有独显的机器可以跑得更快
  • Apple MLX 支持:Mac 用户也能用上原生加速
  • 完全本地运行:数据不出设备,隐私有保障

用 Rust 写推理服务这个选择很实际——性能接近 C/C++,内存安全又有保障,做成单个二进制文件分发起来也干净。

适用场景

如果你正在做这些事情,这套工具值得一试:

  • 搭建本地 AI 语音助手,不想依赖云服务
  • 在边缘设备上部署语音能力,比如智能硬件或本地服务器
  • 已有对接 OpenAI 音频 API 的项目,想切换到本地推理降低成本
  • 做语音相关的 Agent 工作流,需要一个稳定的本地语音服务节点

对于一人公司或独立开发者来说,本地语音 API 的价值不只是省钱。当你的产品不再依赖第三方服务的稳定性和定价策略,你对产品的掌控力会完全不一样。有兴趣的可以到 GitHub 上搜索 second-state/qwen3_audio_api 查看完整文档和使用说明。