Rust + Qwen3 音频模型：一行配置换掉云端，本地语音 API 无缝替代 OpenAI

为什么需要本地语音 API 服务

很多应用已经对接了 OpenAI 的音频 API，包括语音转文字（ASR）和文字转语音（TTS）。但云端调用意味着延迟、成本和隐私风险。对于独立开发者来说，如果能在本地起一个兼容 OpenAI 接口的服务，现有项目可以无缝迁移，这比重写一套本地推理逻辑省事得多。

Second State 团队最近开源了一套基于 Rust 的方案，正好解决这个问题。

整套工具链包含三个部分：

OpenAI 兼容 API 服务器：提供 /v1/audio/transcriptions（语音识别）和 /v1/audio/speech（语音合成）两个标准端点，直接替代云端 API
Qwen3 ASR CLI 工具：命令行语音识别工具，零依赖，开箱即用
Qwen3 TTS CLI 工具：命令行语音合成工具，同样零依赖

底层跑的是 Qwen3 的 0.6B 和 1.7B 参数量的 ASR 和 TTS 模型，体积不大，个人设备完全带得动。

这个方案有几个设计上的优势值得关注：

用 Rust 写推理服务这个选择很实际——性能接近 C/C++，内存安全又有保障，做成单个二进制文件分发起来也干净。

如果你正在做这些事情，这套工具值得一试：

对于一人公司或独立开发者来说，本地语音 API 的价值不只是省钱。当你的产品不再依赖第三方服务的稳定性和定价策略，你对产品的掌控力会完全不一样。有兴趣的可以到 GitHub 上搜索 second-state/qwen3_audio_api 查看完整文档和使用说明。