管理这种「模型碎片化」成为每个 AI 团队的痛点。而 LiteLLM 正是为了解决这个痛点而生。
LiteLLM 是一个开源的 LLM 统一接入层,提供 Python SDK 和 Proxy Server 两种形态,让你用一套 OpenAI 兼容的接口,调用超过 100 个大模型提供商的服务。
核心能力:一套接口,百模通行
LiteLLM 的本质是「翻译器」。无论你调用的是 OpenAI、Anthropic、Azure OpenAI、AWS Bedrock、Google Vertex AI,还是本地的 Ollama、vLLM,LiteLLM 都把它们的输入输出格式统一转换成 OpenAI 的 Chat Completions 格式。
这意味着:
- 你的代码只需写一次,支持所有模型
- 团队不需要学习 N 套不同的 API 文档
- 切换模型只需改一个字符串(如从 openai/gpt-4o 换成 anthropic/claude-sonnet-4-20250514)
代码示例:
from litellm import completion
# 调用 OpenAI
response = completion(model="openai/gpt-4o", messages=[...])
# 调用 Claude
response = completion(model="anthropic/claude-sonnet-4-20250514", messages=[...])
# 调用本地 Ollama
response = completion(model="ollama/llama3.1", messages=[...])
所有响应都遵循 OpenAI 的格式,包含 choices、usage、finish_reason 等标准字段。
企业级功能:不只是转发
LiteLLM 远不止是一个简单的 API 转发器。对于平台团队和 ML 工程师,它提供了一套完整的基础设施:
1. 成本追踪与预算控制
- 按项目、按用户、按 API Key 追踪调用成本和 token 消耗
- 设置预算上限,超出自动告警或拒绝
- 支持 100+ 提供商的精确成本计算
2. 智能路由与容错
- 负载均衡:在多个 Azure/OpenAI 部署间分配流量
- 自动降级:主模型失败时自动切换到备用模型
- 重试机制:配置指数退避重试策略
3. 虚拟密钥管理
- 为不同团队生成独立的虚拟 API Key
- 细粒度的权限控制(允许使用的模型、RPM 限制)
- 无需暴露底层提供商的真实密钥
4. 可观测性集成
内置对接主流 LLM 可观测平台:
- Langfuse、Helicone(调用链路追踪)
- MLflow、Lunary(实验管理)
- 自定义回调函数(记录到自有系统)
架构选择:SDK 还是 Proxy?
LiteLLM 提供两种使用模式:
Python SDK:直接集成到代码中,适合单个项目或实验性开发。
Proxy Server(AI Gateway):作为独立服务部署,适合企业级场景:
- 集中管理所有 LLM 访问
- 为多个团队提供统一的内部 API 网关
- 支持多租户(每个项目独立配置、独立计费)
- 内置管理后台 UI,可视化查看调用统计
Netflix 的 Staff Software Engineer David Leen 在评价中写道:「LiteLLM 让我的团队能在新模型发布当天就提供给用户使用。如果没有它,每次新模型发布都需要数小时的工作。」
新前沿:Agents 与 MCP 支持
LiteLLM 正在快速扩展其边界,最新版本已经支持:
A2A(Agent-to-Agent)协议
统一调用 LangGraph、Vertex AI Agent Engine、Azure AI Foundry、Bedrock AgentCore 等 Agent 框架。通过 LiteLLM 网关,你可以把多个 Agent 串联成工作流。
MCP(Model Context Protocol)工具
连接 MCP Server(如 GitHub、Slack、数据库等)到任何 LLM。LiteLLM 负责把 MCP 工具描述转换成 OpenAI 的 function calling 格式,让模型可以无缝调用外部工具。
这意味着 LiteLLM 的定位正在从「LLM 路由层」扩展为「AI 基础设施层」——不仅管模型,还管 Agent 和工具。
性能与生产就绪
官方基准测试显示,LiteLLM Proxy 在 1000 RPS(每秒请求)下的 P95 延迟仅为 8ms。对于绝大多数应用场景,这个 overhead 可以忽略不计。
此外,项目提供 -stable 标签的 Docker 镜像,每个稳定版都经过 12 小时负载测试后才发布,符合企业级部署标准。
谁在用?
LiteLLM 的 GitHub 星数已超过 20k,被多家知名企业采用:
- Netflix:快速集成新模型,节省数月开发时间
- Lemonade:配合 Langfuse 实现全链路可观测
- RocketMoney:统一认证和日志,降低运维复杂度
适合谁?
LiteLLM 特别适合这些场景:
- 需要同时调用多个模型提供商的团队
- 想要统一内部 LLM 网关的 Platform 团队
- 需要精细成本追踪和预算控制的企业
- 希望无缝切换模型而不改代码的开发者
- 构建多 Agent 系统的架构师
可能不适合:
- 只使用单一模型且没有扩展计划的简单项目
- 对延迟极度敏感(<50ms)且无法容忍任何中间层的场景
总结
LiteLLM 的价值在于「抽象」——它把 LLM 调用的复杂性(不同格式、认证、计费、错误处理)封装在一个统一的接口后面。当你的团队需要管理多个模型、多个项目、多个环境时,这种抽象带来的开发效率提升和运维简化是显著的。
随着 A2A 和 MCP 支持的加入,LiteLLM 正在从「模型路由工具」进化为「AI 基础设施平台」。对于正在构建 AI 应用的团队来说,这是一个值得认真评估的基础设施层。