管理这种「模型碎片化」成为每个 AI 团队的痛点。而 LiteLLM 正是为了解决这个痛点而生。

LiteLLM 是一个开源的 LLM 统一接入层,提供 Python SDK 和 Proxy Server 两种形态,让你用一套 OpenAI 兼容的接口,调用超过 100 个大模型提供商的服务。

核心能力:一套接口,百模通行

LiteLLM 的本质是「翻译器」。无论你调用的是 OpenAI、Anthropic、Azure OpenAI、AWS Bedrock、Google Vertex AI,还是本地的 Ollama、vLLM,LiteLLM 都把它们的输入输出格式统一转换成 OpenAI 的 Chat Completions 格式。

这意味着:

  • 你的代码只需写一次,支持所有模型
  • 团队不需要学习 N 套不同的 API 文档
  • 切换模型只需改一个字符串(如从 openai/gpt-4o 换成 anthropic/claude-sonnet-4-20250514)

代码示例:

from litellm import completion

# 调用 OpenAI
response = completion(model="openai/gpt-4o", messages=[...])

# 调用 Claude
response = completion(model="anthropic/claude-sonnet-4-20250514", messages=[...])

# 调用本地 Ollama
response = completion(model="ollama/llama3.1", messages=[...])

所有响应都遵循 OpenAI 的格式,包含 choices、usage、finish_reason 等标准字段。

企业级功能:不只是转发

LiteLLM 远不止是一个简单的 API 转发器。对于平台团队和 ML 工程师,它提供了一套完整的基础设施:

1. 成本追踪与预算控制

  • 按项目、按用户、按 API Key 追踪调用成本和 token 消耗
  • 设置预算上限,超出自动告警或拒绝
  • 支持 100+ 提供商的精确成本计算

2. 智能路由与容错

  • 负载均衡:在多个 Azure/OpenAI 部署间分配流量
  • 自动降级:主模型失败时自动切换到备用模型
  • 重试机制:配置指数退避重试策略

3. 虚拟密钥管理

  • 为不同团队生成独立的虚拟 API Key
  • 细粒度的权限控制(允许使用的模型、RPM 限制)
  • 无需暴露底层提供商的真实密钥

4. 可观测性集成

内置对接主流 LLM 可观测平台:

  • Langfuse、Helicone(调用链路追踪)
  • MLflow、Lunary(实验管理)
  • 自定义回调函数(记录到自有系统)

架构选择:SDK 还是 Proxy?

LiteLLM 提供两种使用模式:

Python SDK:直接集成到代码中,适合单个项目或实验性开发。

Proxy Server(AI Gateway):作为独立服务部署,适合企业级场景:

  • 集中管理所有 LLM 访问
  • 为多个团队提供统一的内部 API 网关
  • 支持多租户(每个项目独立配置、独立计费)
  • 内置管理后台 UI,可视化查看调用统计

Netflix 的 Staff Software Engineer David Leen 在评价中写道:「LiteLLM 让我的团队能在新模型发布当天就提供给用户使用。如果没有它,每次新模型发布都需要数小时的工作。」

新前沿:Agents 与 MCP 支持

LiteLLM 正在快速扩展其边界,最新版本已经支持:

A2A(Agent-to-Agent)协议

统一调用 LangGraph、Vertex AI Agent Engine、Azure AI Foundry、Bedrock AgentCore 等 Agent 框架。通过 LiteLLM 网关,你可以把多个 Agent 串联成工作流。

MCP(Model Context Protocol)工具

连接 MCP Server(如 GitHub、Slack、数据库等)到任何 LLM。LiteLLM 负责把 MCP 工具描述转换成 OpenAI 的 function calling 格式,让模型可以无缝调用外部工具。

这意味着 LiteLLM 的定位正在从「LLM 路由层」扩展为「AI 基础设施层」——不仅管模型,还管 Agent 和工具。

性能与生产就绪

官方基准测试显示,LiteLLM Proxy 在 1000 RPS(每秒请求)下的 P95 延迟仅为 8ms。对于绝大多数应用场景,这个 overhead 可以忽略不计。

此外,项目提供 -stable 标签的 Docker 镜像,每个稳定版都经过 12 小时负载测试后才发布,符合企业级部署标准。

谁在用?

LiteLLM 的 GitHub 星数已超过 20k,被多家知名企业采用:

  • Netflix:快速集成新模型,节省数月开发时间
  • Lemonade:配合 Langfuse 实现全链路可观测
  • RocketMoney:统一认证和日志,降低运维复杂度

适合谁?

LiteLLM 特别适合这些场景:

  • 需要同时调用多个模型提供商的团队
  • 想要统一内部 LLM 网关的 Platform 团队
  • 需要精细成本追踪和预算控制的企业
  • 希望无缝切换模型而不改代码的开发者
  • 构建多 Agent 系统的架构师

可能不适合:

  • 只使用单一模型且没有扩展计划的简单项目
  • 对延迟极度敏感(<50ms)且无法容忍任何中间层的场景

总结

LiteLLM 的价值在于「抽象」——它把 LLM 调用的复杂性(不同格式、认证、计费、错误处理)封装在一个统一的接口后面。当你的团队需要管理多个模型、多个项目、多个环境时,这种抽象带来的开发效率提升和运维简化是显著的。

随着 A2A 和 MCP 支持的加入,LiteLLM 正在从「模型路由工具」进化为「AI 基础设施平台」。对于正在构建 AI 应用的团队来说,这是一个值得认真评估的基础设施层。