💡 一句话总结:TGI 退场后,生产级推理是「vLLM 求稳、SGLang 求吞吐、TensorRT-LLM 求极致延迟」三选一,外加 MAX 解异构、llama.cpp 管本地。当推理占了 85% 的 AI 算力账单,这个选择直接写在毛利率上。
一、为什么引擎选型突然变重要了
两年前,把模型跑起来用哪个引擎,是个无关紧要的技术细节。2026 年,它成了财务问题。
原因在上一篇推理经济学里讲过:推理已占企业 AI 算力支出的约 85%。当推理是大头,引擎效率就直接挂钩成本——同一张卡、同一个模型,不同引擎的吞吐能差三成以上,意味着服务同样的流量,GPU 数量和月账单也差三成。
格局也在 2025 年底定型:Hugging Face 把 TGI 转入维护模式,并建议用户迁往 vLLM 或 SGLang。一个时代结束,剩下三个主角加两个变量。逐个看。
二、vLLM:最稳的默认选项
vLLM 是当下事实上的默认引擎,靠 PagedAttention 和连续批处理(continuous batching)成名。它的优势不在某个跑分第一,而在全面:
- 社区与生态最大,文档全、踩坑有人答;
- 硬件与模型覆盖最广,新模型往往第一时间有 vLLM 支持;
- OpenAI 兼容接口开箱即用,几行命令起服务。
它不是每项都最快,但「最不容易出错、最容易上手」本身就是生产环境最稀缺的属性。没有特别诉求时,从 vLLM 开始。
三、SGLang:吞吐之王
SGLang 是这两年最猛的挑战者,核心武器是 RadixAttention(前缀缓存复用)和高效调度。在实测里它的吞吐常常领先:
- H200 上某 Llama 级模型,SGLang 约 2688 tok/s vs vLLM 约 2021 tok/s,高出约 33%;
- 在中小模型上也有约 29% 的吞吐领先。
这三成在高并发、大批量的离线/批处理场景里是实打实的省钱。代价是生态和文档不如 vLLM 厚,新模型/新硬件适配可能慢半拍。负载是高吞吐批处理、团队扛得住踩坑,选 SGLang。
四、TensorRT-LLM:延迟天花板
TensorRT-LLM 是 NVIDIA 的官方答案,把模型编译成针对特定 GPU 优化的引擎,换来极致性能:
- 在高负载下 p95 延迟最优,对延迟 SLA 敏感的在线服务最关键;
- 充分榨干 NVIDIA 硬件,吞吐和延迟双优。
但它的强是有门槛的:编译链复杂、调参陡峭、换硬件或换模型常要重新编译,且基本锁定 NVIDIA 生态。规模大到省下的推理成本远超运维投入、硬件固定 NVIDIA、有硬性 p95 SLA,才值得上 TensorRT-LLM。
五、两个变量:MAX 与 llama.cpp
Modular MAX 是图编译型引擎,卖点是一套 Mojo kernel 同时覆盖 CUDA、ROCm、Apple Metal。如果你被 NVIDIA 单一生态锁定所困、想在 AMD 或苹果芯片上拿到接近的性能,它值得评估——这是异构硬件场景的解药。
llama.cpp 站在另一极:主打 CPU、消费级 GPU、边缘和本地设备,量化支持极强(GGUF 生态)。Ollama 这类本地工具底层就靠它。本地、边缘、个人设备部署,看 llama.cpp。
六、横向对比
| 引擎 | 强项 | 短板 | 硬件 | 上手难度 | 最适合 |
|---|---|---|---|---|---|
| vLLM | 生态最广、最稳 | 单项非最快 | 多厂商 | 低 | 通用生产、默认起点 |
| SGLang | 吞吐最高(约 +33%) | 生态较薄 | 主 NVIDIA | 中 | 高并发批处理 |
| TensorRT-LLM | p95 延迟最优 | 编译复杂、锁 NVIDIA | NVIDIA | 高 | 大规模在线、硬 SLA |
| Modular MAX | 跨 CUDA/ROCm/Metal | 较新、生态待长 | 异构 | 中 | 摆脱单一硬件锁定 |
| llama.cpp | 本地/边缘、量化强 | 非高并发服务向 | CPU/消费级 | 低 | 本地、边缘、个人 |
⚠️ 警告:所有这些数字都依赖具体模型、精度、批大小和请求分布。别照搬厂商榜单——用你自己的真实流量各压一遍,才知道哪个引擎在你的账单上最省。
七、一棵选型决策树
把上面浓缩成可执行的判断:
- 本地 / 边缘 / 个人设备? → llama.cpp(或基于它的 Ollama)。
- 要在非 NVIDIA(AMD/苹果)硬件上跑出性能? → Modular MAX。
- 生产服务,先求稳? → vLLM,把业务跑通,再看瓶颈。
- 瓶颈是吞吐(高并发/批处理)? → 换 SGLang,约三成吞吐提升直接省卡。
- 瓶颈是延迟(硬 p95 SLA)且全是 NVIDIA 卡、规模够大? → 上 TensorRT-LLM。
结语
推理引擎不再是「随便选一个能跑就行」的细节。当它占了 AI 账单的大头,选型就是成本决策。务实的路径是:用 vLLM 快速跑通、用真实负载压测、按瓶颈类型升级——吞吐瓶颈走 SGLang,延迟瓶颈走 TensorRT-LLM,异构走 MAX,本地走 llama.cpp。记住最后一句:会出现在你账单上的,不是榜单上的数字,是你自己流量下的每百万 token 成本。