10.8k
Stars
+901
Stars/month
1
Releases (6m)
Overview
Text Generation Inference (TGI) 是 Hugging Face 开发的高性能大语言模型推理服务器,采用 Rust、Python 和 gRPC 技术栈构建。该工具专为部署和服务大型语言模型而设计,支持包括 Llama、Falcon、StarCoder、BLOOM、GPT-NeoX 在内的主流开源模型。TGI 在 Hugging Face 的生产环境中广泛使用,为 Hugging Chat、推理 API 和推理端点提供底层支持。工具提供了完整的生产级特性,包括分布式追踪、Prometheus 监控指标、张量并行处理、Server-Sent Events 流式传输、连续批处理优化等。同时兼容 OpenAI Chat Completion API 的 Messages API,并集成了 Flash Attention 和 Paged Attention 等先进优化技术。需要注意的是,该项目目前处于维护模式,开发团队推荐用户转向 vLLM、SGLang、llama.cpp 或 MLX 等后续推理引擎。
Pros
- + 生产级稳定性,在 Hugging Face 大规模生产环境中验证,支持分布式追踪和完整监控体系
- + 高性能推理优化,集成张量并行、连续批处理、Flash Attention 等先进技术,显著提升推理效率
- + 兼容性强,支持主流开源 LLM 模型,提供与 OpenAI API 兼容的接口,便于集成现有应用
Cons
- - 项目已进入维护模式,不再积极开发新功能,建议迁移到 vLLM 等新一代推理引擎
- - 主要面向服务器端部署,对于轻量化本地推理场景可能过于复杂
Use Cases
- • 企业级 LLM API 服务部署,需要高并发、低延迟的文本生成服务
- • 多 GPU 服务器环境下的大模型推理加速,充分利用张量并行特性
- • 需要与现有 OpenAI API 兼容的应用迁移到开源模型部署
Getting Started
1. 使用 Docker 拉取官方镜像:docker pull ghcr.io/huggingface/text-generation-inference;2. 启动服务指定模型:docker run --gpus all -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference --model-id $model;3. 通过 HTTP API 发送推理请求到 localhost:8080,或查看 Swagger 文档了解完整 API