⚠️ 注意:維護有限
此專案不再積極維護。現有版本仍然可用,但沒有計劃中的更新、錯誤修復、新功能或安全補丁。使用者應注意,漏洞可能無法得到解決。
❗公告:安全變更❗¶
TorchServe 現在預設強制啟用令牌授權並停用模型 API 控制。這些安全功能旨在解決未經授權的 API 呼叫問題,並防止潛在的惡意程式碼引入模型伺服器。更多資訊請參閱以下文件:令牌授權,模型 API 控制
TorchServe¶
TorchServe 是一個高效能、靈活且易於使用的工具,用於服務 PyTorch eager 模式和 torchscripted 模型。
基本功能¶
服務快速入門 - 基本伺服器使用教程
模型歸檔快速入門 - 演示如何打包模型歸檔檔案的教程。
安裝 - 安裝步驟
模型載入 - 如何在 TorchServe 中載入模型?
服務模型 - 解釋如何使用 TorchServe
REST API - TorchServe API 端點的規範
gRPC API - TorchServe 支援用於推理和管理呼叫的 gRPC API
打包模型歸檔 - 解釋如何打包模型歸檔檔案,使用
model-archiver。推理 API - 如何檢查已部署模型的健康狀況並獲取推理結果
管理 API - 如何管理和擴充套件模型
日誌記錄 - 如何配置日誌記錄
指標 - 如何配置指標
Prometheus 和 Grafana 指標 - 如何在 Grafana 控制面板中配置使用 Prometheus 格式指標的指標 API
Captum 解釋 - 內建支援 Captum 對文字和影像的解釋
使用 TorchServe 進行批次推理 - 如何在 TorchServe 中建立並服務帶有批次推理的模型
工作流 - 如何建立工作流以在順序和並行管道中組合 Pytorch 模型和 Python 函式
預設處理器¶
示例¶
部署 LLM - 如何使用 TorchServe 輕鬆部署 LLM
HuggingFace 語言模型 - 此處理器接收一個輸入句子,並可返回序列分類、token 分類或問答答案
多模態框架 - 構建和部署結合文字、音訊和影片輸入資料的分類器
雙向翻譯工作流 -
模型動物園 - 預訓練模型歸檔列表,可供 TorchServe 用於推理服務。
示例 - 關於如何使用 TorchServe 打包和部署模型的許多示例
工作流示例 - 關於如何在 TorchServe 工作流中組合模型的示例
Resnet50 HPU 編譯 - 關於如何使用 HPU 裝置在編譯模式下執行模型的示例
高階功能¶
高階配置 - 描述高階 TorchServe 配置。
A/B 測試模型 - 在將模型投入生產之前對其進行 A/B 測試以檢查退步
自定義服務 - 描述如何開發自定義推理服務。
加密模型服務 - 透過 KMS 進行 S3 伺服器端模型加密
快照序列化 - 將模型 artifact 序列化到 AWS Dynamo DB
基準測試和效能分析 - 使用 JMeter 或 Apache Bench 對您的模型和 TorchServe 本身進行基準測試
TorchServe on Kubernetes - 演示使用 Helm Chart 在 Kubernetes 中部署 Torchserve,支援 Azure Kubernetes Service 和 Google Kubernetes service
mlflow-torchserve - 將 mlflow 管道模型部署到 TorchServe
Kubeflow pipelines - Kubeflow pipelines 和 Google Vertex AI Managed pipelines
NVIDIA MPS - 使用 NVIDIA MPS 最佳化單 GPU 上的多 worker 部署