解決方案
AWS 提供各種高效能、具成本效益且易於使用的 ML 推論執行個體。對於高度精
細的模型 (例如電腦視覺和 NLP) 而言,最佳選項為 Amazon EC2 Inf1 執行個體。
由 AWS 全新建置的 Amazon EC2 Inf1 執行個體 (採用 AWS Inferentia 技術),比
起 Amazon EC2 GPU 技術支援的執行個體,可在每次推論時降低高達 70% 的成
本及提高 2.3 倍的輸送量。
由於模型、架構或操作員支援而希望繼續使用 NVIDIA 生態環境進行其推論的客
戶,可以利用 Amazon EC2 G4dn 執行個體進行高效能推斷。
如果您期待推論利用 Intel AVX-512 Vector Neural Network Instructions 的模型,
Amazon EC2 C5 執行個體有助於加快典型 ML 作業 (像是卷積),以及自動改善各
種深度學習工作負載的推論效能。
使用下面的圖表,比較針對 ML 推論最佳化的 AWS 基礎設施選項。
執行個體類型 每個執行個體的晶片上限 硬體類型 網路頻寬 儲存 額外功能
Amazon EC2 Inf1 16 個 AWS Inferentia 晶片 AWS Inferentia 100 Gbps 19 Gbps 的 EBS 頻寬
AWS Neuron SDK,此軟體支援所有領先的
ML 架構,以在程式碼變動最小的情況下,
將模型移轉至 Amazon EC2 Inf1 執行個體。
Amazon EC2 G4dn 8 個 GPU NVIDIA T4 GPU 100 Gbps, EFA 1.8 GB NVMe NVIDIA CUDA 程式庫
Amazon EC2 C5 96 vCPU Intel AVX 25 Gbps 4 x 900 NVMe SSD 以 Nitro 為建置基礎
16