以具成本效益的方式快速部署模型
挑戰
一旦訓練了模型並將其最佳化至您所需的準確度和精確度層級,就應該讓模型投入生產以進行預測。
這也稱為 ML 的預測或推論步驟。
花費數百毫秒產生文字翻譯、將篩選條件套用至影像,或產生產品建議的模型,可能會讓應用程式
變得遲鈍或令人使用挫敗,因而讓使用者卻步。加快推論速度,即可降低整體應用程式延遲並提供
順暢的使用體驗。
在可供開發及執行 ML 應用程式的基礎設施成本中,高達 90% 花費於推論,這使高效能、低成本
ML 推論基礎設施的需求變得至關重要。
⁸
⁸ Amazon EC2 Inf1 執行個體。2021 年 5 月 11 日存取。
15