使用 Azure API 管理 調整適用於 JavaScript 的 Azure OpenAI

瞭解如何將企業級負載平衡新增至您的應用程式,以將聊天應用程式延伸至 Azure OpenAI 令牌和模型配額限制。 此方法會使用 Azure API 管理,以智慧方式將三個 Azure OpenAI 資源之間的流量導向。

本文要求您部署 2 個不同的範例:

  • 聊天應用程式

    • 如果您尚未部署聊天應用程式,請等到部署負載平衡器範例之後。
    • 如果您已部署聊天應用程式一次,您將變更環境變數以支援負載平衡器的自定義端點,並再次重新部署。
  • 使用 Azure API 管理 的負載平衡器

Azure OpenAI 與 Azure API 管理 負載平衡的架構

由於 Azure OpenAI 資源具有特定的令牌和模型配額限制,因此使用單一 Azure OpenAI 資源的聊天應用程式很容易因為這些限制而發生交談失敗。

顯示聊天應用程式架構的圖表,其中已醒目提示 Azure OpenAI 資源。

若要在不達到這些限制的情況下使用聊天應用程式,請使用負載平衡解決方案搭配 Azure API 管理。 此解決方案會順暢地將單一端點從 Azure API 管理 公開至聊天應用程式伺服器。

此圖顯示三個 Azure OpenAI 資源前面有 Azure API 管理 的聊天應用程式架構。

Azure API 管理 資源作為 API 層,位於一組 Azure OpenAI 資源前面。 API 層適用於兩個案例:一般和節流。 在 一般可用的令牌和模型配額案例 中,Azure OpenAI 資源會透過 API 層和後端應用程式伺服器傳回 200。

顯示一般案例的圖表。一般案例顯示三個 Azure OpenAI 端點群組,其中第一組兩個端點取得成功的流量。

由於配額限制而節流資源時,API 層可以立即重試不同的 Azure OpenAI 資源,以履行原始聊天應用程式要求。

顯示節流案例的圖表,其中包含 429 個失敗的響應碼,以及客戶端必須等候重試多少秒的響應標頭。

必要條件

開啟 Azure API 管理 本機平衡器範例應用程式

GitHub Codespaces 會使用網頁版 Visual Studio Code 作爲使用者介面,執行由 GitHub 管理的開發容器。 如需最直接的開發環境,請使用 GitHub Codespaces,使得您有已預先安裝的正確開發人員工具和相依性,以便完成本文。

在 GitHub Codespaces 中開啟

重要

所有 GitHub 帳戶每個月最多可以使用 Codespaces 60 小時,且有 2 個核心執行個體。 如需詳細資訊,請參閱 GitHub Codespaces 每月包含的儲存體和核心時數

部署 Azure API 管理 負載平衡器

  1. 若要將負載平衡器部署至 Azure,請登入 Azure 開發人員 CLI (AZD)。

    azd auth login
    
  2. 完成登入指示。

  3. 部署負載平衡器應用程式。

    azd up
    

    您必須選取部署的訂用帳戶和區域。 這些不需要與聊天應用程式相同的訂用帳戶和區域。

  4. 等候部署完成,再繼續進行操作。 這可能需要 30 分鐘的時間。

取得負載平衡器端點

執行下列bash命令以查看部署中的環境變數。 稍後的步驟將會需要此資訊。

azd env get-values | grep APIM_GATEWAY_URL

使用負載平衡器端點重新部署聊天應用程式

這些會在聊天應用程式範例上完成。

  1. 使用下列其中一個選項開啟聊天應用程式範例的開發容器。

    語言 codespace Visual Studio Code
    .NET 在 GitHub Codespaces 中開啟 在開發容器中開啟
    JavaScript 在 GitHub Codespaces 中開啟 在開發容器中開啟
    Python 在 GitHub Codespaces 中開啟 在開發容器中開啟
  2. 登入 Azure 開發人員 CLI (AZD)。

    azd auth login
    

    完成登入指示。

  3. 使用 之類的 chat-app名稱建立 AZD 環境。

    azd env new <name>
    
  4. 新增下列環境變數,告知聊天應用程式的後端使用 OpenAI 要求的自定義 URL。

    azd env set OPENAI_HOST azure_custom
    
  5. 新增下列環境變數,告知聊天應用程式的後端 OpenAI 要求的自定義 URL 值為何。

    azd env set set AZURE_OPENAI_CUSTOM_URL <APIM_GATEWAY_URL>
    
  6. 部署聊天應用程式。

    azd up
    

設定每分鐘配額的權杖 (TPM)

根據預設,負載平衡器中的每個 OpenAI 實例都會部署 30,000 TPM(每分鐘令牌)容量。 您可以使用聊天應用程式,並確信其建置可跨許多用戶進行調整,而不會用盡配額。 在下列情況下變更此值:

  • 您會收到部署容量錯誤:降低該值。
  • 規劃較高的容量,提高值。
  1. 使用下列命令來變更值。

    azd env set OPENAI_CAPACITY 50
    
  2. 重新部署負載平衡器。

    azd up
    

清除資源

當您完成聊天應用程式和負載平衡器時,請清除資源。 在本文中建立的 Azure 資源會向您的 Azure 訂用帳戶計費。 如果您預計未來不需要這些資源,請將其刪除,以避免產生更多費用。

清除聊天應用程式資源

返回聊天應用程式文章以清除這些資源。

清除負載平衡器資源

執行下列 Azure Developer CLI 命令來刪除 Azure 資源並移除原始程式碼:

azd down --purge --force

參數提供:

  • purge:已刪除的資源會立即清除。 這可讓您重複使用 Azure OpenAI TPM。
  • force:刪除會以無訊息方式進行,而不需要使用者同意。

清除 GitHub Codespaces

刪除 GitHub Codespaces 環境,可確保您可將您為帳戶取得的每個核心免費時數權利數量最大化。

重要

如需 GitHub 帳戶權利的詳細資訊,請參閱 GitHub Codespaces 每月包含的儲存體和核心時數

  1. 登入 GitHub Codespaces 儀表板 (https://github.com/codespaces)。

  2. 找出您目前執行中的 Codespaces,而其來源為 azure-samples/openai-apim-lb GitHub 存放庫。

    執行中 Codespaces 的螢幕擷取畫面,包括其狀態和範本。

  3. 開啟 Codespaces 專案的操作功能表,然後選取 [ 刪除]。

    單一 Codespace 的操作功能表 (已醒目提示刪除選項) 螢幕擷取畫面。

取得協助

如果您在部署 Azure API 管理 負載平衡器時遇到問題,請將問題記錄至存放庫的問題

範例指令碼

本文中使用的範例包括:

後續步驟