使用工作室 UI 來設定表格式資料的無程式碼 AutoML 定型

在本文中,您將瞭解如何不使用任何程式碼在 Azure Machine Learning 工作室 中以 Azure Machine Learning 自動化 ML 來設定 AutoML 定型作業。

自動化機器學習 (AutoML) 是針對特定資料來選取最佳機器學習服務演算法的流程。 此流程可讓您快速產生機器學習模型。 深入了解 Azure Machine Learning 如何實作自動化機器學習

如需端對端範例,請參考教學課程:AutoML - 訓練無程式碼分類模型

如需以 Python 程式碼為基礎的體驗,請使用 Azure Machine Learning SDK 設定自動化機器學習實驗

必要條件

開始使用

  1. 登入 Azure Machine Learning Studio

  2. 選取訂用帳戶及工作區。

  3. 巡覽至左側窗格。 選取 [撰寫] 區段之下的 [自動化 ML]

Azure Machine Learning studio navigation pane

若這是第一次執行任何實驗,則會看到空白清單,以及前往文件的連結。

否則,您會看到最近的自動化 ML 實驗清單,包括使用 SDK 建立的實驗。

建立及執行實驗

  1. 選取 [+ 新增自動化 ML 作業] 並填入表單。

  2. 從儲存體容器選取資料集,或建立新資料集。 資料集可從本機檔案、Web URL、資料存放區或 Azure 開放資料集來建立。 深入瞭解資料集建立

    重要

    定型資料的需求:

    • 資料必須是表格形式。
    • 您想要預測的值 (目標資料行) 必須存在於資料中。
    1. 若要從本機電腦上的檔案建立新資料集,請選取 [+ 建立資料集],然後選取 [從本機檔案]

    2. 選取 [下一步] 來開啟 [資料存放區和檔案選取表單]。 您會選取上傳資料集的位置:與工作區一同自動建立的預設儲存體容器,或選取想要用於實驗的儲存體容器。

      1. 如果您的資料位於虛擬網路後方,您必須啟用 [略過驗證] 功能,以確保工作區可以存取您的資料。 如需詳細資訊,請參閱在 Azure 虛擬網路中使用 Azure Machine Learning 工作室
    3. 選取 [瀏覽],為您的資料集上傳資料檔案。

    4. 檢閱 [設定和預覽] 表單以進行確認。 表單會根據檔案類型以智慧方式填入。

      欄位 描述
      File format 定義檔案中所儲存資料的版面配置和類型。
      分隔符號 一或多個字元,其用來指定純文字或其他資料流中個別獨立區域之間的界限。
      編碼方式 識別要用來讀取資料集之字元結構描述資料表的位元。
      資料行標題 指出資料集標題 (如果有的話) 的處理方式。
      跳過資料列 指出資料集內略過多少資料列 (如果有的話)。

      選取 [下一步]。

    5. [結構描述] 表單會根據在 [設定與預覽] 表單中選取的項目以智慧方式填入。 請在此處設定每個資料行的資料類型、檢閱資料行名稱,以及選取針對實驗不要包含哪些資料行。

      選取 [下一步]。

    6. [確認詳細資料] 表單上會顯示先前在 [基本資訊] 和 [設定與預覽] 表單中填入的資訊摘要。 您也可以選擇使用啟用分析的計算,為資料集建立資料設定檔。

      選取 [下一步]。

  3. 在新建立的資料集出現後選取該資料集。 您也可以檢視資料集的預覽和範例統計資料。

  4. 在 [設定作業] 表單上,選取 [建立新項目],然後輸入 Tutorial-automl-deploy 作為實驗名稱。

  5. 選取目標資料行;這是將要進行預測的資料行。

  6. 為資料分析和訓練作業選取計算類型。 您可以選取計算叢集計算執行個體

  7. 從現有計算的下拉式清單中選取計算。 若要建立新的計算,請遵循步驟 8 中的指示。

  8. 選取 [建立新的計算] 來針對此實驗設定計算內容。

    欄位 描述
    計算名稱 輸入可識別您計算內容的唯一名稱。
    虛擬機器優先順序 雖然低優先順序的虛擬機器較便宜,但無法保證計算節點。
    虛擬機器類型 選取 CPU 或 GPU 作為虛擬機器類型。
    虛擬機器大小 為您的計算選取虛擬機器大小。
    最小/最大節點數 若要分析資料,您必須指定一個或多個節點。 輸入所計算的節點數上限。 預設值為 Azure Machine Learning Compute 的六個節點。
    進階設定 這些設定可讓您為您的實驗設定使用者帳戶和現有虛擬網路。

    選取 建立。 建立新的計算可能會需要數分鐘。

    選取 [下一步]。

  9. 在 [工作類型和設定] 表單上,選取工作類型:分類、迴歸,或預測。 如需詳細資訊,請參閱支援的工作類型

    1. 針對 [分類],您也可以啟用深度學習。

    2. 針對 [預測],您可以:

      1. 啟用深度學習。

      2. 選取時間資料行:這個資料行包含要使用的時間資料。

      3. 選取預測範圍:指出模型能夠預測未來多少時間單位 (分鐘/小時/天/週/月/年)。 模型需要預測的未來越遠,模型的正確性越低。 深入了解預測及預測範圍

  10. (選擇性) 檢視其他組態設定:可用來更進一步控制訓練作業的其他設定。 否則會根據實驗選取範圍和資料來套用預設值。

    其他設定 描述
    主要計量 用來評分模型的主要計量。 深入了解模型計量
    啟用集團堆疊 集團學習藉由結合多個模型來改善機器學習結果和預測效能,而不是使用單一模型。 深入了解集團模型
    已封鎖的模型 選取您要從定型作業中排除的模型。

    允許模型僅用於 SDK 實驗
    請參閱每個工作類型支援的模型
    解釋最佳模型 自動在自動化 ML 所建立的最佳模型上顯示可解釋性。
    正面類別標籤 自動化 ML 將用於計算二進位計量的標籤。
  11. (選擇性) 檢視特徵化設定:如果您選擇在 [其他設定] 表單中啟用 [自動特徵化],則會套用預設的特徵化技術。 在 [檢視特徵化設定] 中,您可以變更這些預設值,並據以進行自訂。 了解如何自訂特徵化

    Screenshot shows the Select task type dialog box with View featurization settings called out.

  12. [選擇性] 限制 表單可讓您執行下列動作。

    選項 描述
    試用上限 在 AutoML 作業期間,每次試驗使用不同演算法和超參數組合嘗試的次數上限。 必須為介於 1 到 1000 之間的整數。
    同時試用上限 可平行執行的試用作業數目上限。 必須為介於 1 到 1000 之間的整數。
    最大節點數 此作業可從所選的計算目標使用的最大節點數。
    計量分數閾值 當反覆運算計量達到此閾值時,定型作業將會終止。 請記住,有意義的模型具有相互關聯 > 0,否則其與猜測平均計量閾值應介於界限 [0, 10] 之間一樣好。
    實驗逾時 (分鐘) 允許整個實驗執行的最長時間 (以分鐘為單位)。 一旦達到此限制,系統就會取消 AutoML 作業,包括其所有試用 (子作業)。
    反覆運算逾時 (分鐘) 允許每個試用作業執行的最長時間 (以分鐘為單位)。 一旦達到此限制,系統就會取消試用。
    啟用提前終止 如果分數未在短期內改善,選取此項以結束作業。
  13. [選擇性] 驗證和測試表單可讓您執行下列作業。

a. 指定要用於訓練作業的驗證類型。 如果您未明確指定 validation_datan_cross_validations 參數,則自動化 ML 會根據在單一資料集 training_data 中提供的資料列數目,套用預設的技巧。

定型資料大小 驗證技術
大於 20,000 個資料列 套用定型/驗證資料分割。 預設值是以 10% 的初始定型資料集做為驗證集。 接著,該驗證集會用於計量計算。
小於 20,000 個資料列 套用交叉驗證方法。 預設的摺疊數目取決於資料列數目。
如果資料集少於 1,000 個資料列,則會使用 10 個摺疊。
如果資料列介於 1,000 到 20,000 個之間,則會使用三個摺疊。

b. 提供測試資料集 (預覽) 來評估自動化 ML 在實驗結束時為您產生的建議模型。 您提供測試資料時,測試作業會在實驗結束時進行自動觸發。 此測試作業只會在自動化 ML 所建議的最佳模型上進行。 學習如何取得遠端測試作業的結果

重要

提供測試資料集來評估產生的模型是預覽功能。 此功能是實驗性預覽功能,而且可能隨時變更。 * 測試資料會被視為與訓練和驗證不同,因此不會使得建議模型的測試作業結果產生偏差。 深入了解模型驗證期間的偏差。 * 您可以提供自己的測試資料集,或選擇使用訓練資料集的百分比。 測試資料的格式必須是 Azure Machine Learning TabularDataset
* 測試資料集的結構描述應該符合訓練資料集。 目標資料行是選擇性的,但如果沒有指定目標資料行,則不會計算任何測試單位。 * 測試資料集不應與訓練資料集或驗證資料集相同。 * 預測作業不支援訓練/測試分割。

Screenshot shows the form where to select validation data and test data

自訂特徵化

特徵化表單中,您可以啟用/停用自動特徵化,以及為您的實驗自訂自動特徵化設定。 若要開啟此表單,請參閱建立和執行實驗一節中的步驟 10。

下表摘要說明目前可透過工作室完成的自訂。

資料行 自訂
功能類型 變更所選資料行的實值型別。
插補 選取要在資料中插補遺漏值的值。

Screenshot showing Azure Machine Learning studio custom featurization.

執行實驗並檢視結果

選取 [完成] 以執行實驗。 實驗準備流程最多需要 10 分鐘。 訓練作業可能需要額外 2-3 分鐘不等,才能讓每個管線完成執行。 如果您已指定為最佳建議模型產生 RAI 儀表板,最多可能需要 40 分鐘的時間。

注意

自動化 ML 採用的演算法具有固有的隨機性,可能會導致建議模型的最終計量分數有些微變化,例如精確度。 自動化 ML 也會在必要時對資料 (例如,訓練測試分割、訓練驗證分割或交叉驗證) 執行作業。 因此,如果您以相同設定和主要計量多次執行實驗,您可能會在每個實驗的最終計量分數中看到這些因素造成的差異。

檢視實驗詳細資料

[作業詳細資料] 畫面會在 [詳細資料] 索引標籤中開啟。此畫面會顯示實驗作業的摘要,並會在頂端作業編號的旁邊包含狀態列。

[模型] 索引標籤包含依計量分數所建立的模型清單。 依預設,根據所選計量評分最高的模型會出現在清單頂端。 如果訓練作業嘗試多個模型,系統會將所有結果新增到清單中。 使用此方式快速比較到目前為止所產生的各個模型計量。

檢視訓練作業詳細資料

在任何已完成的模型上向下切入,以查看訓練作業的詳細資料。

您可以在 [計量] 索引標籤上看到模型特定的效能計量圖表。進一步了解圖表

您也可在圖表中找到所有模型屬性的詳細資料,以及相關聯的程式碼、子作業和影像。

檢視遠端測試作業的結果 (預覽版)

如果您在實驗設定期間指定測試資料集或選擇訓練/測試分割--在 [驗證和測試] 表單上,自動化 ML 預設會自動測試建議的模型。 如此一來,自動化 ML 會計算測試計量,以判斷建議模型和其預測的品質。

重要

有一項預覽功能是使用測試資料集來測試模型以評估產生的模型。 此功能是實驗性預覽功能,而且可能隨時變更。

若要檢視建議模型的測試作業計量,

  1. 瀏覽至 [模型] 頁面,選取最佳模型。
  2. 選取 [測試結果 (預覽)] 索引標籤。
  3. 選取您想要的作業,然後檢視 [計量] 索引標籤。Test results tab of automatically tested, recommended model

若要檢視用來計算測試計量的測試預測,

  1. 瀏覽至頁面底部,然後選取 [輸出資料集] 底下的連結,以開啟資料集。
  2. 在 [資料集] 頁面上,選取 [探索] 索引標籤,以檢視該測試作業的預測。
    1. 或者,您也可以從 [輸出 + 記錄] 索引標籤檢視/下載預測檔案,您可以展開 [預測] 資料夾以找出您的 predicted.csv 檔案。

或者,您也可以從 [輸出 + 記錄] 索引標籤檢視/下載預測檔案,您可以展開 [預測] 資料夾來找出您的 predictions.csv 檔案。

模型測試作業會產生 predictions.csv 檔案,並儲存在與工作區一起建立的預設資料存放區。 具有相同訂用帳戶的所有使用者都可以看到此資料存放區。 如果測試作業所使用或所建立的任何資訊都必需保密,則不建議使用測試作業。

測試現有的自動化 ML 模型 (預覽)

重要

有一項預覽功能是使用測試資料集來測試模型以評估產生的模型。 此功能是實驗性預覽功能,而且可能隨時變更。

當您的實驗完成之後,您可以測試自動 ML 為您產生的模型。 如果您想要測試不同自動化 ML 產生的模型,而不是測試建議模型,您可以使用下列步驟來執行此作業。

  1. 選取現有的自動化 ML 實驗作業。

  2. 瀏覽至作業的 [模型] 索引標籤,然後選取想要測試的已完成模型。

  3. 在模型的 [詳細資料] 頁面上,選取 [測試模型 (預覽)] 按鈕,以開啟 [測試模型] 窗格。

  4. 在 [測試模型] 窗格中,選取想要用於測試作業的計算叢集和測試資料集。

  5. 選取 [測試] 按鈕。 測試資料集的結構描述應該符合訓練資料集,但 [目標資料行] 是選用項目。

  6. 成功建立模型測試作業之後,[詳細資料] 分頁會顯示成功訊息。 選取 [測試結果] 索引標籤,以查看作業的進度。

  7. 若要檢視測試作業的結果,請開啟 [詳細資料] 分頁,並依照檢視遠端測試作業的結果一節的步驟執行。

    Test model form

負責任 AI 儀表板 (預覽)

若要進一步瞭解您的模型,您可以使用負責任 Ai 儀表板來查看模型的各種深入解析。 其可讓您評估最佳的自動化機器學習模型並予以偵錯。 負責任 AI 儀表板會評估模型錯誤和公平性問題、藉由評估定型和/或測試資料來診斷這些錯誤發生的原因,以及觀察模型說明。 這些深入解析可協助您建立與模型的信任並通過稽核程序。 無法為現有的自動化機器學習模型產生負責任的 AI 儀表板。 只有在建立新的 AutoML 作業時,才會建立最佳建議模型。 使用者應該繼續使用模型說明 (預覽),直到為現有模型提供支持為止。

若要針對特定模型產生負責任 AI 儀表板:

  1. 提交自動化 ML 作業時,請前往左側導覽列上的 [工作設定] 區段,然後選取 [檢視其他組態設定] 選項。

  2. 在選取後出現的新表單中,選取 [說明最佳模型] 核取方塊。

    Screenshot showing the Automated ML job configuration page with Explain best model selected.

  3. 繼續前往安裝表單的 [計算] 頁面,然後針對您的計算選擇 [無伺服器] 選項。

    Serverless compute selection

  4. 完成後,瀏覽至自動化 ML 作業的 [模型] 頁面,其中包含已定型的模型清單。 在 [檢視負責任 AI 儀表板] 連結上選取:

    View dashboard page within an Automated ML job

該模型的負責任 AI 儀表板隨即出現,如下圖所示:

Responsible AI dashboard

在儀表板中,您會看到四個針對自動化 ML 最佳模型啟用的元件:

元件 元件會顯示什麼? 如何讀取圖表?
錯誤分析 當您需要進行下列作業時,請使用錯誤分析:
深入了解模型失敗在某個資料集、數個輸入和特徵維度間的分佈情況。
細分彙總效能計量,以自動探索錯誤的世代,進而取得鎖定目標的風險降低步驟。
錯誤分析圖表
模型概觀和公平性 使用此元件來:
深入了解跨不同資料世代的模型效能。
查看差距計量,瞭解模型公平性問題。 這些計量可以評估及比較以敏感性 (或不敏感) 特徵識別的子群組間的模型行為。
模型概觀和公平性圖表
模型說明 使用模型說明元件,藉由查看下列各項來產生人類可理解的機器學習模型預測描述:
全域說明:例如,哪些特徵會影響貸款配置模型的整體行為?
局部說明:例如,客戶的貸款申請為何通過核准或遭到拒絕?
模型說明能力圖表
資料分析 當您需要進行下列作業時,請使用資料分析:
選取各種篩選條件將資料切割成不同的維度 (也稱為世代),以探索資料集統計資料。
了解資料集在不同世代和特徵群之間的分佈。
判斷資料集的分佈是否影響您對公平性、錯誤分析和因果關係 (衍生自其他儀表板元件) 的調查結果。
決定在哪些方面收集更多資料,以減輕由代表性問題、標籤雜訊、特徵雜訊、標籤偏差等類似因素所引起的誤差。
資料總管圖表
  1. 您可以進一步建立世代 (即共用指定特性的資料點子群組),將分析焦點放在不同世代的每個元件上。 目前套用至儀表板的世代名稱一律會顯示在儀表板的左上方。 儀表板中的預設檢視為整個資料集,標題為「所有資料 (預設)」。 在此深入了解儀表板的全域控制

編輯和提交作業 (預覽版)

重要

根據現有實驗複製、編輯和提交新實驗的功能是預覽功能。 此功能是實驗性預覽功能,而且可能隨時變更。

在您想要根據現有實驗的設定建立新實驗的情況下,自動化 ML 提供在 Studio UI 中使用 [編輯和提交] 按鈕的選項。

這項功能僅限於從 Studio UI 起始的體驗,而且需要新實驗的資料結構描述,以符合原始實驗的資料結構描述。

[編輯並提交] 按鈕會開啟 [建立新的自動化 ML 作業] 精靈,並預先填入資料、計算和實驗設定。 您可以視需要瀏覽每個表單,並視需要編輯新實驗的選取項目。

部署模型

當手邊具備最佳模型時,即可將其作為 Web 服務部署以預測新的資料。

提示

如果您想要使用 Python SDK 來部署透過 automl 套件產生的模型,您必須向工作區註冊您的模型

當您註冊模型之後,請選取工作室左側窗格中的 [模型] 來尋找該模型。 開啟您的模型之後,您可以選取畫面頂端的 [部署] 按鈕,然後依照部署模型一節中步驟 2 所述的指示進行。

自動化 ML 可協助部署模型,而無須撰寫程式碼:

  1. 您有數個部署選項。

    • 選項 1:根據您所定義的計量準則,部署最佳模型。

      1. 實驗完成後,請選取畫面控制項頂端的 [作業 1],瀏覽至父代執行分頁。
      2. 選取最佳模型摘要一節中所列的模型。
      3. 在視窗左上方選取 [部署]
    • 選項 2:若要從此實驗部署特定模型反覆項目。

      1. 從 [模型] 索引標籤中選取所需的模型
      2. 在視窗左上方選取 [部署]
  2. 填入 [部署模型] 窗格。

    欄位
    名稱 輸入部署的唯一名稱。
    描述 輸入描述以更清楚地識別此部署的用途。
    計算類型 選取想要部署的端點類型:Azure Kubernetes Service (AKS)Azure 容器執行個體 (ACI)
    計算名稱 僅適用於 AKS:選取您要部署至的 AKS 叢集名稱。
    啟用驗證 選取允許以權杖為基礎或以金鑰為基礎的驗證。
    使用自訂部署資產 若想要上傳自己的評分指令碼和環境檔案,請啟用此功能。 否則,自動化 ML 會依預設來為您提供這些資產。 深入了解評分指令碼

    重要

    檔案名稱必須少於 32 個字元,且必須以英數字元開始及結束。 其中可包含虛線、底線、點和英數字元。 不允許空格。

    「進階」功能表提供預設部署功能,例如資料收集和資源使用率設定。 若想要覆寫這些預設,請在此功能表中進行。

  3. 選取部署。 部署需要約 20 分鐘才能完成。 開始部署後,會出現 [模型摘要] 索引標籤。 請參閱部署狀態一節底下的部署進度。

現在您已擁有可運作的 Web 服務,可用來產生預測! 您可從 Power BI 內建的 Azure Machine Learning 支援以透過查詢服務來測試預測。

下一步