將定型資料載入 Model Builder 中

了解如何從檔案或 SQL Server 資料庫載入您的定型資料集,以用於 ML.NET 的其中一個 Model Builder 案例。 Model Builder 案例可以使用 SQL Server 資料庫、影像檔案和 CSV 或 TSV 檔案格式作為定型資料。

Model Builder 僅接受具有逗號、定位字元和分號分隔符號的 TSV、CSV 和 TXT 檔案,以及 PNG 和 JPG 影像。

Model Builder 案例

Model Builder 可協助您建立下列機器學習案例的模型:

  • 資料分類 (二元與多元分類):將文字資料分類為兩個或更多類別。
  • 值預測 (迴歸):預測數值。
  • 影像分類 (深度學習):將影像分類為兩個或更多類別。
  • 建議 (建議):為特定使用者產生建議項目清單。
  • 物件偵測 (深度學習):偵測及識別影像中的物件。 這可以找到一或多個物件,並加上對應的標籤。

本文說明文字或數值資料的分類和迴歸、影像分類,以及物件偵測案例。

從檔案載入文字或數值資料

您可以將檔案中的文字或數值資料載入 Model Builder 中。 這接受逗號分隔 (CSV) 或定位字元分隔 (TSV) 的檔案格式。

  1. 在 Model Builder 的資料步驟中,選取 [檔案] 作為資料來源型別。

  2. 選取文字方塊旁的 [瀏覽] 按鈕,然後使用檔案總管進行瀏覽,並選取資料檔案。

  3. 在 [要預測的資料行 (標籤)] 下拉式清單中選擇類別。

    注意

    (選擇性) 資料分類案例:如果標籤資料行的資料型別 (「要預測的資料行 (標籤)」下拉式清單中的值) 設定為布林值 (True/False),則會在您的模型定型管線中使用二元分類演算法。 否則,會使用多元分類定型器。 使用 [進階資料選項] 可修改標籤資料行的資料型別,並向 Model Builder 指出應對您的資料使用的定型器型別。

  4. 更新 [進階資料選項] 連結中的資料,以設定資料行設定或更新資料格式。

您已完成 Model Builder 的資料來源檔案設定。 按 [下一步] 按鈕,以移至 Model Builder 中的下一個步驟。

從 SQL Server 資料庫載入資料

Model Builder 支援從本機和遠端 SQL Server 資料庫載入資料。

本機資料庫檔案

若要將 SQL Server 資料庫檔案中的資料載入 Model Builder 中:

  1. 在 Model Builder 的資料步驟中,選取 [SQL Server] 作為資料來源型別。

  2. 選取 [選擇資料來源] 按鈕。

    1. 在 [選擇資料來源] 對話方塊中,選取 [Microsoft SQL Server 資料庫檔案]
    2. 取消核取 [一律使用此選取項目] 核取方塊,然後選取 [繼續]
    3. 在 [連線屬性] 對話方塊中選取 [瀏覽],然後選取已下載的 .MDF 檔案。
    4. 選取確定
  3. 從 [資料表名稱] 下拉式清單中,選擇資料集名稱。

  4. 從 [要預測的資料行 (標籤)] 下拉式清單中,選擇您要預測的資料類別。

    注意

    (選擇性) 資料分類案例:如果標籤資料行的資料型別 (「要預測的資料行 (標籤)」下拉式清單中的值) 設定為布林值 (True/False),則會在您的模型定型管線中使用二元分類演算法。 否則,會使用多元分類定型器。 使用 [進階資料選項] 可修改標籤資料行的資料型別,並向 Model Builder 指出應對您的資料使用的定型器型別。

  5. 更新 [進階資料選項] 連結中的資料,以設定資料行設定或更新資料格式。

遠端 資料庫

若要透過 SQL Server 資料庫連線將資料載入 Model Builder 中:

  1. 在 Model Builder 的資料步驟中,選取 [SQL Server] 作為資料來源型別。

  2. 選取 [選擇資料來源] 按鈕。

    1. 在 [選擇資料來源] 對話方塊中,選取 [Microsoft SQL Server]
  3. 在 [連線屬性] 對話方塊中,輸入 Microsoft SQL 資料庫的屬性。

    1. 提供您要連線的資料表所在伺服器的名稱。
    2. 設定對伺服器的驗證。 如果選取 [SQL Server 驗證],請輸入伺服器的使用者名稱和密碼。
    3. 在 [選取或輸入資料庫名稱] 下拉式清單中,選取要連線到的資料庫。 如果伺服器名稱和登入資訊正確,就應該會自動填入。
    4. 選取確定
  4. 從 [資料表名稱] 下拉式清單中,選擇資料集名稱。

  5. 從 [要預測的資料行 (標籤)] 下拉式清單中,選擇您要預測的資料類別。

    注意

    (選擇性) 資料分類案例:如果標籤資料行的資料型別 (「要預測的資料行 (標籤)」下拉式清單中的值) 設定為布林值 (True/False),則會在您的模型定型管線中使用二元分類演算法。 否則,會使用多元分類定型器。 使用 [進階資料選項] 可修改標籤資料行的資料型別,並向 Model Builder 指出應對您的資料使用的定型器型別。

  6. 更新 [進階資料選項] 連結中的資料,以設定資料行設定或更新資料格式。

您已完成 Model Builder 的資料來源檔案設定。 按 [下一步] 按鈕,以連結至 Model Builder 中的下一個步驟。

設定影像分類資料檔案

Model Builder 預期影像分類資料必須是 JPG 或 PNG 檔案,並且彙整於與分類的類別相對應的資料夾中。

若要將影像載入 Model Builder 中,請提供單一最上層目錄的路徑:

  • 在這個最上層目錄中,每個要預測的類別都會有一個子資料夾。
  • 每個子資料夾分別包含屬於其類別的影像檔案。

在下方列示的資料夾結構中,最上層目錄為 flower_photos。 有五個子目錄對應於您想要預測的類別:daisy、dandelion、roses、sunflowers 和 tulips。 其中每個子目錄分別包含屬於其各自類別的影像。

\---flower_photos
    +---daisy
    |       100080576_f52e8ee070_n.jpg
    |       102841525_bd6628ae3c.jpg
    |       105806915_a9c13e2106_n.jpg
    |
    +---dandelion
    |       10443973_aeb97513fc_m.jpg
    |       10683189_bd6e371b97.jpg
    |       10919961_0af657c4e8.jpg
    |
    +---roses
    |       102501987_3cdb8e5394_n.jpg
    |       110472418_87b6a3aa98_m.jpg
    |       118974357_0faa23cce9_n.jpg
    |
    +---sunflowers
    |       127192624_afa3d9cb84.jpg
    |       145303599_2627e23815_n.jpg
    |       147804446_ef9244c8ce_m.jpg
    |
    \---tulips
            100930342_92e8746431_n.jpg
            107693873_86021ac4ea_n.jpg
            10791227_7168491604.jpg

設定物件偵測影像資料檔案

Model Builder 預期物件偵測影像資料必須是從 VoTT 產生的 JSON 格式。 JSON 檔案位於專案設定所指定之 [目標位置]vott-json-export 資料夾中。

JSON 檔案由 VoTT 產生的下列資訊組成:

  • 已建立的所有標記
  • 影像檔案位置
  • 影像週框方塊資訊
  • 與影像相關聯的標記

如需準備物件偵測資料的詳細資訊,請參閱從 VoTT 產生物件偵測資料

下一步

依照下列教學課程,使用 Model Builder 建置機器學習應用程式:

如果您使用程式碼來定型模型,請了解如何使用 ML.NET API 載入資料