手動輸入資料

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

允許經由鍵入值來輸入及編輯小型資料集

類別: 資料轉換/操作

注意

適用于僅限機器學習 Studio (傳統)

Azure Machine Learning 設計工具中提供類似的拖放模組。

模組概觀

本文說明如何在機器學習 Studio (傳統) 中使用 [手動輸入資料] 模組,藉由輸入值來建立小型資料集。 資料集可以有多個資料行。

此模組在下列案例中很有用:

  • 產生一組較小的值來進行測試

  • 建立標籤的簡短清單

  • 輸入用於套用數學運算的值

  • 指定取代離散值時要使用的取代值

  • 輸入要插入資料集內的資料行名稱清單

如何手動使用輸入資料

  1. 將 [ 手動輸入資料 ] 模組新增至您的實驗。 您可以在機器學習 Studio (傳統) 的 [資料輸入] 和 [輸出] 分類中找到此模組。

  2. 針對 [DataFormat],請選取下列其中一個選項。 這些選項會決定應如何剖析您提供的資料。 每種格式的需求有明顯差異,因此請務必閱讀相關的主題。

    • ARFF。 Weka 所使用的屬性關聯檔案格式。 如需詳細資訊,請參閱 轉換為 ARFF

    • CSV。 逗點分隔值格式。 如需詳細資訊,請參閱轉換為 CSV

    • SVMLight。 Vowpal Wabbit 和其他機器學習架構所使用的格式。 如需詳細資訊,請參閱 轉換為 SVMLight

    • TSV。 定位字元分隔值格式。 如需詳細資訊,請參閱 轉換為 TSV

    如果您選擇格式,但未提供符合格式規格的資料,就會發生執行階段錯誤。

  3. 在 [資料] 文字方塊內按一下,並開始輸入資料。 以下是需要特別注意的格式:

    • CSV:若要建立多個資料行,請貼上逗點分隔的文字,或在欄位之間使用逗號來輸入多個資料行。

      如果您選取 [HasHeader] 選項,可以使用第一列的值作為資料行標題。

      如果您取消選取此選項,則會使用資料行名稱、Col1、Col2 等等。 您稍後可以使用 [ 編輯中繼資料] 來新增或變更資料行名稱。

    • TSV:若要建立多個資料行,請貼上 tab 分隔的文字,或在欄位之間使用定位字元來輸入多個資料行。

      如果您選取 [HasHeader] 選項,可以使用第一列的值作為資料行標題。

      如果您取消選取此選項,則會使用資料行名稱、Col1、Col2 等等。 您稍後可以使用 [ 編輯中繼資料] 來新增或變更資料行名稱。

    • ARFF:貼在現有 ARFF 格式檔案中。 如果您要直接輸入值,請務必在資料的開頭加入選擇性的標頭和必要屬性欄位。

      例如,您可以將下列標頭和屬性資料列新增至簡單列表。 資料行標題為 SampleText

      % Title: SampleText.ARFF  
      % Source: Enter Data module  
      @ATTRIBUTE SampleText STRING  
      @DATA  
      \<type first data row here>  
      
    • SVMLight:使用 SVMLight 格式輸入或貼上值。

      例如,下列範例代表血糖捐贈資料集的前幾行,採用 SVMight 格式:

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      當您執行 手動輸入資料 模組時,這些行會轉換成資料行和索引值的資料集,如下所示:

      Col1 Col2 Col3 Col4 標籤
      0.00016 0.004 0.999961 0.00784 1
      0 0.004 0.999955 0.008615 1
  4. 在每個資料列之後按 ENTER 鍵,開始新的一行。

    在最後一個資料列之後,請務必按下 ENTER。

    如果您按 ENTER 多次來加入多個空白尾端資料列,則會移除最後一個空白資料列,但會將其他空白資料列視為遺漏值。

    如果您建立的資料列中有遺漏值,您之後可以隨時篩選出這些資料列。

  5. 以滑鼠右鍵按一下模組,然後選取 [ 執行選取 ] 來剖析資料,並將其載入您的工作區做為資料集。

    若要查看資料集,請按一下輸出埠,然後選取 [ 視覺化]。

範例

如需有關如何在機器學習中使用此模組的範例,請參閱 Azure AI 資源庫

  • 下載資料範例:從 UCI 機器學習儲存機制取得資料,然後使用手動輸入資料來建立資料行名稱。 此外也會提供範例 R 程式碼,可用來合併輸入的資料列與資料集。

技術說明

本節包含實作詳細資料、提示和常見問題集的解答。

  • 不論儲存的格式為何,您輸入的資料都會隱含地轉換成資料集 (資料表) 格式,以便在實驗中使用。 但是,除非您明確選擇 [ 另存為資料集 ] 選項,否則資料不會保存為已儲存的資料集。

    如果您未以手動方式將資料儲存在 輸入資料 中,則當您結束會話時,它會從工作區快取中移除。 不過,您可以再次執行實驗,讓資料可供使用。

  • 如果您以手動方式將資料從 輸入資料 與另一個資料集合併,則合併的資料集不能有兩個相同名稱的資料行。 如果有重複的資料行名稱,則會將數值尾碼附加至右邊資料集的資料行,讓資料行名稱成為唯一的。

    例如,假設您有兩個 手動輸入資料 的實例,其中包含資料行 >testdata,然後使用 [ 加入資料行 ] 模組來合併它們。 以 手動方式輸入資料的資料 行會保持 >testdata,而 手動輸入資料的資料 行會重新命名為 >testdata (2)

另請參閱

資料輸入和輸出
A-Z 模組清單