手動輸入資料

發行項
05/06/2019

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。建議您在該日期之前轉換成 Azure Machine Learning。

自 2021 年 12 月 1 日起，您將無法建立新的 Machine Learning 工作室 (傳統) 資源。在 2024 年 8 月 31 日之前，您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

請參閱將機器學習專案從 ML 工作室 (傳統) 移至 Azure Machine Learning 的相關資訊。
深入瞭解Azure Machine Learning。

ML 工作室 (傳統) 文件即將淘汰，未來將不再更新。

允許經由鍵入值來輸入及編輯小型資料集

類別：資料轉換/操作

注意

適用于：僅限機器學習 Studio (傳統)

Azure Machine Learning 設計工具中提供類似的拖放模組。

模組概觀

本文說明如何在機器學習 Studio (傳統) 中使用 [手動輸入資料] 模組，藉由輸入值來建立小型資料集。資料集可以有多個資料行。

此模組在下列案例中很有用：

產生一組較小的值來進行測試
建立標籤的簡短清單
輸入用於套用數學運算的值
指定取代離散值時要使用的取代值
輸入要插入資料集內的資料行名稱清單

如何手動使用輸入資料

將 [ 手動輸入資料 ] 模組新增至您的實驗。您可以在機器學習 Studio (傳統) 的 [資料輸入] 和 [輸出] 分類中找到此模組。
針對 [DataFormat]，請選取下列其中一個選項。這些選項會決定應如何剖析您提供的資料。每種格式的需求有明顯差異，因此請務必閱讀相關的主題。
- ARFF。 Weka 所使用的屬性關聯檔案格式。如需詳細資訊，請參閱轉換為 ARFF。
- CSV。逗點分隔值格式。如需詳細資訊，請參閱轉換為 CSV。
- SVMLight。 Vowpal Wabbit 和其他機器學習架構所使用的格式。如需詳細資訊，請參閱轉換為 SVMLight。
- TSV。定位字元分隔值格式。如需詳細資訊，請參閱轉換為 TSV。
如果您選擇格式，但未提供符合格式規格的資料，就會發生執行階段錯誤。
在 [資料] 文字方塊內按一下，並開始輸入資料。以下是需要特別注意的格式：
- CSV：若要建立多個資料行，請貼上逗點分隔的文字，或在欄位之間使用逗號來輸入多個資料行。
  
  如果您選取 [HasHeader] 選項，可以使用第一列的值作為資料行標題。
  
  如果您取消選取此選項，則會使用資料行名稱、Col1、Col2 等等。您稍後可以使用 [ 編輯中繼資料] 來新增或變更資料行名稱。
- TSV：若要建立多個資料行，請貼上 tab 分隔的文字，或在欄位之間使用定位字元來輸入多個資料行。
  
  如果您選取 [HasHeader] 選項，可以使用第一列的值作為資料行標題。
  
  如果您取消選取此選項，則會使用資料行名稱、Col1、Col2 等等。您稍後可以使用 [ 編輯中繼資料] 來新增或變更資料行名稱。
- ARFF：貼在現有 ARFF 格式檔案中。如果您要直接輸入值，請務必在資料的開頭加入選擇性的標頭和必要屬性欄位。
  
  例如，您可以將下列標頭和屬性資料列新增至簡單列表。資料行標題為 SampleText。
```
% Title: SampleText.ARFF  
% Source: Enter Data module  
@ATTRIBUTE SampleText STRING  
@DATA  
\<type first data row here>  
```
- SVMLight：使用 SVMLight 格式輸入或貼上值。
  
  例如，下列範例代表血糖捐贈資料集的前幾行，採用 SVMight 格式：
```
# features are [Recency], [Frequency], [Monetary], [Time]  
1 1:2 2:50 3:12500 4:98   
1 1:0 2:13 3:3250 4:28   
```
  當您執行手動輸入資料模組時，這些行會轉換成資料行和索引值的資料集，如下所示：
  
  Col1 Col2 Col3 Col4 標籤
  
  0.00016 0.004 0.999961 0.00784 1
  
  0 0.004 0.999955 0.008615 1
在每個資料列之後按 ENTER 鍵，開始新的一行。

在最後一個資料列之後，請務必按下 ENTER。

如果您按 ENTER 多次來加入多個空白尾端資料列，則會移除最後一個空白資料列，但會將其他空白資料列視為遺漏值。

如果您建立的資料列中有遺漏值，您之後可以隨時篩選出這些資料列。
以滑鼠右鍵按一下模組，然後選取 [ 執行選取 ] 來剖析資料，並將其載入您的工作區做為資料集。

若要查看資料集，請按一下輸出埠，然後選取 [ 視覺化]。

Col1	Col2	Col3	Col4	標籤
0.00016	0.004	0.999961	0.00784	1
0	0.004	0.999955	0.008615	1

範例

如需有關如何在機器學習中使用此模組的範例，請參閱 Azure AI 資源庫：

下載資料範例：從 UCI 機器學習儲存機制取得資料，然後使用手動輸入資料來建立資料行名稱。此外也會提供範例 R 程式碼，可用來合併輸入的資料列與資料集。

技術說明

本節包含實作詳細資料、提示和常見問題集的解答。

不論儲存的格式為何，您輸入的資料都會隱含地轉換成資料集 (資料表) 格式，以便在實驗中使用。但是，除非您明確選擇 [ 另存為資料集 ] 選項，否則資料不會保存為已儲存的資料集。

如果您未以手動方式將資料儲存在輸入資料中，則當您結束會話時，它會從工作區快取中移除。不過，您可以再次執行實驗，讓資料可供使用。
如果您以手動方式將資料從輸入資料與另一個資料集合併，則合併的資料集不能有兩個相同名稱的資料行。如果有重複的資料行名稱，則會將數值尾碼附加至右邊資料集的資料行，讓資料行名稱成為唯一的。

例如，假設您有兩個手動輸入資料的實例，其中包含資料行 >testdata，然後使用 [ 加入資料行 ] 模組來合併它們。以手動方式輸入資料的資料行會保持 >testdata，而手動輸入資料的資料行會重新命名為 >testdata (2) 。

另請參閱

資料輸入和輸出
 A-Z 模組清單

手動輸入資料

模組概觀

如何手動使用輸入資料

範例

技術說明

另請參閱

其他資源