資料格式轉換

注意

適用于 : Machine Learning Studio (傳統)

此內容僅適用于 Studio (傳統) 。 Azure Machine Learning 設計工具中已新增類似的拖放模組。 若要深入瞭解 這兩個版本,請參閱這篇文章

本文列出 Azure Machine Learning Studio (傳統) 中提供的模組,以在機器學習中使用的各種檔案格式之間轉換資料。

支援的格式包括:

  • 在 Azure Machine Learning 中使用的 資料集 格式。
  • Weka使用的 ARFF 格式。 Weka 是一組開放原始碼以 JAVA 為基礎的機器學習演算法。
  • SVMLight 格式。 SVMLight 格式是針對適用于機器學習的 SVMLight 架構而開發。 Vowpal Wabbit 也可以使用它。
  • tab 鍵分隔的 (TSV)逗點分隔 (CSV) 大部分關係資料庫所支援的一般檔案格式。 R 和 Python 也廣泛支援這些格式。

當您將資料轉換成這些格式時,您可以更輕鬆地在不同的機器學習架構或儲存機制之間移動結果和資料。

注意

這些資料轉換模組只會將完整資料集轉換成指定的格式。 如果您需要執行任何轉換、截斷、轉換日期時間格式或其他操作值,請使用 資料轉換中的模組,或查看 相關工作的清單。

常見的資料轉換案例

如果您需要將資料從 Azure Machine Learning 實驗移至另一部機器學習工具或平臺,您通常會使用資料轉換模組。 您也可以使用模組,從 Machine Learning 使用可供資料庫或其他工具使用的格式來匯出資料。 例如:

Task 使用
您需要儲存中繼資料集以用於 Excel,或匯入至資料庫。 使用 CSV 模組或 TSV 模組,以正確的格式來準備資料。 然後,下載資料或將其儲存至 Azure 儲存體。
您想要在 R 或 Python 程式碼中重複使用實驗中的資料。 使用 CSV 模組或 TSV 模組來準備資料。 然後,以滑鼠右鍵按一下已轉換的資料集,以取得存取資料集所需的 Python 程式碼。
您要在 Weka 和 Azure Machine Learning 之間移植實驗和資料。 使用 ARFF 模組來準備資料。 然後,下載結果。
您必須準備 SVMlight 架構中的資料。 使用 [ 轉換成 SVMLight ] 模組來準備資料。 然後,下載產生的資料。
建立要搭配 Vowpal Wabbit 使用的資料。 使用 SVMLight 格式。 然後,依照本文中的說明修改檔案。 將檔案儲存在 Azure Blob 儲存體中,以搭配 Azure Machine Learning 中的 Vowpal Wabbit 模組使用。
資料不是表格格式。 使用 [ 轉換成資料集 ] 模組,將它強制轉換成資料集格式。

如果您需要將資料匯入 Azure Machine Learning 或轉換個別資料行中的資料,請在執行資料轉換之前,先使用這些模組:

Task 使用
從我的電腦將資料匯入 Azure Machine Learning。 以 CSV 格式上傳資料集,如 將定型資料匯入 Azure Machine Learning Studio (傳統) 所述。
從雲端資料來源匯入資料,包括 Hadoop 或 Azure。 使用「匯 入資料 」模組。
將機器學習資料集儲存至 Azure Blob 儲存體、Hadoop 叢集或其他雲端式儲存體。 使用「 匯出資料 」模組。
將資料行的資料類型或轉換資料行變更為不同的格式或類型。 在 Azure Machine Learning 中,使用 [ 編輯中繼資料 ] 或 [套用 SQL 轉換 模組]。 如果您精通 R 或 Python,請嘗試 執行 Python 腳本執行 R 腳本 模組。
四捨五入、群組或標準化數值資料。 使用「套用 數學運算」、將 資料群組至「bin」或將 資料模組標準化

模組清單

資料格式轉換 類別包含下列模組:

  • 轉換成 ARFF:將資料輸入轉換成 Weka 工具組所使用的屬性關聯檔案格式。
  • 轉換成 CSV:將資料集轉換成逗點分隔值格式。
  • 轉換成資料集:將資料輸入轉換為 Azure Machine Learning 所使用的內部資料集格式。
  • 轉換成 SVMLight:將資料輸入轉換成 SVMLight framework 所使用的格式。
  • 轉換成 TSV:將資料輸入轉換為定位字元分隔格式。

另請參閱