Azure Machine Learning Studio 中的機器學習模組 (傳統)
機器學習的一般工作流程包含許多階段:
識別要解決的問題和測量結果的度量。
尋找、清除和準備適當的資料。
找出最佳功能和工程新功能。
建立、評估和調整模型。
使用模型來產生預測、建議和其他結果。
本節中的模組提供適用于機器學習的最後階段的工具,您可以在其中將演算法套用至資料,以將模型定型。 在這些最後的階段中,您也會產生分數,然後評估模型的精確度和實用性。
注意
適用于 : Machine Learning Studio (傳統)
此內容僅適用于 Studio (傳統) 。 Azure Machine Learning 設計工具中已新增類似的拖放模組。 若要深入瞭解 這兩個版本,請參閱這篇文章。
依類別列出的機器學習工作清單
-
將您的資料提供給設定的模型,以便從模式中學習,以及建立可用於預測的統計資料。
-
使用定型的模型來建立預測。
-
測量定型模型的精確度,或比較多個模型。
如需此實驗性工作流程的詳細說明,請參閱 信用風險解決方案逐步解說。
必要條件
在您可以開始建立模型的有趣部分之前,通常需要進行許多準備工作。 本節提供 Machine Learning Studio (傳統) 中的工具連結,可協助您清理資料、改善輸入品質,以及防止執行階段錯誤。
資料探索和資料品質
確定您的資料是正確的資料類型、正確的數量,以及您所選擇之演算法的正確品質。 瞭解您擁有的資料量,以及散發的方式。 是否有極端值? 這些產生的結果為何,以及它們的意義為何? 是否有任何重複的記錄?
處理遺漏值
遺漏值可能對您的結果造成許多影響。 例如,幾乎所有的統計方法都捨棄遺漏值的案例。 根據預設,機器學習在遇到具有遺漏值的資料列時,會遵循這些規則:
如果用來培訓模型的資料有遺漏值,則略過任何有遺漏值的資料列。
如果在對模型評分時當做輸入使用的資料有遺漏值,則會使用遺漏值做為輸入,但會傳播 null。 這通常表示在結果中插入 null,而不是有效的預測。
在訓練模型之前,請務必檢查您的資料。 若要插補遺漏值或更正您的資料,請使用此模組:
選取功能並減少維度
Machine Learning Studio (傳統) 可協助您在資料中進行流覽,以找出最有用的屬性。
使用 費雪線性判別分析 或以 篩選器為基礎的特徵選取 等工具來判斷哪些資料行具有最具預測性的能力。 這些工具也可以識別因數據洩漏而應移除的資料行。
從現有的資料建立或設計特徵。 將資料或群組資料正規化成 bin以建立新的資料群組,或在分析之前將數值的範圍標準化。
選擇適當的演算法
您嘗試解決的問題將決定選擇用於分析的資料,以及演算法的選擇。
如需詳細資訊,請參閱 如何在 Azure Machine Learning 中選擇演算法。
範例
如需機器學習服務的範例,請參閱 AZURE AI 資源庫。
如需秘訣和一些一般資料 prepration 工作的逐步解說,請參閱 執行 Team Data 科學流程的逐步解說。