轉移學習特徵化

本文提供使用 pandas UDF 進行轉移學習特徵化的範例。

在 DL 模型中進行轉移學習特徵化

Azure Databricks 支援使用深度學習模型進行特徵化。 預先定型的深度學習模型可用來計算功能,以用於其他下游模型。 Azure Databricks 支援大規模特徵化,將計算分散到叢集。 您可以使用 Databricks Runtime ML 中包含的 深度學習程式庫來執行特徵化,包括 TensorFlow 和 PyTorch。

Azure Databricks 也支援 傳輸學習 ,這是與特徵化密切相關的技術。 傳輸學習可讓您重複使用相關定義域中某個問題領域的知識。 特徵化本身是一種簡單且強大的傳輸學習方法:使用預先定型的深度學習模型計算特徵會從原始領域傳輸有關良好特徵的知識。

用於傳輸學習的計算功能步驟

本文示範如何使用預先定型的 TensorFlow 模型來計算傳輸學習的功能,使用下列工作流程:

  1. 從預先定型的深度學習模型開始,在此案例中是來自 tensorflow.keras.applications 的影像分類模型。
  2. 截斷模型的最後一層。 修改後的模型會產生一個以輸出而非預測的張量特徵。
  3. 將該模型套用至不同問題領域的新影像資料集,並計算影像的功能。
  4. 使用這些功能來定型新的模型。 下列筆記本會省略這個最後一個步驟。 如需將簡單模型定型的範例,例如羅吉斯回歸,請參閱 模型定型範例

範例:使用 pandas UDF 進行特徵化

下列筆記本會使用 pandas UDF 來執行特徵化步驟。 pandas UDF 及其較新的 Variant Scalar Iterator pandas UDF 、提供彈性 API、支援任何深度學習程式庫,並提供高效能。

使用 TensorFlow 進行特徵化和轉移學習

取得筆記本