資料轉換-篩選

本文說明如何使用 Azure Machine Learning Studio (傳統) 中的篩選模組來轉換數位資料。 這組 tools for Machine Learning Studio (傳統) 的模組是以針對數位信號處理技術所開發的篩選為基礎。

注意

適用于 : Machine Learning Studio (傳統)

此內容僅適用于 Studio (傳統) 。 Azure Machine Learning 設計工具中已新增類似的拖放模組。 若要深入瞭解 這兩個版本,請參閱這篇文章

篩選通常會套用至資料處理階段或前置處理階段中的資料。 篩選器可增強用於機器學習的信號清晰度。 例如,您可以使用 Machine Learning Studio (傳統) 中的篩選模組進行這些處理工作:

  • 清除用於語音辨識的波形。
  • 在含有雜訊的銷售或經濟資料中偵測趨勢或移除季節性效應。
  • 分析遙測信號中的模式或構件。

這些模組可讓您輕鬆地設定篩選,方法是使用妥善研究的演算法,以數學方式轉換波形資料。 如果您已經決定要套用至資料的正確係數,您也可以建立自訂濾波器。

如果您需要執行工作,例如逐列排除資料集的資料,移除遺漏值或縮減資料集的大小,請改用這些模組:

  • 清除遺漏的資料:移除遺漏的值,或以預留位置取代遺漏值。
  • 分割區和範例:使用諸如日期範圍、特定值或正則運算式等準則來分割或篩選您的資料集。
  • 剪輯值:設定值的範圍,並只保留該範圍內的值。

數位信號處理中的篩選

就像您可以將篩選器附加至相機來補償光源或建立特殊效果,您可以將篩選套用至用於機器學習的資料。 篩選器可協助改進信號的清楚、捕捉感興趣的特性,或是減少雜訊。

理想的篩選器會排除所有的雜訊,並對所需的信號具有統一的敏感度。 但是,設計更好的篩選可能會採用許多反覆運算或技巧組合。 如果您成功設計有效的篩選準則,請考慮儲存篩選,讓您可以在轉換新資料時重複使用它。

一般而言,篩選是根據 波形分析 的原理。 當您設計篩選器時,您會尋找隱藏或增強部分信號的方式,以公開基礎趨勢、減少雜訊和干擾,或識別其他可能不會察覺到的資料值。

會套用各種不同的技術,以分解個別的趨勢或波形元件來建立實際的資料值。 您可以使用三角函數來分析值系列,以識別並隔離個別的波形。 (此值為 true,表示它是計量系列或音訊信號的複合頻率。 ) 篩選器可以套用至這些波形,以消除雜訊、增強一些波浪或移除目標群組件。

在篩選含有雜訊的數列以隔離不同的分量時,您可以指定要處理的頻帶,以指定要移除或強化的頻率。

Machine Learning Studio (傳統) 中的數位篩選

Machine Learning Studio (傳統) 支援下列類型的篩選:

  • 波形分解為基礎的篩選準則。 範例包括有限的脈衝回應 (的杉樹) 和無限的脈衝回應 (IIR) 篩選。 這些篩選器的運作方式是從整體系列中移除特定元件。 然後您就可以查看和調查簡化的波形。
  • 根據移動平均值或中間值的濾波器。 這些濾波器可平均分配時間窗口,以減低資料數列中的變異。 窗口可以固定或滑動,且可以有不同的形狀。 例如,三角形窗口以目前的資料點為最高峰 (加重目前值的權數),在此資料點的前後逐漸下降 (減少前後值的權數)。
  • 使用者定義或自訂的濾波器。 如果您已經知道應該套用至資料序列的轉換,您可以建立使用者定義的篩選。 您會提供套用來轉換資料數列的數值係數。 自訂篩選器可以模擬杉樹或 IIR 篩選器。 不過,使用自訂篩選器時,您可以更充分掌控要套用到數列中每個點的值。

篩選術語

下列清單包含在篩選準則的參數和屬性中使用之詞彙的簡單定義:

  • 通帶:通過篩選而不會衰減或減弱的頻率範圍。
  • 阻帶:指定的限制之間,不會傳遞信號的頻率範圍。 您可以設定截止頻率來定義阻帶。
  • 高通過:只讓高頻率通過。
  • 低通過:僅接受指定截止值下的頻率。
  • 角落:定義阻帶與通帶頻率之間的界限。 通常,您可以決定頻帶是否包含或排除轉角。 第一個訂單的篩選會導致漸進衰減,直到角落頻率為止。 之後,篩選會導致指數衰減。 較高順序的篩選 (例如 Butterworth 濾波器和 Chebyshev 篩選) 在角落頻率之後有較陡峭的傾斜。 較高順序的篩選會 attenuate 阻帶中的值,更快速且完整。
  • 帶阻濾波器篩選 (也稱為「 頻外拒絕 篩選」或 凹槽 篩選) :只有一個阻帶。 您可以指定兩個頻率來定義阻帶:高剪下頻率和低截止頻率。 帶通濾波器 篩選通常有兩個阻帶:一個在所需元件的任一邊。
  • Ripple:定期發生的小型不必要變化。 在 Machine Learning 中,您可以在 IIR 篩選設計中指定可容忍的 ripple 數量作為參數的一部分。

提示

需要更多資訊嗎? 如果您不熟悉數位信號處理,請參閱 數位信號處理簡介。 網站提供定義和實用的視覺輔助工具,說明基本的術語和概念。

模組清單

下列模組包含在 資料轉換篩選準則 類別中:

  • 套用篩選:將篩選套用至資料集的指定資料行。
  • 杉樹濾波器:建立信號處理的杉樹篩選。
  • IIR 篩選:建立信號處理的 IIR 篩選。
  • 位數篩選:建立用來讓資料平滑以進行趨勢分析的中間值篩選。
  • 移動平均篩選:建立會將資料平滑以進行趨勢分析的移動平均篩選。
  • 閾值篩選條件:建立限制值的閾值篩選準則。
  • 使用者定義篩選:建立自訂的杉樹或 IIR 篩選。

另請參閱