microsoftml.mutualinformation_select:以相互資訊為基礎的特徵選取

使用量

microsoftml.mutualinformation_select(cols: [list, str], label: str,
    num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)

描述

使用標籤資料行,選取所有指定資料行的前 k 個功能(依其相互資訊排序)。

詳細資料

兩個隨機變數的相互資訊 XY 是變數之間相互相關性的量值。 正式來說,相互資訊可以撰寫為:

I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]

其預期會在和的聯合散發上取得 X Y 。 以下 p(x,y) 是和的聯合機率密度函 XYp(x)p(y) 分別是和的臨界機率密度 X 函數 Y 。 一般情況下,相依變數 (或標籤) 之間會有較高的相互關聯性,而 (或功能) 的獨立變數則表示標籤對該功能具有更高的相關性。

相互資訊功能選取模式會根據相互資訊來選取功能。 它會將最 num_features_to_keep 大的功能與標籤保持最大的相互資訊。

引數

cols

指定要選取之變數名稱的字元字串或清單。

label

指定標籤的名稱。

num_features_to_keep

如果要保留的功能數目是指定的 n ,則轉換會挑選 n 具有相依變數之最高相互資訊的功能。 預設值為 1000。

num_bins

數值的最大 bin 數目。 建議使用2的乘冪。 預設值為 256。

kargs

傳送至計算引擎的其他引數。

傳回

定義轉換的物件。

另請參閱

count_select

參考資料

維琪百科:相互資訊