TextCatalog.ProduceHashedWordBags 方法

定義

多載

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

建立 WordHashBagEstimator ,它會將 中指定的 inputColumnNames 多個資料行對應至名為 outputColumnName 的新資料行中雜湊 n-gram 計數的向量。

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

建立 WordHashBagEstimator ,它會將 中指定的 inputColumnName 資料行對應至名為 outputColumnName 的新資料行中雜湊 n-gram 計數的向量。

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

建立 WordHashBagEstimator ,它會將 中指定的 inputColumnNames 多個資料行對應至名為 outputColumnName 的新資料行中雜湊 n-gram 計數的向量。

public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string[] inputColumnNames, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string[] * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, inputColumnNames As String(), Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator

參數

catalog
TransformsCatalog.TextTransforms

轉換的目錄。

outputColumnName
String

轉換 inputColumnNames 所產生的資料行名稱。 此資料行的資料類型將是 的已知大小向量 Single

inputColumnNames
String[]

要從中擷取資料之多個資料行的名稱。 此估算器會在文字向量上運作。

numberOfBits
Int32

要雜湊處理的位數目。 必須介於 1 到 30 之間,包含。

ngramLength
Int32

Ngram 長度。

skipLength
Int32

建構 n-gram 時要略過的權杖數目上限。

useAllLengths
Boolean

是否要包含所有 n-gram 長度,最多 ngramLength 或只 ngramLength 包含 。

seed
UInt32

雜湊種子。

useOrderedHashing
Boolean

當有多個來源資料行) 時,每個來源資料行的位置是否應該包含在雜湊 (中。

maximumNumberOfInverts
Int32

在雜湊期間,我們會建構原始值與產生的雜湊值之間的對應。 原始值的文字表示會儲存在新資料行的批註位置名稱中。因此,雜湊可以將許多初始值對應至一個。 maximumNumberOfInverts 會指定對應至應該保留之雜湊之相異輸入值數目的上限。 0 不會保留任何輸入值。 -1 會保留所有對應至每個雜湊的輸入值。

傳回

備註

WordHashBagEstimator 不同于 NgramHashingEstimator 先前在內部標記文字,後者會採用權杖化文字作為輸入。

適用於

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

建立 WordHashBagEstimator ,它會將 中指定的 inputColumnName 資料行對應至名為 outputColumnName 的新資料行中雜湊 n-gram 計數的向量。

public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string inputColumnName = default, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnName As String = Nothing, Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator

參數

catalog
TransformsCatalog.TextTransforms

轉換的目錄。

outputColumnName
String

轉換 inputColumnName 所產生的資料行名稱。 此資料行的資料類型將是 的已知大小向量 Single

inputColumnName
String

要從中擷取資料的資料行名稱。 此估算器會在文字向量上運作。

numberOfBits
Int32

要雜湊處理的位數目。 必須介於 1 到 30 之間,包含。

ngramLength
Int32

Ngram 長度。

skipLength
Int32

建構 n-gram 時要略過的權杖數目上限。

useAllLengths
Boolean

是否要包含所有 n-gram 長度,最多 ngramLength 或只 ngramLength 包含 。

seed
UInt32

雜湊種子。

useOrderedHashing
Boolean

當有多個來源資料行) 時,每個來源資料行的位置是否應該包含在雜湊 (中。

maximumNumberOfInverts
Int32

在雜湊期間,我們會建構原始值與產生的雜湊值之間的對應。 原始值的文字表示會儲存在新資料行的批註位置名稱中。 因此,雜湊可以將許多初始值對應至一個。 maximumNumberOfInverts 會指定對應至應該保留之雜湊之相異輸入值數目的上限。 0 不會保留任何輸入值。 -1 會保留所有對應至每個雜湊的輸入值。

傳回

備註

WordHashBagEstimator 不同于 NgramHashingEstimator 先前在內部標記文字,後者會採用權杖化文字作為輸入。

適用於