TextCatalog 类

定义

的扩展方法的 TransformsCatalog集合。

public static class TextCatalog
type TextCatalog = class
Public Module TextCatalog
继承
TextCatalog

方法

ApplyWordEmbedding(TransformsCatalog+TextTransforms, String, String, String)

WordEmbeddingEstimator创建 ,它是一个文本特征化器,它使用预先训练的嵌入模型将文本向量转换为数值向量。

ApplyWordEmbedding(TransformsCatalog+TextTransforms, String, String, WordEmbeddingEstimator+PretrainedModelKind)

WordEmbeddingEstimator创建 ,它是一个文本特征化器,它使用预先训练的嵌入模型将文本向量转换为数值向量。

FeaturizeText(TransformsCatalog+TextTransforms, String, String)

创建 , TextFeaturizingEstimator它将文本列转换为 的特征化向量,该向量 Single 表示 n 元语法和字符语法的规范化计数。

FeaturizeText(TransformsCatalog+TextTransforms, String, TextFeaturizingEstimator+Options, String[])

创建 , TextFeaturizingEstimator它将文本列转换为 的特征化向量,该向量 Single 表示 n 元语法和字符语法的规范化计数。

LatentDirichletAllocation(TransformsCatalog+TextTransforms, String, String, Int32, Single, Single, Int32, Int32, Int32, Int32, Int32, Int32, Int32, Boolean)

创建 , LatentDirichletAllocationEstimator它使用 LightLDA 将文本 (表示为浮点向量) 转换为指示文本与标识的每个主题的相似性的向量 Single

NormalizeText(TransformsCatalog+TextTransforms, String, String, TextNormalizingEstimator+CaseMode, Boolean, Boolean, Boolean)

创建一个 TextNormalizingEstimator,它通过选择性地更改大小写、删除音调符号、标点符号、数字来规范化传入 inputColumnName 文本,并将新文本输出为 outputColumnName

ProduceHashedNgrams(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32, Boolean)

创建 , NgramHashingEstimator用于将数据从 中指定的 inputColumnName 列复制到新列: outputColumnName ,并生成经过哈希的 n 元语法计数的向量。

ProduceHashedNgrams(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32, Boolean)

创建一个 NgramHashingEstimator,它将中指定的 inputColumnNames 多个列中的数据提取到一个新列, outputColumnName 并生成经过哈希处理 n 元语法的计数向量。

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

创建 , WordHashBagEstimator它将 中指定的 inputColumnName 列映射到名为 outputColumnName的新列中经过哈希处理 n 元语法的计数向量。

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

创建 , WordHashBagEstimator它将 中指定的 inputColumnNames 多个列映射到名为 outputColumnName的新列中经过哈希处理 n 元语法的计数向量。

ProduceNgrams(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)

创建一个 , NgramExtractingEstimator 它生成一个 n 元语法计数向量, (输入文本中遇到的连续单词) 序列。

ProduceWordBags(TransformsCatalog+TextTransforms, String, Char, Char, String, Int32)

创建一个 WordBagEstimator,它将 中指定的 inputColumnName 列映射到名为 outputColumnName的新列中 n 元语法计数的向量。

ProduceWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)

创建一个 WordBagEstimator,它将 中指定的 inputColumnName 列映射到名为 outputColumnName的新列中 n 元语法计数的向量。

ProduceWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Boolean, Int32, NgramExtractingEstimator+WeightingCriteria)

创建 , WordBagEstimator它将 中指定的 inputColumnNames 多个列映射到名为 outputColumnName的新列中的 n 元语法计数向量。

RemoveDefaultStopWords(TransformsCatalog+TextTransforms, String, String, StopWordsRemovingEstimator+Language)

创建一个 CustomStopWordsRemovingEstimator,用于将数据从 中指定的 inputColumnName 列复制到新列: outputColumnName ,并从中删除特定于 language 的预先定义的文本集。

RemoveStopWords(TransformsCatalog+TextTransforms, String, String, String[])

创建一个 CustomStopWordsRemovingEstimator,用于将数据从 中指定的 inputColumnName 列复制到新列: outputColumnName 并从中删除 中指定的 stopwords 文本。

TokenizeIntoCharactersAsKeys(TransformsCatalog+TextTransforms, String, String, Boolean)

创建 , TokenizingByCharactersEstimator它通过使用滑动窗口将文本拆分为字符序列进行标记化。

TokenizeIntoWords(TransformsCatalog+TextTransforms, String, String, Char[])

创建一个 WordTokenizingEstimator,它使用 separators 作为分隔符标记输入文本。

适用于