TextFeaturizers 类

文本特征提取器的容器。

继承
builtins.object
TextFeaturizers

构造函数

TextFeaturizers()

方法

averaged_perceptron_text_target_encoder
bilstm_text_dnn
bow_transformer

创建词袋转换器。

count_vectorizer

创建 count vectorizer 特征提取器。

get

创建并返回请求扫描器。

naive_bayes

创建简单的 bayes 特征提取器。

nimbus_ngram_featurizer

创建 NimbusML NGram 特征提取器。

pretrained_text_dnn

创建预先训练的 BERT/转换器,它会在调用 fit() 时进行微调。

string_cast

创建 string cast 特征提取器。

string_concat

创建 string concat 转换器。

text_stats

创建文本统计转换器。

text_target_encoder

创建文本目标编码器。

tfidf_vectorizer

创建 tfidf 特征提取器。

word_embeddings

创建基于 word 嵌入的转换器。

averaged_perceptron_text_target_encoder

averaged_perceptron_text_target_encoder(*args: Any, **kwargs: Any) -> Optional[ReturnFeaturizerT]

bilstm_text_dnn

bilstm_text_dnn(*args: Any, **kwargs: Any) -> Optional[ReturnFeaturizerT]

bow_transformer

创建词袋转换器。

bow_transformer(*args: Any, **kwargs: Any) -> azureml.training.tabular.featurization.text.bagofwords_transformer.BagOfWordsTransformer

参数

cls
必需

count_vectorizer

创建 count vectorizer 特征提取器。

count_vectorizer(*args: Any, **kwargs: Any) -> sklearn.feature_extraction.text.CountVectorizer

参数

cls
必需

get

创建并返回请求扫描器。

get(sweeper_name: str, *args: Any, **kwargs: Any) -> Any

参数

sweeper_name
必需

请求的扫描器的名称。

sweeper_name
必需

naive_bayes

创建简单的 bayes 特征提取器。

naive_bayes(*args: Any, **kwargs: Any) -> azureml.training.tabular.featurization.generic.modelbased_target_encoder.ModelBasedTargetEncoder

参数

cls
必需

nimbus_ngram_featurizer

创建 NimbusML NGram 特征提取器。

nimbus_ngram_featurizer(*args: Any, **kwargs: Any) -> nimbusml.feature_extraction.text.ngramfeaturizer.NGramFeaturizer

参数

cls
必需

pretrained_text_dnn

创建预先训练的 BERT/转换器,它会在调用 fit() 时进行微调。

pretrained_text_dnn(dataset_language: str = 'eng', can_run_on_cpu: bool = False, *args: Any, **kwargs: Any) -> Optional[azureml.training.tabular.featurization.text.pretrained_text_dnn_transformer.PretrainedTextDNNTransformer]

参数

embeddings_name
必需

预先训练模型的名称(例如,"bert-base-uncased"、"xlnet-base-cased")。

can_run_on_cpu
默认值: eng

如果设置为 False,则当 pytorch 无法检测到 gpu 时,此方法将返回 None。

can_run_on_cpu
默认值: False

string_cast

创建 string cast 特征提取器。

string_cast(*args: Any, **kwargs: Any) -> azureml.training.tabular.featurization.text.stringcast_transformer.StringCastTransformer

参数

cls
必需

string_concat

创建 string concat 转换器。

string_concat(*args: Any, **kwargs: Any) -> azureml.training.tabular.featurization.text.string_concat_transformer.StringConcatTransformer

参数

cls
必需

text_stats

创建文本统计转换器。

text_stats(*args: Any, **kwargs: Any) -> azureml.training.tabular.featurization.text.stats_transformer.StatsTransformer

参数

cls
必需

text_target_encoder

创建文本目标编码器。

text_target_encoder(*args: Any, **kwargs: Any) -> azureml.training.tabular.featurization.generic.modelbased_target_encoder.ModelBasedTargetEncoder

参数

cls
必需

tfidf_vectorizer

创建 tfidf 特征提取器。

tfidf_vectorizer(*args: Any, **kwargs: Any) -> sklearn.feature_extraction.text.TfidfVectorizer

参数

cls
必需

word_embeddings

创建基于 word 嵌入的转换器。

word_embeddings(embeddings_name: str = 'wiki_news_300d_1M_subword', only_run_on_cpu: bool = True, *args: Any, **kwargs: Any) -> Optional[azureml.training.tabular.featurization.text.wordembedding_transformer.WordEmbeddingTransformer]

参数

embeddings_name
必需

相关嵌入的名称。

embeddings_name
默认值: wiki_news_300d_1M_subword
only_run_on_cpu
默认值: True