TextFeaturizers 类
文本特征提取器的容器。
- 继承
-
builtins.objectTextFeaturizers
构造函数
TextFeaturizers()
方法
| averaged_perceptron_text_target_encoder | |
| bilstm_text_dnn | |
| bow_transformer |
创建词袋转换器。 |
| count_vectorizer |
创建 count vectorizer 特征提取器。 |
| get |
创建并返回请求扫描器。 |
| naive_bayes |
创建简单的 bayes 特征提取器。 |
| nimbus_ngram_featurizer |
创建 NimbusML NGram 特征提取器。 |
| pretrained_text_dnn |
创建预先训练的 BERT/转换器,它会在调用 fit() 时进行微调。 |
| string_cast |
创建 string cast 特征提取器。 |
| string_concat |
创建 string concat 转换器。 |
| text_stats |
创建文本统计转换器。 |
| text_target_encoder |
创建文本目标编码器。 |
| tfidf_vectorizer |
创建 tfidf 特征提取器。 |
| word_embeddings |
创建基于 word 嵌入的转换器。 |
averaged_perceptron_text_target_encoder
averaged_perceptron_text_target_encoder(*args: Any, **kwargs: Any) -> Optional[ReturnFeaturizerT]
bilstm_text_dnn
bilstm_text_dnn(*args: Any, **kwargs: Any) -> Optional[ReturnFeaturizerT]
bow_transformer
创建词袋转换器。
bow_transformer(*args: Any, **kwargs: Any) -> azureml.training.tabular.featurization.text.bagofwords_transformer.BagOfWordsTransformer
参数
- cls
必需
count_vectorizer
创建 count vectorizer 特征提取器。
count_vectorizer(*args: Any, **kwargs: Any) -> sklearn.feature_extraction.text.CountVectorizer
参数
- cls
必需
get
创建并返回请求扫描器。
get(sweeper_name: str, *args: Any, **kwargs: Any) -> Any
参数
- sweeper_name
必需
请求的扫描器的名称。
- sweeper_name
必需
naive_bayes
创建简单的 bayes 特征提取器。
naive_bayes(*args: Any, **kwargs: Any) -> azureml.training.tabular.featurization.generic.modelbased_target_encoder.ModelBasedTargetEncoder
参数
- cls
必需
nimbus_ngram_featurizer
创建 NimbusML NGram 特征提取器。
nimbus_ngram_featurizer(*args: Any, **kwargs: Any) -> nimbusml.feature_extraction.text.ngramfeaturizer.NGramFeaturizer
参数
- cls
必需
pretrained_text_dnn
创建预先训练的 BERT/转换器,它会在调用 fit() 时进行微调。
pretrained_text_dnn(dataset_language: str = 'eng', can_run_on_cpu: bool = False, *args: Any, **kwargs: Any) -> Optional[azureml.training.tabular.featurization.text.pretrained_text_dnn_transformer.PretrainedTextDNNTransformer]
参数
- embeddings_name
必需
预先训练模型的名称(例如,"bert-base-uncased"、"xlnet-base-cased")。
- can_run_on_cpu
默认值: eng
如果设置为 False,则当 pytorch 无法检测到 gpu 时,此方法将返回 None。
- can_run_on_cpu
默认值: False
string_cast
创建 string cast 特征提取器。
string_cast(*args: Any, **kwargs: Any) -> azureml.training.tabular.featurization.text.stringcast_transformer.StringCastTransformer
参数
- cls
必需
string_concat
创建 string concat 转换器。
string_concat(*args: Any, **kwargs: Any) -> azureml.training.tabular.featurization.text.string_concat_transformer.StringConcatTransformer
参数
- cls
必需
text_stats
创建文本统计转换器。
text_stats(*args: Any, **kwargs: Any) -> azureml.training.tabular.featurization.text.stats_transformer.StatsTransformer
参数
- cls
必需
text_target_encoder
创建文本目标编码器。
text_target_encoder(*args: Any, **kwargs: Any) -> azureml.training.tabular.featurization.generic.modelbased_target_encoder.ModelBasedTargetEncoder
参数
- cls
必需
tfidf_vectorizer
创建 tfidf 特征提取器。
tfidf_vectorizer(*args: Any, **kwargs: Any) -> sklearn.feature_extraction.text.TfidfVectorizer
参数
- cls
必需
word_embeddings
创建基于 word 嵌入的转换器。
word_embeddings(embeddings_name: str = 'wiki_news_300d_1M_subword', only_run_on_cpu: bool = True, *args: Any, **kwargs: Any) -> Optional[azureml.training.tabular.featurization.text.wordembedding_transformer.WordEmbeddingTransformer]
参数
- embeddings_name
必需
相关嵌入的名称。
- embeddings_name
默认值: wiki_news_300d_1M_subword
- only_run_on_cpu
默认值: True
反馈
提交和查看相关反馈