DataTransformer 类

可添加到输入管道中的预处理类。

此类执行以下操作:

  1. 按原样处理数值输入。

  2. 对于日期:年、月、日、小时是特征

  3. 对于文本,tfidf 特征

  4. 非浮点列的少量唯一值变为

    分类

要解决的 ML 问题。 :param is_onnx_compatible: 是否在 onnx 兼容模式下工作。

继承
DataTransformer
DataTransformer

构造函数

DataTransformer(task: Optional[str] = 'classification', is_onnx_compatible: bool = False, observer: Optional[azureml.automl.core._experiment_observer.ExperimentObserver] = None, enable_feature_sweeping: bool = False, enable_dnn: bool = True, force_text_dnn: bool = False, feature_sweeping_timeout: int = 86400, featurization_config: Optional[azureml.automl.core.featurization.featurizationconfig.FeaturizationConfig] = None, is_cross_validation: bool = False, feature_sweeping_config: Dict[str, Any] = {}, working_dir: Optional[str] = None, enable_categorical_indicators: bool = False)

参数

task
默认值: classification

“分类”或“回归”,具体取决于哪种类型

is_onnx_compatible
默认值: False
observer
默认值: None
enable_feature_sweeping
默认值: False
enable_dnn
默认值: True
force_text_dnn
默认值: False
feature_sweeping_timeout
默认值: 86400
featurization_config
默认值: None
is_cross_validation
默认值: False
feature_sweeping_config
默认值: {}
working_dir
默认值: None
enable_categorical_indicators
默认值: False

方法

fit

执行原始数据验证并标识要应用的转换。

fit_individual_transformer_mapper
get_engineered_feature_names

获取工程特征名称。

在完成对原始数据的数据转换后,将工程特征名称列表以字符串形式返回。

get_featurization_summary

返回 DataTransformer 所看到的所有输入特征的特征化摘要。 :param kwargs:

请参阅下文

get_params

获取此估算器的参数。

get_stats_feature_type_summary

返回列统计信息和特征类型摘要。 :param raw_column_name_list:原始列名称的列表。 :return:每个输入原始列的统计数据和特征类型摘要的列表。

set_cached_featurizers

覆盖 mapper.features 或已拟合 transformer_and_mapper_list 中的特征化器。

transform

使用在拟合阶段标识的转换来转换输入原始数据。

fit

执行原始数据验证并标识要应用的转换。

fit(df: Union[numpy.ndarray, pandas.core.frame.DataFrame, scipy.sparse.base.spmatrix, azureml.dataprep.api.dataflow.Dataflow], y: Optional[Union[numpy.ndarray, pandas.core.series.Series, pandas.core.arrays.categorical.Categorical, azureml.dataprep.api.dataflow.Dataflow]] = None) -> azureml.automl.runtime.featurization.data_transformer.DataTransformer

参数

df
必需

表示文本、数字或分类输入的输入数据对象。

y
必需

目标列数据。

返回

DataTransformer 对象。

例外

FitException if fitting the learned transformations fail.

fit_individual_transformer_mapper

fit_individual_transformer_mapper(transformer_mapper: azureml.automl.runtime.featurization.transformer_and_mapper.TransformerAndMapper, df: Union[numpy.ndarray, pandas.core.frame.DataFrame, scipy.sparse.base.spmatrix, azureml.dataprep.api.dataflow.Dataflow], y: Optional[Union[numpy.ndarray, pandas.core.series.Series, pandas.core.arrays.categorical.Categorical, azureml.dataprep.api.dataflow.Dataflow]] = None) -> None

参数

transformer_mapper
必需
df
必需
y
默认值: None

例外

FitException if fitting the learned transformations fail.

get_engineered_feature_names

获取工程特征名称。

在完成对原始数据的数据转换后,将工程特征名称列表以字符串形式返回。

get_engineered_feature_names() -> List[str]

返回

字符串形式的工程特征名称列表

例外

FitException if fitting the learned transformations fail.

get_featurization_summary

返回 DataTransformer 所看到的所有输入特征的特征化摘要。 :param kwargs:

请参阅下文

get_featurization_summary(**kwargs: Any) -> List[Dict[str, Optional[Any]]]

参数

is_user_friendly
<xref:<xref:`bool`>>

如果为 True,则返回单独的转换器参数,否则仅返回详细的特征化摘要。

返回

每个输入特征的特征化摘要列表。

例外

FitException if fitting the learned transformations fail.

get_params

获取此估算器的参数。

get_params(deep: bool = True) -> Dict[str, Any]

参数

deep
bool, <xref:default=True>
默认值: True

如果为 True,则返回此估算器的参数和包含的子对象(即估算器)。

返回

params - 映射到其值的参数名称。

返回类型

<xref:<xref:mapping of string to any>>

例外

FitException if fitting the learned transformations fail.

get_stats_feature_type_summary

返回列统计信息和特征类型摘要。 :param raw_column_name_list:原始列名称的列表。 :return:每个输入原始列的统计数据和特征类型摘要的列表。

get_stats_feature_type_summary(raw_column_name_list: Optional[List[str]] = None) -> Optional[List[Dict[str, Any]]]

参数

raw_column_name_list
默认值: None

例外

FitException if fitting the learned transformations fail.

set_cached_featurizers

覆盖 mapper.features 或已拟合 transformer_and_mapper_list 中的特征化器。

set_cached_featurizers(featurizer_index_mapping: Mapping[int, Any]) -> None

参数

featurizer_index_mapping
必需

从缓存中拉取的拟合化特征化器的索引映射。

返回

无。

例外

FitException if fitting the learned transformations fail.

transform

使用在拟合阶段标识的转换来转换输入原始数据。

transform(df: Union[numpy.ndarray, pandas.core.frame.DataFrame, scipy.sparse.base.spmatrix, azureml.dataprep.api.dataflow.Dataflow]) -> Union[pandas.core.frame.DataFrame, numpy.ndarray, scipy.sparse.base.spmatrix]

参数

df
ndarrayDataFrame
必需

表示文本、数字或分类输入的数据帧。

返回

numpy.array。

例外

FitException if fitting the learned transformations fail.

属性

get_column_names_and_types

返回每个输入原始列的列名和 dtype 映射。

DEFAULT_DATA_TRANSFORMER_TIMEOUT_SEC

DEFAULT_DATA_TRANSFORMER_TIMEOUT_SEC = 86400

FIT_FAILURE_MSG

FIT_FAILURE_MSG = 'Failed while fitting learned transformations.'

TRANSFORM_FAILURE_MSG

TRANSFORM_FAILURE_MSG = 'Failed while applying learned transformations.'

UNSUPPORTED_PARAMETER_WARNING_MSG

UNSUPPORTED_PARAMETER_WARNING_MSG = 'Unsupported parameter passed to {t}, proceeding with default values'