DataTransformer 类
可添加到输入管道中的预处理类。
此类执行以下操作:
按原样处理数值输入。
对于日期:年、月、日、小时是特征
对于文本,tfidf 特征
非浮点列的少量唯一值变为
分类
要解决的 ML 问题。 :param is_onnx_compatible: 是否在 onnx 兼容模式下工作。
- 继承
-
DataTransformerDataTransformer
构造函数
DataTransformer(task: Optional[str] = 'classification', is_onnx_compatible: bool = False, observer: Optional[azureml.automl.core._experiment_observer.ExperimentObserver] = None, enable_feature_sweeping: bool = False, enable_dnn: bool = True, force_text_dnn: bool = False, feature_sweeping_timeout: int = 86400, featurization_config: Optional[azureml.automl.core.featurization.featurizationconfig.FeaturizationConfig] = None, is_cross_validation: bool = False, feature_sweeping_config: Dict[str, Any] = {}, working_dir: Optional[str] = None, enable_categorical_indicators: bool = False)
参数
- task
“分类”或“回归”,具体取决于哪种类型
- is_onnx_compatible
- observer
- enable_feature_sweeping
- enable_dnn
- force_text_dnn
- feature_sweeping_timeout
- featurization_config
- is_cross_validation
- feature_sweeping_config
- working_dir
- enable_categorical_indicators
方法
| fit |
执行原始数据验证并标识要应用的转换。 |
| fit_individual_transformer_mapper | |
| get_engineered_feature_names |
获取工程特征名称。 在完成对原始数据的数据转换后,将工程特征名称列表以字符串形式返回。 |
| get_featurization_summary |
返回 DataTransformer 所看到的所有输入特征的特征化摘要。 :param kwargs: 请参阅下文 |
| get_params |
获取此估算器的参数。 |
| get_stats_feature_type_summary |
返回列统计信息和特征类型摘要。 :param raw_column_name_list:原始列名称的列表。 :return:每个输入原始列的统计数据和特征类型摘要的列表。 |
| set_cached_featurizers |
覆盖 mapper.features 或已拟合 transformer_and_mapper_list 中的特征化器。 |
| transform |
使用在拟合阶段标识的转换来转换输入原始数据。 |
fit
执行原始数据验证并标识要应用的转换。
fit(df: Union[numpy.ndarray, pandas.core.frame.DataFrame, scipy.sparse.base.spmatrix, azureml.dataprep.api.dataflow.Dataflow], y: Optional[Union[numpy.ndarray, pandas.core.series.Series, pandas.core.arrays.categorical.Categorical, azureml.dataprep.api.dataflow.Dataflow]] = None) -> azureml.automl.runtime.featurization.data_transformer.DataTransformer
参数
- df
表示文本、数字或分类输入的输入数据对象。
- y
目标列数据。
返回
DataTransformer 对象。
例外
fit_individual_transformer_mapper
fit_individual_transformer_mapper(transformer_mapper: azureml.automl.runtime.featurization.transformer_and_mapper.TransformerAndMapper, df: Union[numpy.ndarray, pandas.core.frame.DataFrame, scipy.sparse.base.spmatrix, azureml.dataprep.api.dataflow.Dataflow], y: Optional[Union[numpy.ndarray, pandas.core.series.Series, pandas.core.arrays.categorical.Categorical, azureml.dataprep.api.dataflow.Dataflow]] = None) -> None
参数
- transformer_mapper
- df
- y
例外
get_engineered_feature_names
获取工程特征名称。
在完成对原始数据的数据转换后,将工程特征名称列表以字符串形式返回。
get_engineered_feature_names() -> List[str]
返回
字符串形式的工程特征名称列表
例外
get_featurization_summary
返回 DataTransformer 所看到的所有输入特征的特征化摘要。 :param kwargs:
请参阅下文
get_featurization_summary(**kwargs: Any) -> List[Dict[str, Optional[Any]]]
参数
- is_user_friendly
- <xref:<xref:`bool`>>
如果为 True,则返回单独的转换器参数,否则仅返回详细的特征化摘要。
返回
每个输入特征的特征化摘要列表。
例外
get_params
获取此估算器的参数。
get_params(deep: bool = True) -> Dict[str, Any]
参数
返回
params - 映射到其值的参数名称。
返回类型
例外
get_stats_feature_type_summary
返回列统计信息和特征类型摘要。 :param raw_column_name_list:原始列名称的列表。 :return:每个输入原始列的统计数据和特征类型摘要的列表。
get_stats_feature_type_summary(raw_column_name_list: Optional[List[str]] = None) -> Optional[List[Dict[str, Any]]]
参数
- raw_column_name_list
例外
set_cached_featurizers
覆盖 mapper.features 或已拟合 transformer_and_mapper_list 中的特征化器。
set_cached_featurizers(featurizer_index_mapping: Mapping[int, Any]) -> None
参数
- featurizer_index_mapping
从缓存中拉取的拟合化特征化器的索引映射。
返回
无。
例外
transform
使用在拟合阶段标识的转换来转换输入原始数据。
transform(df: Union[numpy.ndarray, pandas.core.frame.DataFrame, scipy.sparse.base.spmatrix, azureml.dataprep.api.dataflow.Dataflow]) -> Union[pandas.core.frame.DataFrame, numpy.ndarray, scipy.sparse.base.spmatrix]
参数
返回
numpy.array。
例外
属性
get_column_names_and_types
返回每个输入原始列的列名和 dtype 映射。
DEFAULT_DATA_TRANSFORMER_TIMEOUT_SEC
DEFAULT_DATA_TRANSFORMER_TIMEOUT_SEC = 86400
FIT_FAILURE_MSG
FIT_FAILURE_MSG = 'Failed while fitting learned transformations.'
TRANSFORM_FAILURE_MSG
TRANSFORM_FAILURE_MSG = 'Failed while applying learned transformations.'
UNSUPPORTED_PARAMETER_WARNING_MSG
UNSUPPORTED_PARAMETER_WARNING_MSG = 'Unsupported parameter passed to {t}, proceeding with default values'
反馈
提交和查看相关反馈