data_transformation 模块

保留特征化函数。

函数

build_feature_sweeped_state_container

生成特征整理状态容器。

build_feature_sweeped_state_container(raw_data_context: azureml.automl.runtime.data_context.RawDataContext, cache_store: azureml.automl.runtime.shared.cache_store.CacheStore, is_onnx_compatible: bool, experiment_observer: azureml.automl.core._experiment_observer.ExperimentObserver, enable_feature_sweeping: bool, feature_sweeping_config: Dict[str, Any], enable_dnn: bool, force_text_dnn: bool, featurizer_container: azureml.automl.runtime.featurization._featurizer_container.FeaturizerContainer, enable_categorical_indicators: bool = False) -> azureml.automl.runtime._feature_sweeped_state_container.FeatureSweepedStateContainer

参数

raw_data_context
必需

原始输入数据。

cache_store
必需

应该用于缓存特征化数据的对象。

is_onnx_compatible
必需

是否在 onnx 兼容模式下工作。

experiment_observer
必需

试验观察者。

enable_feature_sweeping
必需

启用或禁用特征整理。

feature_sweeping_config
必需

用于特征整理的配置。

enable_dnn
必需

启用神经网络进行预测和自然语言处理的标志。

force_text_dnn
必需

在特征整理中强制添加神经网络以进行自然语言处理的标志。

featurizer_container
必需

特征化器容器。

enable_categorical_indicators
默认值: False

返回

用于特征化的特征整理状态容器。

create_transformed_data_context_no_streaming

用于将输入原始数据从 JOS 转换为转换后的数据上下文以进行进一步处理的帮助程序函数。 我们已进行了检查,确保未打开流式处理。

create_transformed_data_context_no_streaming(raw_data_context: azureml.automl.runtime.data_context.RawDataContext, cache_store: azureml.automl.runtime.shared.cache_store.CacheStore, verifier: Optional[azureml.automl.runtime.faults_verifier.VerifierManager] = None) -> Tuple[azureml.automl.runtime.data_context.TransformedDataContext, Optional[sklearn.preprocessing._label.LabelEncoder], Union[numpy.ndarray, pandas.core.frame.DataFrame, scipy.sparse.base.spmatrix, azureml.dataprep.api.dataflow.Dataflow], numpy.ndarray]

参数

raw_data_context
必需

原始输入数据。

cache_store
必需

应该用于缓存特征化数据的对象。

verifier
默认值: None

用于检查输入数据质量的验证程序。

返回

转换后的数据上下文。

get_transformers_for_full_featurization

对所有标准代码路径执行数据转换的特征整理部分。

get_transformers_for_full_featurization(raw_data_context: azureml.automl.runtime.data_context.RawDataContext, cache_store: azureml.automl.runtime.shared.cache_store.CacheStore, is_onnx_compatible: bool = False, experiment_observer: Optional[azureml.automl.core._experiment_observer.ExperimentObserver] = None, enable_feature_sweeping: bool = False, verifier: Optional[azureml.automl.runtime.faults_verifier.VerifierManager] = None, enable_streaming: bool = False, feature_sweeping_config: Dict[str, Any] = {}, enable_dnn: bool = False, force_text_dnn: bool = False, working_dir: Optional[str] = None, feature_sweeping_timeout_seconds: int = 129600, enable_categorical_indicators: bool = False) -> Optional[azureml.automl.runtime._feature_sweeped_state_container.FeatureSweepedStateContainer]

参数

raw_data_context
必需

原始输入数据。

cache_store
必需

应该用于缓存特征化数据的对象。

is_onnx_compatible
默认值: False

是否在 onnx 兼容模式下工作。

experiment_observer
默认值: None

试验观察者。

enable_feature_sweeping
默认值: False

启用或禁用特征整理。

verifier
默认值: None

用于检查输入数据质量的验证程序。

enable_streaming
默认值: False

启用或禁用流式处理。

feature_sweeping_config
默认值: {}

用于特征整理的配置。

enable_dnn
默认值: False

启用神经网络进行预测和自然语言处理的标志。

force_text_dnn
默认值: False

在特征整理中强制添加神经网络以进行自然语言处理的标志。

working_dir
默认值: None

用于特征化/训练的工作目录。

feature_sweeping_timeout_seconds
默认值: 129600

特征整理超时(以秒为单位)。

enable_categorical_indicators
默认值: False

返回

由特征整理生成的对象的容器,在完全特征化中将需要这些对象。

transform_data_streaming

将输入从 RawDataContext 转换为 StreamingTransformedDataContext。

在此方法中,我们创建 StreamingTransformedDatacontext 和 StreamingFeaturizer(如果适用)。 我们还对数据应用筛选器以删除目标为 NULL 的任何行。

transform_data_streaming(raw_data_context: azureml.automl.runtime.data_context.RawDataContext, observer: Optional[azureml.automl.core._experiment_observer.ExperimentObserver] = None) -> azureml.automl.runtime.streaming_data_context.StreamingTransformedDataContext

参数

raw_data_context
必需

原始输入数据。

observer
默认值: None

返回

转换后的数据上下文。