data_transformation 模块
保留特征化函数。
函数
build_feature_sweeped_state_container
生成特征整理状态容器。
build_feature_sweeped_state_container(raw_data_context: azureml.automl.runtime.data_context.RawDataContext, cache_store: azureml.automl.runtime.shared.cache_store.CacheStore, is_onnx_compatible: bool, experiment_observer: azureml.automl.core._experiment_observer.ExperimentObserver, enable_feature_sweeping: bool, feature_sweeping_config: Dict[str, Any], enable_dnn: bool, force_text_dnn: bool, featurizer_container: azureml.automl.runtime.featurization._featurizer_container.FeaturizerContainer, enable_categorical_indicators: bool = False) -> azureml.automl.runtime._feature_sweeped_state_container.FeatureSweepedStateContainer
参数
- raw_data_context
必需
原始输入数据。
- cache_store
必需
应该用于缓存特征化数据的对象。
- is_onnx_compatible
必需
是否在 onnx 兼容模式下工作。
- experiment_observer
必需
试验观察者。
- enable_feature_sweeping
必需
启用或禁用特征整理。
- feature_sweeping_config
必需
用于特征整理的配置。
- enable_dnn
必需
启用神经网络进行预测和自然语言处理的标志。
- force_text_dnn
必需
在特征整理中强制添加神经网络以进行自然语言处理的标志。
- featurizer_container
必需
特征化器容器。
- enable_categorical_indicators
默认值: False
返回
用于特征化的特征整理状态容器。
create_transformed_data_context_no_streaming
用于将输入原始数据从 JOS 转换为转换后的数据上下文以进行进一步处理的帮助程序函数。 我们已进行了检查,确保未打开流式处理。
create_transformed_data_context_no_streaming(raw_data_context: azureml.automl.runtime.data_context.RawDataContext, cache_store: azureml.automl.runtime.shared.cache_store.CacheStore, verifier: Optional[azureml.automl.runtime.faults_verifier.VerifierManager] = None) -> Tuple[azureml.automl.runtime.data_context.TransformedDataContext, Optional[sklearn.preprocessing._label.LabelEncoder], Union[numpy.ndarray, pandas.core.frame.DataFrame, scipy.sparse.base.spmatrix, azureml.dataprep.api.dataflow.Dataflow], numpy.ndarray]
参数
- raw_data_context
必需
原始输入数据。
- cache_store
必需
应该用于缓存特征化数据的对象。
- verifier
默认值: None
用于检查输入数据质量的验证程序。
返回
转换后的数据上下文。
get_transformers_for_full_featurization
对所有标准代码路径执行数据转换的特征整理部分。
get_transformers_for_full_featurization(raw_data_context: azureml.automl.runtime.data_context.RawDataContext, cache_store: azureml.automl.runtime.shared.cache_store.CacheStore, is_onnx_compatible: bool = False, experiment_observer: Optional[azureml.automl.core._experiment_observer.ExperimentObserver] = None, enable_feature_sweeping: bool = False, verifier: Optional[azureml.automl.runtime.faults_verifier.VerifierManager] = None, enable_streaming: bool = False, feature_sweeping_config: Dict[str, Any] = {}, enable_dnn: bool = False, force_text_dnn: bool = False, working_dir: Optional[str] = None, feature_sweeping_timeout_seconds: int = 129600, enable_categorical_indicators: bool = False) -> Optional[azureml.automl.runtime._feature_sweeped_state_container.FeatureSweepedStateContainer]
参数
- raw_data_context
必需
原始输入数据。
- cache_store
必需
应该用于缓存特征化数据的对象。
- is_onnx_compatible
默认值: False
是否在 onnx 兼容模式下工作。
- experiment_observer
默认值: None
试验观察者。
- enable_feature_sweeping
默认值: False
启用或禁用特征整理。
- verifier
默认值: None
用于检查输入数据质量的验证程序。
- enable_streaming
默认值: False
启用或禁用流式处理。
- feature_sweeping_config
默认值: {}
用于特征整理的配置。
- enable_dnn
默认值: False
启用神经网络进行预测和自然语言处理的标志。
- force_text_dnn
默认值: False
在特征整理中强制添加神经网络以进行自然语言处理的标志。
- working_dir
默认值: None
用于特征化/训练的工作目录。
- feature_sweeping_timeout_seconds
默认值: 129600
特征整理超时(以秒为单位)。
- enable_categorical_indicators
默认值: False
返回
由特征整理生成的对象的容器,在完全特征化中将需要这些对象。
transform_data_streaming
将输入从 RawDataContext 转换为 StreamingTransformedDataContext。
在此方法中,我们创建 StreamingTransformedDatacontext 和 StreamingFeaturizer(如果适用)。 我们还对数据应用筛选器以删除目标为 NULL 的任何行。
transform_data_streaming(raw_data_context: azureml.automl.runtime.data_context.RawDataContext, observer: Optional[azureml.automl.core._experiment_observer.ExperimentObserver] = None) -> azureml.automl.runtime.streaming_data_context.StreamingTransformedDataContext
参数
- raw_data_context
必需
原始输入数据。
- observer
默认值: None
返回
转换后的数据上下文。
反馈
提交和查看相关反馈