training_utilities 模块

在 AutoML 训练过程中使用的实用工具。

LargeDatasetLimit

用于限制大数据集的常量。

枚举

DatasetMetadataKeys

用于流式处理数据元数据的密钥。

函数

auto_block_models

自动将适当的文件添加到 blocked_models。

auto_block_models(raw_experiment_data: azureml.automl.runtime._data_definition.raw_experiment_data.RawExperimentData, automl_settings: azureml.automl.core.automl_base_settings.AutoMLBaseSettings) -> None

参数

raw_experiment_data
必需

包含数据对象(例如“X”和“y”)的 RawExperimentData 的实例

automl_settings
必需

用于此当前运行的设置。

返回

build_experiment_store

将 transformed_data_context 中的信息写入 ExperimentStore。

build_experiment_store(transformed_data_context: Union[azureml.automl.runtime.data_context.TransformedDataContext, azureml.automl.runtime.streaming_data_context.StreamingTransformedDataContext], cache_store: azureml.automl.runtime.shared.cache_store.CacheStore, task_type: str, experiment_data_settings: azureml.automl.runtime._runtime_params.ExperimentDataSettings, experiment_control_settings: azureml.automl.runtime._runtime_params.ExperimentControlSettings, init_all_stats: bool = False, keep_in_memory: bool = False) -> azureml.automl.runtime.experiment_store.ExperimentStore

参数

transformed_data_context
必需

特征化数据集。

cache_store
必需

缓存存储

automl_settings
必需

automl 设置

init_all_stats
必需

初始化所有统计信息

keep_in_memory
必需

将数据刷新到缓存存储或将其保存在内存中

experiment_control_settings
默认值: False

automl 控制设置

keep_in_memory
默认值: False

返回

试验存储

prepare_raw_experiment_data

准备所有受支持的输入格式的原始试验数据。

请注意,如果没有用户定义的用于验证模型的规则,此方法还会将训练数据集拆分为训练/有效数据集。

prepare_raw_experiment_data(X=None, y=None, sample_weight=None, X_valid=None, y_valid=None, sample_weight_valid=None, cv_splits_indices=None, user_script=None, training_data=None, validation_data=None, label_column_name=None, weight_column_name=None, cv_split_column_names=None, automl_settings=None, verifier=None)

参数

X
DataFramendarray 或 <xref:azureml.dataprep.Dataflow>
默认值: None

训练特征。

y
DataFramendarray 或 <xref:azureml.dataprep.Dataflow>
默认值: None

训练标签。

sample_weight
DataFramendarray 或 <xref:azureml.dataprep.Dataflow>
默认值: None

训练数据的示例权重。

X_valid
DataFramendarray 或 <xref:azureml.dataprep.Dataflow>
默认值: None

验证特征。

y_valid
DataFramendarray 或 <xref:azureml.dataprep.Dataflow>
默认值: None

验证标签。

sample_weight_valid
DataFramendarray 或 <xref:azureml.dataprep.Dataflow>
默认值: None

验证集示例权重。

cv_splits_indices
ndarray
默认值: None

用于交叉验证的拆分训练数据的索引。 每行都是一个单独的交叉折叠,在每个交叉折叠内,提供 2 个数组,第一个数组包含用于训练数据的样本索引,第二个数组包含用于验证数据的索引。 即 [[t1, v1], [t2, v2], ...],其中 t1 是第一个交叉折叠的训练索引,v1 是第一个交叉折叠的验证索引。

training_data
Union[DataFrame, <xref:azureml.core.Dataset,azureml.data.dataset_definition.DatasetDefinition>, TabularDataset]
默认值: None

要在试验中使用的训练数据。

validation_data
Union[DataFrame, <xref:azureml.core.Dataset,azureml.data.dataset_definition.DatasetDefinition>, TabularDataset]
默认值: None

要在试验中使用的验证数据。

label_column_name
str
默认值: None

标签列的名称。

weight_column_name
str
默认值: None

样本权重列的名称。

cv_split_column_names
list(str)
默认值: None

包含自定义交叉验证拆分的列的名称列表。

user_script
默认值: None

包含 get_data() 的脚本的文件路径

automl_settings
默认值: None

automl 设置

verifier
VerifierManager
默认值: None

验证程序管理器示例。

返回

RawExperimentData