AutoMLConfig Classe

Representa a configuração para a apresentação de uma experiência de ML automatizada em Azure Machine Learning.

Este objeto de configuração contém e persiste os parâmetros para configurar a experiência, bem como os dados de treino a serem utilizados no tempo de execução. Para obter orientações sobre a seleção das suas definições, consulte https://aka.ms/AutoMLConfig .

Herança
builtins.object
AutoMLConfig

Construtor

AutoMLConfig(task: str, path: typing.Union[str, NoneType] = None, iterations: typing.Union[int, NoneType] = None, primary_metric: typing.Union[str, NoneType] = None, compute_target: typing.Union[typing.Any, NoneType] = None, spark_context: typing.Union[typing.Any, NoneType] = None, X: typing.Union[typing.Any, NoneType] = None, y: typing.Union[typing.Any, NoneType] = None, sample_weight: typing.Union[typing.Any, NoneType] = None, X_valid: typing.Union[typing.Any, NoneType] = None, y_valid: typing.Union[typing.Any, NoneType] = None, sample_weight_valid: typing.Union[typing.Any, NoneType] = None, cv_splits_indices: typing.Union[typing.List[typing.List[typing.Any]], NoneType] = None, validation_size: typing.Union[float, NoneType] = None, n_cross_validations: typing.Union[int, NoneType] = None, y_min: typing.Union[float, NoneType] = None, y_max: typing.Union[float, NoneType] = None, num_classes: typing.Union[int, NoneType] = None, featurization: typing.Union[str, azureml.automl.core.featurization.featurizationconfig.FeaturizationConfig] = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: typing.Union[int, NoneType] = None, mem_in_mb: typing.Union[int, NoneType] = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: typing.Union[float, NoneType] = None, experiment_exit_score: typing.Union[float, NoneType] = None, enable_early_stopping: bool = True, blocked_models: typing.Union[typing.List[str], NoneType] = None, blacklist_models: typing.Union[typing.List[str], NoneType] = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: typing.Union[typing.List[str], NoneType] = None, whitelist_models: typing.Union[typing.List[str], NoneType] = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: typing.Union[bool, NoneType] = None, debug_log: str = 'automl.log', training_data: typing.Union[typing.Any, NoneType] = None, validation_data: typing.Union[typing.Any, NoneType] = None, test_data: typing.Union[typing.Any, NoneType] = None, test_size: typing.Union[float, NoneType] = None, label_column_name: typing.Union[str, NoneType] = None, weight_column_name: typing.Union[str, NoneType] = None, cv_split_column_names: typing.Union[typing.List[str], NoneType] = None, enable_local_managed: bool = False, enable_dnn: bool = False, forecasting_parameters: typing.Union[azureml.automl.core.forecasting_parameters.ForecastingParameters, NoneType] = None, **kwargs: typing.Any) -> None

Parâmetros

task
<xref:str> ou Tasks

O tipo de tarefa a ser executada. Os valores podem ser 'classificação', 'regressão', ou 'previsão' dependendo do tipo de problema de ML automatizado a resolver.

path
<xref:str>

O caminho completo para a pasta do projeto Azure Machine Learning. Se não for especificado, o padrão é utilizar o diretório atual ou "."

iterations
<xref:int>

O número total de diferentes combinações de algoritmos e parâmetros para testar durante uma experiência automatizada ML. Se não for especificado, o padrão é de 1000 iterações.

primary_metric
<xref:str> ou Metric

A métrica que o Machine Learning automatizado irá otimizar para a seleção de modelos. O Machine Learning automatizado recolhe mais métricas do que pode otimizar. Pode utilizar get_primary_metrics para obter uma lista de métricas válidas para a sua determinada tarefa. Para obter mais informações sobre como as métricas são calculadas, consulte https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric .

Se não for especificado, a precisão é utilizada para tarefas de classificação, a média de raiz normalizada ao quadrado é utilizada para tarefas de previsão e regressão, a precisão é utilizada para a classificação de imagem e classificação multi-etiquetas de imagem, e a precisão média média é usada para a deteção de objetos de imagem.

compute_target
AbstractComputeTarget

O Azure Machine Learning meta de computação para executar a experiência de Machine Learning automatizado. Consulte https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote mais informações sobre os alvos do cálculo.

spark_context
<xref:SparkContext>

O contexto da Faísca. Só aplicável quando utilizado no ambiente Azure Databricks/Spark.

X
DataFrame ou ndarray ou Dataset ou TabularDataset

As características de treino a utilizar quando instalarem os gasodutos durante uma experiência. Esta definição está a ser depreciada. Por favor, use training_data e label_column_name em vez disso.

y
DataFrame ou ndarray ou Dataset ou TabularDataset

Os rótulos de treino a utilizar quando instalarem os gasodutos durante uma experiência. Este é o valor que o seu modelo vai prever. Esta definição está a ser depreciada. Por favor, use training_data e label_column_name em vez disso.

sample_weight
DataFrame ou ndarray ou TabularDataset

O peso a dar a cada amostra de treino ao executar os gasodutos de montagem, cada linha deve corresponder a uma linha em X e y dados.

Especifique este parâmetro ao especificar X . Esta definição está a ser depreciada. Por favor, use training_data e weight_column_name em vez disso.

X_valid
DataFrame ou ndarray ou Dataset ou TabularDataset

Características de validação a utilizar quando instalar gasodutos durante uma experiência.

Se especificado, y_valid então ou sample_weight_valid também deve ser especificado. Esta definição está a ser depreciada. Por favor, use validation_data e label_column_name em vez disso.

y_valid
DataFrame ou ndarray ou Dataset ou TabularDataset

Etiquetas de validação para utilizar quando encaixarem os gasodutos durante uma experiência.

Ambos X_valid e devem ser y_valid especificados em conjunto. Esta definição está a ser depreciada. Por favor, use validation_data e label_column_name em vez disso.

sample_weight_valid
DataFrame ou ndarray ou TabularDataset

O peso a dar a cada amostra de validação ao executar os gasodutos de pontuação, cada linha deve corresponder a uma linha em X e y dados.

Especifique este parâmetro ao especificar X_valid . Esta definição está a ser depreciada. Por favor, use validation_data e weight_column_name em vez disso.

cv_splits_indices
<xref:List>[<xref:List>[ndarray]]

Índices onde dividir dados de treino para validação cruzada. Cada linha é uma dobra cruzada separada e dentro de cada crossfold, fornece 2 matrizes numpiadas, a primeira com os índices para amostras a utilizar para dados de treino e a segunda com os índices a utilizar para dados de validação. ou seja, [[t1, v1], [t2, v2], ...] onde t1 é o índice de treino para a primeira dobra cruzada e v1 são os índices de validação para a primeira dobra transversal.

Para especificar os dados existentes como dados de validação, utilize validation_data . Para permitir que o AutoML extraia dados de validação dos dados de formação, especifique ou n_cross_validations validation_size . Utilize cv_split_column_names se tiver colunas de validação cruzada em training_data .

validation_size
<xref:float>

Que fração dos dados a reter para validação quando os dados de validação do utilizador não são especificados. Isto deve estar entre 0,0 e 1.0 não incluído.

Especificar validation_data para fornecer dados de validação, de outra forma n_cross_validations definidos ou para extrair validation_size dados de validação dos dados de formação especificados. Para dobrar a validação cruzada personalizada, utilize cv_split_column_names .

Para obter mais informações, consulte Configure data splits e validação cruzada em machine learning automatizado.

n_cross_validations
<xref:int>

Quantas validações cruzadas a executar quando os dados de validação do utilizador não são especificados.

Especificar validation_data para fornecer dados de validação, de outra forma n_cross_validations definidos ou para extrair validation_size dados de validação dos dados de formação especificados. Para dobrar a validação cruzada personalizada, utilize cv_split_column_names .

Para obter mais informações, consulte Configure data splits e validação cruzada em machine learning automatizado.

y_min
<xref:float>

Valor mínimo de y para uma experiência de regressão. A combinação y_min de e y_max são usadas para normalizar métricas de conjunto de teste com base na gama de dados de entrada. Esta definição está a ser depreciada. Em vez disso, este valor será calculado a partir dos dados.

y_max
<xref:float>

Valor máximo de y para uma experiência de regressão. A combinação y_min de e y_max são usadas para normalizar métricas de conjunto de teste com base na gama de dados de entrada. Esta definição está a ser depreciada. Em vez disso, este valor será calculado a partir dos dados.

num_classes
<xref:int>

O número de classes nos dados do rótulo para uma experiência de classificação. Esta definição está a ser depreciada. Em vez disso, este valor será calculado a partir dos dados.

featurization
<xref:str> ou FeaturizationConfig

'auto' / 'off' / Indicador DeConfig de Exibição para saber se o passo de exibição deve ser feito automaticamente ou não, ou se deve ser utilizado um abotoador personalizado. Nota: Se os dados de entrada forem escassos, a caracterização não pode ser ligada.

O tipo de coluna é detetado automaticamente. Com base no pré-processamento/aguarde do tipo de coluna detetado, é feito da seguinte forma:

  • Categórico: Codificação de alvos, uma codificação quente, categorias de cardinalidade altas, imputa valores em falta.

  • Numérico: Imputar valores em falta, distância de cluster, peso das provas.

  • DataTime: Várias funcionalidades como dia, segundos, minutos, horas, etc.

  • Texto: Saco de palavras, incorporação de palavras pré-treinadas, codificação do alvo de texto.

Mais detalhes podem ser encontrados no artigo Configurar experiências automatizadas de ML em Python.

Para personalizar o passo de aposição, forneça um objetoConfig de Exibição. A apresentando personalizado suporta atualmente bloquear um conjunto de transformadores, atualizar o propósito da coluna, editar parâmetros do transformador e largar colunas. Para obter mais informações, consulte Personalizar a engenharia de recursos.

Nota: As funcionalidades de timeeries são manuseadas separadamente quando o tipo de tarefa está definido para a previsão independente deste parâmetro.

max_cores_per_iteration
<xref:int>

O número máximo de fios a utilizar para uma determinada iteração de treino. Valores aceitáveis:

  • Maior do que 1 e inferior ou igual ao número máximo de núcleos no alvo do cálculo.

  • Igual a -1, o que significa utilizar todos os núcleos possíveis por iteração por criança.

  • Igual a 1, o padrão.

max_concurrent_iterations
<xref:int>

Representa o número máximo de iterações que seriam executadas em paralelo. O valor predefinido é 1.

  • Os clusters AmlCompute suportam uma interação a funcionar por nó. Para várias corridas de pais experimentais AutoML executadas paralelamente num único cluster AmlCompute, a soma dos max_concurrent_iterations valores para todas as experiências deve ser inferior ou igual ao número máximo de nós. Caso contrário, as corridas serão em fila até que os nós estejam disponíveis.

  • O DSVM suporta várias iterações por nó. max_concurrent_iterations deve ser inferior ou igual ao número de núcleos no DSVM. Para várias experiências realizadas em paralelo num único DSVM, a soma dos max_concurrent_iterations valores para todas as experiências deve ser inferior ou igual ao número máximo de nós.

  • Databricks - max_concurrent_iterations deve ser inferior ou igual ao número de nós de trabalhadores em Databricks.

max_concurrent_iterations não se aplica a corridas locais. Anteriormente, este parâmetro foi concurrent_iterations nomeado.

iteration_timeout_minutes
<xref:int>

Tempo máximo em minutos que cada iteração pode funcionar antes de terminar. Se não for especificado, é utilizado um valor de 1 mês ou 43200 minutos.

mem_in_mb
<xref:int>

Utilização máxima da memória que cada iteração pode correr antes de terminar. Se não for especificado, é utilizado um valor de 1 PB ou 1073741824 MB.

enforce_time_on_windows
<xref:bool>

Se impor um limite de tempo para a formação de modelos em cada iteração em Windows. O padrão é verdadeiro. Se correr a partir de um ficheiro de script Python (.py), consulte a documentação para permitir limites de recursos em Windows.

experiment_timeout_hours
<xref:float>

O tempo máximo em horas que todas as iterações combinadas podem demorar antes do fim da experiência. Pode ser um valor decimal como 0,25 representando 15 minutos. Se não for especificado, o tempo limite de experiências padrão é de 6 dias. Para especificar um intervalo inferior ou igual a 1 hora, certifique-se de que o tamanho do seu conjunto de dados não é superior a 10.000.000 (coluna de linhas vezes) ou um resultado de erro.

experiment_exit_score
<xref:float>

Pontuação do alvo para a experiência. A experiência termina depois que esta pontuação é alcançada. Se não for especificado (sem critérios), a experiência decorre até que não se progrida mais na métrica primária. Para obter mais informações sobre os critérios de saída, consulte este artigo.

enable_early_stopping
<xref:bool>

Se permitir a rescisão antecipada se a pontuação não melhorar a curto prazo. O padrão é verdadeiro.

Lógica de paragem precoce:

  • Sem paragens antecipadas para as primeiras 20 iterações (marcos).

  • A janela de paragem precoce começa na 21ª iteração e procura early_stopping_n_iters iterações

    (atualmente definido para 10). Isto significa que a primeira iteração onde pode parar é a 31ª.

  • AutoML ainda agenda 2 iterações de conjunto APÓS paragem antecipada, o que pode resultar em

    pontuações mais altas.

  • A paragem precoce é desencadeada se o valor absoluto da melhor pontuação calculada é o mesmo para o passado

    early_stopping_n_iters iterações, isto é, se não houver melhorias na pontuação para early_stopping_n_iters iterações.

blocked_models
<xref:list>(<xref:str>) ou <xref:list>(Classification)<xref: for classification task,> ou <xref:list>(Regression)<xref: for regression task,> ou <xref:list>(Forecasting)<xref: for forecasting task>

Uma lista de algoritmos para ignorar para uma experiência. Se enable_tf for falso, os modelos TensorFlow estão incluídos em blocked_models .

blacklist_models
<xref:list>(<xref:str>) ou <xref:list>(Classification)<xref: for classification task,> ou <xref:list>(Regression)<xref: for regression task,> ou <xref:list>(Forecasting)<xref: for forecasting task>

Parâmetro precotado, use blocked_models em vez disso.

exclude_nan_labels
<xref:bool>

Se excluir linhas com valores NaN no rótulo. O padrão é verdadeiro.

verbosity
<xref:int>

O nível de verbosidade para escrever no ficheiro de registo. O padrão é INFO ou 20. Valores aceitáveis são definidos na biblioteca de registo python.

enable_tf
<xref:bool>

Parâmetro precotado para ativar/desativar algoritmos de tensorflow. O padrão é falso.

model_explainability
<xref:bool>

Se permitir explicar o melhor modelo AutoML no final de todas as iterações de treinamento AutoML. O padrão é verdadeiro. Para obter mais informações, consulte Interpretação: explicações de modelos em machine learning automatizado.

allowed_models
<xref:list>(<xref:str>) ou <xref:list>(Classification)<xref: for classification task,> ou <xref:list>(Regression)<xref: for regression task,> ou <xref:list>(Forecasting)<xref: for forecasting task>

Uma lista de nomes de modelos para procurar uma experiência. Se não for especificado, todos os modelos suportados para a tarefa são utilizados menos quaisquer modelos de blocked_models TensorFlow especificados ou preprecados. Os modelos suportados para cada tipo de tarefa são descritos na SupportedModels classe.

whitelist_models
<xref:list>(<xref:str>) ou <xref:list>(Classification)<xref: for classification task,> ou <xref:list>(Regression)<xref: for regression task,> ou <xref:list>(Forecasting)<xref: for forecasting task>

Parâmetro precotado, use allowed_models em vez disso.

enable_onnx_compatible_models
<xref:bool>

Quer ativar ou desativar a aplicação dos modelos compatíveis com ONNX. O padrão é falso. Para obter mais informações sobre a Open Neural Network Exchange (ONNX) e Azure Machine Learning, consulte este artigo.

forecasting_parameters
ForecastingParameters

Um objeto de Previsão Parametros para manter todos os parâmetros específicos de previsão.

time_column_name
<xref:str>

O nome da coluna do tempo. Este parâmetro é necessário ao prever especificar a coluna de datas nos dados de entrada utilizados para a construção da série de tempo e inferir a sua frequência. Esta definição está a ser depreciada. Por favor, use forecasting_parameters em vez disso.

max_horizon
<xref:int>

O horizonte de previsão máxima desejado em unidades de frequência de séries temporais. O valor predefinido é 1.

As unidades baseiam-se no intervalo de tempo dos seus dados de treino, por exemplo, mensais, semanais que o meteorologista deve prever. Quando o tipo de tarefa está a prever, este parâmetro é necessário. Para obter mais informações sobre a definição de parâmetros de previsão, consulte o auto-train um modelo de previsão da série temporal. Esta definição está a ser depreciada. Por favor, use forecasting_parameters em vez disso.

grain_column_names
<xref:str> ou <xref:list>(<xref:str>)

Os nomes das colunas costumavam agrupar uma série de tempos. Pode ser usado para criar várias séries. Se o grão não for definido, presume-se que o conjunto de dados é uma série temporal. Este parâmetro é utilizado com a previsão do tipo de tarefa. Esta definição está a ser depreciada. Por favor, use forecasting_parameters em vez disso.

target_lags
<xref:int> ou <xref:list>(<xref:int>)

O número de períodos passados a ficar aquém da coluna-alvo. A predefinição é 1. Esta definição está a ser depreciada. Por favor, use forecasting_parameters em vez disso.

Ao prever, este parâmetro representa o número de linhas para atrasar os valores-alvo com base na frequência dos dados. Isto é representado como uma lista ou um número único. O lag deve ser utilizado quando a relação entre as variáveis independentes e a variável dependente não corresponder ou correlacionar por defeito. Por exemplo, ao tentar prever a procura de um produto, a procura em qualquer mês pode depender do preço de mercadorias específicas 3 meses antes. Neste exemplo, pode querer atrasar negativamente o alvo (procura) em 3 meses para que o modelo esteja a treinar sobre a relação correta. Para obter mais informações, consulte o Auto-train um modelo de previsão da série de tempo.

feature_lags
<xref:str>

Bandeira para gerar lags para as características numéricas. Esta definição está a ser depreciada. Por favor, use forecasting_parameters em vez disso.

target_rolling_window_size
<xref:int>

O número de períodos anteriores usados para criar uma média de janela rolante da coluna-alvo. Esta definição está a ser depreciada. Por favor, use forecasting_parameters em vez disso.

Ao prever, este parâmetro representa n períodos históricos para utilizar para gerar valores previstos, <= tamanho do conjunto de treino. Se omitido, n é o tamanho completo do conjunto de treino. Especifique este parâmetro quando apenas pretende considerar uma certa quantidade de história ao treinar o modelo.

country_or_region
<xref:str>

O país/região usado para gerar características de férias. Estes devem ser o código ISO 3166 país/região de duas letras, por exemplo "EUA" ou "GB". Esta definição está a ser depreciada. Por favor, use forecasting_parameters em vez disso.

use_stl
<xref:str>

Configurar a decomposição STL da coluna-alvo da série de tempo. use_stl pode levar três valores: Nenhum (padrão) - sem decomposição stl, 'season' - apenas gerar componente de temporada e season_trend - geram componentes de temporada e tendência. Esta definição está a ser depreciada. Por favor, use forecasting_parameters em vez disso.

seasonality
<xref:int> ou <xref:str>

Definir sazonalidade da série de tempo. Se a sazonalidade for definida como 'auto', será deduzida. Esta definição está a ser depreciada. Por favor, use forecasting_parameters em vez disso.

short_series_handling_configuration
<xref:str>

O parâmetro que define como se o AutoML deve lidar com séries de curto prazo.

Valores possíveis: 'auto' (predefinição), 'pad', 'drop' e Nenhum.

  • as séries curtas automáticas serão acolchoadas se não houver séries longas, caso contrário, séries curtas serão largadas.
  • pad toda a série curta será acolchoado.
  • cair todas as curtas séries serão largadas".
  • Nenhuma das séries curtas não será modificada. Se for definido como 'pad', a tabela será acolchoada com os zeros e valores vazios para os regressors e valores aleatórios para o alvo com o valor médio igual ao valor-alvo mediano para o id de série de tempo dado. Se a mediana for mais ou igual a zero, o valor acolchoado mínimo será cortado por zero: Entrada:

A saída assumindo o número mínimo de valores é de quatro:

Nota: Temos dois parâmetros short_series_handling_configuration e legado short_series_handling. Quando ambos os parâmetros são definidos, estamos sincronizados como mostrado na tabela abaixo (short_series_handling_configuration e short_series_handling para a brevidade são marcados como handling_configuration e manuseamento respectivamente).

freq
<xref:str> ou <xref:None>

Frequência de previsão.

Ao prever, este parâmetro representa o período com o qual a previsão é desejada, por exemplo, diariamente, semanal, anual, etc. A frequência de previsão é frequência de conjunto de dados por padrão. Pode defini-lo opcionalmente para maior (mas não menor) do que a frequência do conjunto de dados. Agregaremos os dados e geraremos os resultados na frequência de previsão. Por exemplo, para os dados diários, pode definir a frequência para ser diária, semanal ou mensal, mas não de hora a hora. A frequência tem de ser um pseudónimo de pandas. Consulte a documentação dos pandas para obter mais informações: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function
<xref:str> ou <xref:None>

A função a utilizar para agregar a coluna-alvo da série de tempos está em conformidade com uma frequência especificada pelo utilizador. Se o target_aggregation_function estiver definido, mas o parâmetro freq não estiver definido, o erro é levantado. As funções de agregação de alvos possíveis são: "soma", "max", "min" e "média".

enable_voting_ensemble
<xref:bool>

Se ativar/desativar a iteração voteEnsemble. O padrão é verdadeiro. Para obter mais informações sobre conjuntos, consulte a configuração do Ensemble.

enable_stack_ensemble
<xref:bool>

Se ativar/desativar a iteração Do StackEnsemble. O padrão é Nenhum. Se enable_onnx_compatible_models bandeira estiver a ser definida, então a iteração StackEnsemble será desativada. Da mesma forma, para as tarefas timeseries, a iteração StackEnsemble será desativada por padrão, para evitar riscos de sobremontagem devido a um pequeno conjunto de treino usado na montagem do meta-aprendiz. Para obter mais informações sobre conjuntos, consulte a configuração do Ensemble.

debug_log
<xref:str>

O ficheiro de registo para escrever informações de depurar. Se não for especificado, utiliza-se 'automl.log'.

training_data
DataFrame ou Dataset ou DatasetDefinition ou TabularDataset

Os dados de treino a serem usados dentro da experiência. Deve conter tanto as características de treino como uma coluna de etiquetas (opcionalmente uma coluna de pesos de amostra). Se training_data for especificado, o label_column_name parâmetro também deve ser especificado.

training_data foi introduzido na versão 1.0.81.

validation_data
DataFrame ou Dataset ou DatasetDefinition ou TabularDataset

Os dados de validação a utilizar dentro da experiência. Deve conter tanto as características de treino como a coluna de etiquetas (opcionalmente uma coluna de pesos de amostra). Se validation_data for especificado, training_data então e os label_column_name parâmetros devem ser especificados.

validation_data foi introduzido na versão 1.0.81. Para obter mais informações, consulte Configure data splits e validação cruzada em machine learning automatizado.

test_data
Dataset ou TabularDataset

Os dados de teste a utilizar para um teste que será iniciado automaticamente após o treino do modelo está completo. O teste terá previsões usando o melhor modelo e calculará métricas dadas estas previsões.

Se este parâmetro ou o test_size parâmetro não forem especificados, nenhum teste será executado automaticamente após a conclusão do treino do modelo. Os dados do teste devem conter tanto as características como a coluna de etiquetas. Se test_data for especificado, o label_column_name parâmetro deve ser especificado.

test_size
<xref:float>

Que fração dos dados de treino para manter para os dados de teste para um teste que será automaticamente iniciado após o treino do modelo está completo. O teste terá previsões usando o melhor modelo e calculará métricas dadas estas previsões.

Isto deve estar entre 0,0 e 1.0 não incluído. Se test_size for especificado ao mesmo tempo que , os validation_size dados do teste são divididos antes da training_data divisão dos dados de validação. Por exemplo, se validation_size=0.1 , test_size=0.1 e os dados de formação originais tiverem 1000 linhas, então os dados do teste terão 100 linhas, os dados de validação conterão 90 linhas e os dados de formação terão 810 linhas.

Para tarefas baseadas em regressão, é utilizada uma amostragem aleatória. Para tarefas de classificação, é utilizada uma amostragem estratificada. Atualmente, a previsão não suporta especificar um conjunto de dados de teste utilizando uma divisão comboio/teste.

Se este parâmetro ou o test_data parâmetro não forem especificados, nenhum teste será executado automaticamente após a conclusão do treino do modelo.

label_column_name
<xref:typing.Union>[<xref:str>, <xref:int>]

O nome da coluna do rótulo. Se os dados de entrada forem de um pandas. DataFrame que não tem nomes de colunas, índices de coluna podem ser usados em vez disso, expressos como inteiros.

Este parâmetro é aplicável training_data a, validation_data e test_data parâmetros. label_column_name foi introduzido na versão 1.0.81.

weight_column_name
<xref:typing.Union>[<xref:str>, <xref:int>]

O nome da coluna de peso da amostra. ML automatizada suporta uma coluna ponderada como entrada, fazendo com que as linhas dos dados sejam ponderadas para cima ou para baixo. Se os dados de entrada forem de um pandas. DataFrame que não tem nomes de colunas, índices de coluna podem ser usados em vez disso, expressos como inteiros.

Este parâmetro é aplicável training_data e validation_data parâmetros. weight_column_names foi introduzido na versão 1.0.81.

cv_split_column_names
<xref:list>(<xref:str>)

Lista de nomes das colunas que contêm divisão de validação cruzada personalizada. Cada uma das colunas de divisão CV representa uma divisão cv onde cada linha está marcada 1 para treino ou 0 para validação.

Este parâmetro é aplicável ao training_data parâmetro para fins de validação cruzada personalizada. cv_split_column_names foi introduzido na versão 1.6.0

Use cv_split_column_names cv_splits_indices ou.

Para obter mais informações, consulte Configure data splits e validação cruzada em machine learning automatizado.

enable_local_managed
<xref:bool>

Parâmetro desativado. As corridas geridas locais não podem ser ativadas neste momento.

enable_dnn
<xref:bool>

Se incluir modelos baseados em DNN durante a seleção do modelo. O padrão é falso.

Observações

O seguinte código mostra um exemplo básico de criação de um objeto AutoMLConfig e de apresentação de uma experiência para regressão:


   automl_settings = {
       "n_cross_validations": 3,
       "primary_metric": 'r2_score',
       "enable_early_stopping": True,
       "experiment_timeout_hours": 1.0,
       "max_concurrent_iterations": 4,
       "max_cores_per_iteration": -1,
       "verbosity": logging.INFO,
   }

   automl_config = AutoMLConfig(task = 'regression',
                               compute_target = compute_target,
                               training_data = train_data,
                               label_column_name = label,
                               **automl_settings
                               )

   ws = Workspace.from_config()
   experiment = Experiment(ws, "your-experiment-name")
   run = experiment.submit(automl_config, show_output=True)

Uma amostra completa está disponível na Regression

Exemplos de utilização do AutoMLConfig para previsão estão nestes cadernos:

Exemplos de utilização de AutoMLConfig para todos os tipos de tarefas podem ser encontrados nestes cadernos ML automatizados.

Para obter informações sobre ML automatizadas, consulte os artigos:

Para obter mais informações sobre diferentes opções para configurar divisões de dados de formação/validação e validação cruzada para a sua aprendizagem automática de máquinas, AutoML, experiências, consulte divisões de dados de configuração e validação cruzada na aprendizagem automática de máquinas.

Métodos

get_supported_dataset_languages

Obtenha línguas suportadas e os respetivos códigos linguísticos na ISO 639-3.

get_supported_dataset_languages

Obtenha línguas suportadas e os respetivos códigos linguísticos na ISO 639-3.

get_supported_dataset_languages(use_gpu: bool) -> typing.Dict[typing.Any, typing.Any]

Parâmetros

cls

Objeto de classe de AutoMLConfig .

use_gpu

boolean indicando se gpu compute está sendo usado ou não.

Devoluções

dicionário de formato { } } . Código linguístico adere à norma ISO 639-3, consulte https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes