AutoMLConfig Klasa

Reprezentuje konfigurację przesyłania zautomatyzowanego eksperymentu ML w Azure Machine Learning.

Ten obiekt konfiguracji zawiera i utrzymuje parametry w celu skonfigurowania przebiegu eksperymentu oraz dane szkoleniowe, które mają być używane w czasie wykonywania. Aby uzyskać wskazówki dotyczące wybierania ustawień, zobacz https://aka.ms/AutoMLConfig .

Dziedziczenie
builtins.object
AutoMLConfig

Konstruktor

AutoMLConfig(task: str, path: typing.Union[str, NoneType] = None, iterations: typing.Union[int, NoneType] = None, primary_metric: typing.Union[str, NoneType] = None, compute_target: typing.Union[typing.Any, NoneType] = None, spark_context: typing.Union[typing.Any, NoneType] = None, X: typing.Union[typing.Any, NoneType] = None, y: typing.Union[typing.Any, NoneType] = None, sample_weight: typing.Union[typing.Any, NoneType] = None, X_valid: typing.Union[typing.Any, NoneType] = None, y_valid: typing.Union[typing.Any, NoneType] = None, sample_weight_valid: typing.Union[typing.Any, NoneType] = None, cv_splits_indices: typing.Union[typing.List[typing.List[typing.Any]], NoneType] = None, validation_size: typing.Union[float, NoneType] = None, n_cross_validations: typing.Union[int, NoneType] = None, y_min: typing.Union[float, NoneType] = None, y_max: typing.Union[float, NoneType] = None, num_classes: typing.Union[int, NoneType] = None, featurization: typing.Union[str, azureml.automl.core.featurization.featurizationconfig.FeaturizationConfig] = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: typing.Union[int, NoneType] = None, mem_in_mb: typing.Union[int, NoneType] = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: typing.Union[float, NoneType] = None, experiment_exit_score: typing.Union[float, NoneType] = None, enable_early_stopping: bool = False, blocked_models: typing.Union[typing.List[str], NoneType] = None, blacklist_models: typing.Union[typing.List[str], NoneType] = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: typing.Union[typing.List[str], NoneType] = None, whitelist_models: typing.Union[typing.List[str], NoneType] = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: typing.Union[bool, NoneType] = None, debug_log: str = 'automl.log', training_data: typing.Union[typing.Any, NoneType] = None, validation_data: typing.Union[typing.Any, NoneType] = None, label_column_name: typing.Union[str, NoneType] = None, weight_column_name: typing.Union[str, NoneType] = None, cv_split_column_names: typing.Union[typing.List[str], NoneType] = None, enable_local_managed: bool = False, enable_dnn: bool = False, forecasting_parameters: typing.Union[azureml.automl.core.forecasting_parameters.ForecastingParameters, NoneType] = None, **kwargs: typing.Any) -> None

Parametry

task
str lub Tasks

Typ zadania do uruchomienia. Wartością może być "Klasyfikacja", "regresja" lub "prognozowanie" w zależności od typu zautomatyzowanego problemu ML do rozwiązania.

path
str

Pełna ścieżka do folderu projektu Azure Machine Learning. Jeśli nie zostanie określony, wartością domyślną jest użycie bieżącego katalogu lub ".".

iterations
int

Łączna liczba różnych kombinacji algorytmu i parametrów do przetestowania podczas zautomatyzowanego eksperymentu ML. Jeśli nie zostanie określony, wartość domyślna to 1000 iteracji.

primary_metric
str lub Metric

Metryka, którą zautomatyzowany Machine Learning będzie zoptymalizować do wyboru modelu. Zautomatyzowany Machine Learning zbiera więcej metryk niż można zoptymalizować. Możesz użyć, get_primary_metrics Aby uzyskać listę prawidłowych metryk dla danego zadania. Aby uzyskać więcej informacji na temat sposobu obliczania metryk, zobacz https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric .

Jeśli nie zostanie określony, dokładność jest używana na potrzeby zadań klasyfikacji, znormalizowana średnia dla elementu głównego jest używana do prognozowania i regresji, dokładność jest używana do klasyfikowania obrazów oraz klasyfikacji obrazów wieloetykietowych, a średnia precyzja jest używana do wykrywania obiektów obrazu.

compute_target
AbstractComputeTarget

Obiekt docelowy obliczeń Azure Machine Learning do uruchamiania eksperymentu zautomatyzowanego Machine Learning. https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remoteAby uzyskać więcej informacji na temat obiektów docelowych obliczeń, zobacz.

spark_context
<xref:SparkContext>

Kontekst platformy Spark. Dotyczy tylko sytuacji, gdy jest używana wewnątrz środowiska Azure Databricks/Spark.

X
DataFrame lub ndarray lub Dataset lub TabularDataset

Funkcje szkoleniowe, które mają być używane przy instalowaniu potoków podczas eksperymentu. To ustawienie jest przestarzałe. Zamiast tego użyj training_data i label_column_name.

y
DataFrame lub ndarray lub Dataset lub TabularDataset

Etykiety szkoleniowe, które mają być używane podczas montowania potoków podczas eksperymentu. Jest to wartość przewidywana przez model. To ustawienie jest przestarzałe. Zamiast tego użyj training_data i label_column_name.

sample_weight
DataFrame lub ndarray lub TabularDataset

Waga, która ma zostać nadana każdej próbie szkoleniowej w przypadku uruchamiania potoków, każdy wiersz powinien odpowiadać wierszowi w danych X i y.

Określ ten parametr podczas określania X . To ustawienie jest przestarzałe. Zamiast tego użyj training_data i weight_column_name.

X_valid
DataFrame lub ndarray lub Dataset lub TabularDataset

Funkcje walidacji do użycia w przypadku dopasowywania potoków podczas eksperymentu.

Jeśli jest określony, y_valid lub sample_weight_valid musi również być określony. To ustawienie jest przestarzałe. Zamiast tego użyj validation_data i label_column_name.

y_valid
DataFrame lub ndarray lub Dataset lub TabularDataset

Etykiety walidacji do użycia w przypadku dopasowywania potoków podczas eksperymentu.

Oba X_valid i y_valid muszą być określone razem. To ustawienie jest przestarzałe. Zamiast tego użyj validation_data i label_column_name.

sample_weight_valid
DataFrame lub ndarray lub TabularDataset

Waga, która ma zostać nadana każdemu testowi weryfikacyjnemu podczas uruchamiania potoków oceniania, każdy wiersz powinien odpowiadać wierszowi w danych X i y.

Określ ten parametr podczas określania X_valid . To ustawienie jest przestarzałe. Zamiast tego użyj validation_data i weight_column_name.

cv_splits_indices
<xref:List>[<xref:List>[ndarray]]

Indeksy, w których można podzielić dane szkoleniowe dotyczące krzyżowego sprawdzania poprawności. Każdy wiersz jest oddzielnym zgięciem krzyżowym i w ramach każdego crossfoldu, dostarczą 2 numpy tablice, pierwszy z indeksami dla przykładów do użycia w przypadku danych szkoleniowych i drugi z indeksami używanymi do sprawdzania poprawności danych. oznacza to, że [[T1, v1], [T2, v2],...], gdzie T1 to indeksy szkoleniowe dla pierwszego zgięcia krzyżowego, a wersja 1 jest indeksami walidacji pierwszego złożenia.

Aby określić istniejące dane jako dane sprawdzania poprawności, użyj validation_data . Aby umożliwić AutoML wyodrębnienie danych sprawdzania poprawności z danych szkoleniowych, określ albo n_cross_validations lub validation_size . Użyj cv_split_column_names , jeśli w programie istnieją kolumny dotyczące krzyżowego sprawdzania poprawności training_data .

validation_size
float

Część danych, która ma być przechowywana do walidacji, gdy nie określono danych sprawdzania poprawności użytkownika. Powinno to być z zakresu od 0,0 do 1,0.

Określ validation_data , aby podać dane sprawdzania poprawności, w przeciwnym razie ustawić n_cross_validations lub validation_size wyodrębnić dane sprawdzania poprawności z określonych danych szkoleniowych. W przypadku niestandardowego składania krzyżowego sprawdzania poprawności Użyj cv_split_column_names .

Aby uzyskać więcej informacji, zobacz Konfigurowanie podziałów danych i wzajemnego sprawdzania poprawności w ramach automatycznego uczenia maszynowego.

n_cross_validations
int

Liczba przekroczeń, które mają być wykonywane, gdy nie określono danych sprawdzania poprawności użytkownika.

Określ validation_data , aby podać dane sprawdzania poprawności, w przeciwnym razie ustawić n_cross_validations lub validation_size wyodrębnić dane sprawdzania poprawności z określonych danych szkoleniowych. W przypadku niestandardowego składania krzyżowego sprawdzania poprawności Użyj cv_split_column_names .

Aby uzyskać więcej informacji, zobacz Konfigurowanie podziałów danych i wzajemnego sprawdzania poprawności w ramach automatycznego uczenia maszynowego.

y_min
float

Minimalna wartość y dla eksperymentu regresji. Kombinacja y_min i y_max służy do normalizacji metryk zestawu testów w oparciu o zakres danych wejściowych. To ustawienie jest przestarzałe. Zamiast tego ta wartość zostanie obliczona na podstawie danych.

y_max
float

Maksymalna wartość y dla eksperymentu regresji. Kombinacja y_min i y_max służy do normalizacji metryk zestawu testów w oparciu o zakres danych wejściowych. To ustawienie jest przestarzałe. Zamiast tego ta wartość zostanie obliczona na podstawie danych.

num_classes
int

Liczba klas w danych etykiety dla eksperymentu klasyfikacji. To ustawienie jest przestarzałe. Zamiast tego ta wartość zostanie obliczona na podstawie danych.

featurization
str lub FeaturizationConfig

Wskaźnik "Auto"/"off"/"FeaturizationConfig" dla tego, czy krok cechowania powinien być wykonany automatycznie, czy nie, czy powinien zostać użyty dostosowany cechowania. Uwaga: Jeśli dane wejściowe są rozrzedzone, nie można włączyć cechowania.

Typ kolumny jest wykrywany automatycznie. Na podstawie wykrytego typu kolumny przetwarzanie wstępne/cechowania jest wykonywane w następujący sposób:

  • Kategorii: kodowanie docelowe, jedno kodowanie gorąca, kategorie z wysoką kardynalnością, brakujące wartości.

  • Numeryczne: nie ma wartości w postaci liczby, odległość klastra, Waga dowodu.

  • DateTime: kilka funkcji, takich jak dzień, sekundy, minuty, godziny itp.

  • Tekst: zbiór słów, wstępnie przeszkolony tekst osadzania, kodowanie obiektów docelowych tekstu.

Więcej szczegółowych informacji można znaleźć w artykule Konfigurowanie zautomatyzowanych eksperymentów ml w języku Python.

Aby dostosować krok cechowania, podaj obiekt FeaturizationConfig. Dostosowany cechowania obecnie obsługuje blokowanie zestawu transformatorów, aktualizowanie przeznaczenie kolumny, edytowanie parametrów transformatora i upuszczanie kolumn. Aby uzyskać więcej informacji, zobacz Dostosowywanie inżynierów funkcji.

Uwaga: funkcje szeregów czasowych są obsługiwane oddzielnie, gdy typ zadania jest ustawiony na prognozowanie niezależnie od tego parametru.

max_cores_per_iteration
int

Maksymalna liczba wątków do użycia w danej iteracji szkoleniowej. Akceptowalne wartości:

  • Większe niż 1 i mniejsze niż lub równe maksymalnej liczbie rdzeni w elemencie docelowym obliczeń.

  • Równe-1, co oznacza użycie wszystkich możliwych rdzeni na iterację na uruchomienie podrzędne.

  • Wartość domyślna to 1.

max_concurrent_iterations
int

Reprezentuje maksymalną liczbę iteracji, które będą wykonywane równolegle. Wartość domyślna to 1.

  • Klastry AmlCompute obsługują jeden proces uruchamiania na węzeł. W przypadku wielu AutoMLych przebiegów nadrzędnych wykonanych równolegle w pojedynczym klastrze AmlCompute suma max_concurrent_iterations wartości dla wszystkich eksperymentów powinna być mniejsza lub równa maksymalnej liczbie węzłów. W przeciwnym razie przebieg zostanie umieszczony w kolejce do momentu udostępnienia węzłów.

  • DSVM obsługuje wiele iteracji na węzeł. max_concurrent_iterations powinna być mniejsza lub równa liczbie rdzeni w DSVM. W przypadku wielu eksperymentów wykonywanych równolegle na jednym DSVM suma max_concurrent_iterations wartości dla wszystkich eksperymentów powinna być mniejsza lub równa maksymalnej liczbie węzłów.

  • Datakostki — max_concurrent_iterations powinna być mniejsza lub równa liczbie węzłów procesu roboczego w kostkach.

max_concurrent_iterations nie dotyczy uruchomień lokalnych. Wcześniej ten parametr miał nazwę concurrent_iterations .

iteration_timeout_minutes
int

Maksymalny czas w minutach, przez który każda iteracja może zostać uruchomiona przed zakończeniem. Jeśli nie zostanie określony, zostanie użyta wartość 1 miesiąc lub 43200 minut.

mem_in_mb
int

Maksymalne użycie pamięci przez każdą iterację może zostać uruchomione przed zakończeniem. Jeśli nie zostanie określony, zostanie użyta wartość 1 PB lub 1073741824 MB.

enforce_time_on_windows
bool

Określa, czy należy wymusić przekroczenie limitu czasu dla szkolenia modelu w każdej iteracji w systemie Windows. Wartość domyślna to true. W przypadku uruchamiania z pliku skryptu języka Python (. PR) zapoznaj się z dokumentacją dotyczącą zezwalania na limity zasobów w systemie Windows.

experiment_timeout_hours
float

Maksymalny czas (w godzinach), przez jaki połączone wszystkie iteracje mogą upłynąć przed zakończeniem eksperymentu. Może być wartością dziesiętną, na przykład 0,25 reprezentującą 15 minut. Jeśli nie zostanie określony, domyślnym limitem czasu eksperymentu będzie 6 dni. Aby określić limit czasu krótszy niż lub równy 1 godzinę, upewnij się, że rozmiar zestawu danych nie jest większy niż 10 000 000 (wiersze razy kolumna) lub wyniki.

experiment_exit_score
float

Wynik docelowy dla eksperymentu. Eksperyment kończy się po osiągnięciu tego wyniku. Jeśli nie zostanie określony (Brak kryteriów), eksperyment działa do momentu, gdy nie zostanie wprowadzony żaden kolejny postęp w primart metryki. Aby uzyskać więcej informacji na temat kryteriów zakończenia, zobacz ten artykuł.

enable_early_stopping
bool

Określa, czy należy włączyć wczesne zakończenie, jeśli wynik nie zostanie ulepszony w krótkim czasie. Wartość domyślna to false.

Domyślne zachowanie dotyczące zatrzymywania kryteriów:

  • Jeśli nie określono limitu czasu iteracji i eksperymentu, wczesne zatrzymywanie jest włączone i

    experiment_timeout = 6 dni, num_iterations = 1000.

  • Jeśli określono limit czasu eksperymentu, early_stopping = off, num_iterations = 1000.

Na wczesne zatrzymanie logiki:

  • Brak wczesnego zatrzymywania dla pierwszych 20 iteracji (punkty orientacyjne).

  • Wczesne zatrzymanie okna rozpocznie się na dwudziestej iteracji i szuka early_stopping_n_iters iteracji

    (obecnie ustawiony na 10). Oznacza to, że pierwsza iteracja, w której może wystąpić zatrzymywanie, to 31.

  • AutoML nadal planuje 2 iteracje kompletów po wczesnym zatrzymywaniu, co może skutkować

    wyższe wyniki.

  • Wczesne zatrzymywanie jest wyzwalane, jeśli wartość bezwzględna najlepszego obliczenia jest taka sama dla przeszłości

    early_stopping_n_iters iteracji, czyli w przypadku braku poprawy oceny early_stopping_n_iters iteracji.

blocked_models
list(str) lub list(Classification)<xref: for classification task,> lub list(Regression)<xref: for regression task,> lub list(Forecasting)<xref: for forecasting task>

Lista algorytmów ignorowania eksperymentu. Jeśli enable_tf ma wartość false, modele TensorFlow są zawarte w blocked_models .

blacklist_models
list(str) lub list(Classification)<xref: for classification task,> lub list(Regression)<xref: for regression task,> lub list(Forecasting)<xref: for forecasting task>

Przestarzały parametr, zamiast tego użyj blocked_models.

exclude_nan_labels
bool

Określa, czy wiersze mające wartości NaN mają być wykluczone w etykiecie. Wartość domyślna to true.

verbosity
int

Poziom szczegółowości zapisu w pliku dziennika. Wartość domyślna to INFO lub 20. Dopuszczalne wartości są zdefiniowane w bibliotece rejestrowaniajęzyka Python.

enable_tf
bool

Przestarzały parametr do włączania/wyłączania algorytmów Tensorflow. Wartość domyślna to false.

model_explainability
bool

Czy należy włączyć wyjaśnienie najlepszego modelu AutoML na końcu wszystkich iteracji szkoleniowych AutoML. Wartość domyślna to true. Aby uzyskać więcej informacji, zobacz interpretowanie: wyjaśnienie modelu w zautomatyzowanym uczeniu maszynowym.

allowed_models
list(str) lub list(Classification)<xref: for classification task,> lub list(Regression)<xref: for regression task,> lub list(Forecasting)<xref: for forecasting task>

Lista nazw modeli do wyszukania eksperymentu. Jeśli nie zostanie określony, wszystkie modele obsługiwane przez zadanie są używane bez żadnych określonych w blocked_models lub przestarzałych modelach TensorFlow. Obsługiwane modele dla każdego typu zadania są opisane w SupportedModels klasie.

whitelist_models
list(str) lub list(Classification)<xref: for classification task,> lub list(Regression)<xref: for regression task,> lub list(Forecasting)<xref: for forecasting task>

Przestarzały parametr, zamiast tego użyj allowed_models.

enable_onnx_compatible_models
bool

Określa, czy należy włączyć lub wyłączyć wymuszanie modeli zgodnych z ONNX. Wartość domyślna to false. Aby uzyskać więcej informacji na temat Open neuronowych Network Exchange (ONNX) i Azure Machine Learning, zobacz ten artykuł.

forecasting_parameters
ForecastingParameters

Obiekt ForecastingParameters do przechowywania wszystkich parametrów prognozowania określonych.

time_column_name
str

Nazwa kolumny czasu. Ten parametr jest wymagany podczas prognozowania, aby określić kolumnę datetime w danych wejściowych używanych do tworzenia szeregów czasowych i wywnioskowania jej częstotliwości. To ustawienie jest przestarzałe. Zamiast tego użyj forecasting_parameters.

max_horizon
int

Żądany maksymalny zakres prognozy w jednostkach częstotliwości szeregów czasowych. Wartość domyślna to 1.

Jednostki są oparte na przedziale czasu na dane szkoleniowe, np., co miesiąc, co tydzień prognozy powinien przewidzieć. Gdy typem zadania jest prognozowanie, ten parametr jest wymagany. Aby uzyskać więcej informacji na temat ustawiania parametrów prognozowania, zobacz autouczenie modelu prognozowania szeregów czasowych. To ustawienie jest przestarzałe. Zamiast tego użyj forecasting_parameters.

grain_column_names
str lub list(str)

Nazwy kolumn używanych do grupowania szeregów czasowych. Może służyć do tworzenia wielu serii. Jeśli ziarno nie jest zdefiniowane, zakłada się, że zestaw danych jest jedną serią czasową. Ten parametr jest używany w przypadku prognozowania typów zadań. To ustawienie jest przestarzałe. Zamiast tego użyj forecasting_parameters.

target_lags
int lub list(int)

Liczba przeszłych okresów zwłoki z kolumny docelowej. Wartość domyślna to 1. To ustawienie jest przestarzałe. Zamiast tego użyj forecasting_parameters.

Podczas prognozowania ten parametr reprezentuje liczbę wierszy, które mają być opóźnione dla wartości docelowych na podstawie częstotliwości danych. Jest to reprezentowane jako lista lub jedna liczba całkowita. Zwłoki należy używać, gdy relacja między zmiennymi niezależnymi i zmienną zależną nie są zgodne ani nie są domyślnie skorelowane. Na przykład podczas próby prognozowania zapotrzebowania na produkt zapotrzebowanie w dowolnym miesiącu może zależeć od ceny określonych cen w ciągu 3 miesięcy. W tym przykładzie możesz chcieć zażądać negatywnego opóźnienia (popytu) przez 3 miesiące, aby model był szkoleniowy dla poprawnej relacji. Aby uzyskać więcej informacji, zobacz temat autouczenie modelu prognozy szeregów czasowych.

feature_lags
str

Flaga generowania spowolnienia dla funkcji liczbowych. To ustawienie jest przestarzałe. Zamiast tego użyj forecasting_parameters.

target_rolling_window_size
int

Liczba przeszłych okresów użytych do utworzenia stopniowego średniego okna kolumny docelowej. To ustawienie jest przestarzałe. Zamiast tego użyj forecasting_parameters.

Podczas prognozowania ten parametr reprezentuje n okresów historycznych, które mają być używane do generowania prognozowanych wartości, <= rozmiar zestawu szkoleniowego. W przypadku pominięcia n to pełny rozmiar zestawu szkoleniowego. Określ ten parametr, jeśli chcesz wziąć pod uwagę tylko określoną ilość historii podczas uczenia modelu.

country_or_region
str

Kraj/region używany do generowania funkcji dni wolnych. Powinny to być ISO 3166 2 — kod kraju/regionu, na przykład "US" lub "GB". To ustawienie jest przestarzałe. Zamiast tego użyj forecasting_parameters.

use_stl
str

Skonfiguruj dekompozycję STL kolumny docelowej szeregów czasowych. use_stl może przyjmować trzy wartości: Brak (wartość domyślna) — brak dekompozycji STL, "pora" — Generowanie tylko składnika pory i season_trend — generowanie zarówno składników sezon, jak i trendu. To ustawienie jest przestarzałe. Zamiast tego użyj forecasting_parameters.

seasonality
int

Ustaw sezonowości szeregów czasowych. Jeśli sezonowości jest ustawiony na wartość-1, zostanie wywnioskowany. Jeśli use_stl nie jest ustawiona, ten parametr nie będzie używany. To ustawienie jest przestarzałe. Zamiast tego użyj forecasting_parameters.

short_series_handling_configuration
str

Parametr określający sposób, w jaki AutoML powinien obsługiwać krótką serię czasową.

Możliwe wartości: "Auto" (wartość domyślna), "pad", "Drop" i none.

  • Funkcja autokrótkie serie zostanie uzupełniona, jeśli nie ma żadnych długich serii, w przeciwnym razie krótkie serie zostaną usunięte.
  • uzupełnianie wszystkich krótkich serii zostanie uzupełnione.
  • Porzuć wszystkie krótkie serie zostaną usunięte.
  • Brak krótkich serii nie zostanie zmodyfikowana. Jeśli jest ustawiona na "pad", tabela zostanie uzupełniona wartościami zero i Empty dla regresorów i wartości losowych dla elementu Target z średnią równą wartości docelowej mediany dla danego identyfikatora szeregu czasowego. Jeśli mediana jest większa lub równa zero, minimalna wartość dopełniana zostanie przycięta przez zero: dane wejściowe:

Dane wyjściowe przy założeniu, że minimalna liczba wartości to cztery:

Uwaga: Mamy dwa parametry short_series_handling_configuration i starszej short_series_handling. Po ustawieniu obu parametrów są one synchronizowane, jak pokazano w poniższej tabeli (short_series_handling_configuration i short_series_handling dla zwięzłości są oznaczone jako handling_configuration i obsługują odpowiednio).

freq
str lub None

Częstotliwość prognoz.

Podczas prognozowania ten parametr reprezentuje okres, w którym jest wymagana Prognoza, na przykład codziennie, co tydzień, co rok itd. Częstotliwość prognozowania jest domyślnie częstotliwość według zestawu danych. Opcjonalnie możesz ustawić wartość większą (ale nie mniejszą) niż częstotliwość zestawu danych. Będziemy agregować dane i generować wyniki przy użyciu częstotliwości prognoz. Na przykład w przypadku codziennych danych można ustawić częstotliwość codziennie, co tydzień lub co miesiąc, ale nie co godzinę. Częstotliwość musi być aliasem offsetu Pandas. Aby uzyskać więcej informacji, zapoznaj się z dokumentacją Pandas: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function
str lub None

Funkcja, która ma być używana do agregowania kolumny docelowej szeregów czasowych, aby była zgodna z określoną przez użytkownika częstotliwością. Jeśli target_aggregation_function jest ustawiona, ale parametr FREQ nie jest ustawiony, zostanie zgłoszony błąd. Możliwe docelowe funkcje agregacji to: "Sum", "Max", "min" i "Średnia".

enable_voting_ensemble
bool

Określa, czy ma zostać włączona/wyłączona iteracja VotingEnsemble. Wartość domyślna to true. Aby uzyskać więcej informacji na temat kompletów, zobacz Konfiguracja kompletna.

enable_stack_ensemble
bool

Określa, czy ma zostać włączona/wyłączona iteracja StackEnsemble. Wartość domyślna to None. Jeśli flaga enable_onnx_compatible_models jest ustawiana, iteracja StackEnsemble zostanie wyłączona. Podobnie w przypadku zadań szeregów czasowych iteracja StackEnsemble zostanie domyślnie wyłączona, aby uniknąć ryzyka związanego z zamontem ze względu na niewielką część zestawu szkoleniowego. Aby uzyskać więcej informacji na temat kompletów, zobacz Konfiguracja kompletna.

debug_log
str

Plik dziennika, do którego mają zostać zapisane informacje debugowania. Jeśli nie zostanie określony, używany jest element "automl. log".

training_data
DataFrame lub Dataset lub DatasetDefinition lub TabularDataset

Dane szkoleniowe, które mają być używane w ramach eksperymentu. Powinien zawierać zarówno funkcje szkoleniowe, jak i kolumny etykiet (opcjonalnie przykładową kolumnę wagi). Jeśli training_data jest określony, label_column_name należy również podać parametr.

training_data wprowadzono w wersji 1.0.81.

validation_data
DataFrame lub Dataset lub DatasetDefinition lub TabularDataset

Dane sprawdzania poprawności, które mają być używane w ramach eksperymentu. Powinna zawierać zarówno funkcje szkoleniowe, jak i kolumny etykiet (opcjonalnie Przykładowa kolumna wag). Jeśli validation_data jest określony, training_data label_column_name należy określić parametry i.

validation_data wprowadzono w wersji 1.0.81. Aby uzyskać więcej informacji, zobacz Konfigurowanie podziałów danych i wzajemnego sprawdzania poprawności w ramach automatycznego uczenia maszynowego.

label_column_name
Union[str, int]

Nazwa kolumny etykiety. Jeśli dane wejściowe pochodzą z Pandas. Ramka danych, która nie ma nazw kolumn, można zamiast nich użyć indeksów kolumn, wyrażona jako liczba całkowita.

Ten parametr ma zastosowanie do training_data validation_data parametrów i. label_column_name wprowadzono w wersji 1.0.81.

weight_column_name
Union[str, int]

Nazwa kolumny wagi próbki. Automatyczna tablica obsługuje ważone kolumny jako dane wejściowe, co sprawia, że wiersze w danych mają być ważone w górę lub w dół. Jeśli dane wejściowe pochodzą z Pandas. Ramka danych, która nie ma nazw kolumn, można zamiast nich użyć indeksów kolumn, wyrażona jako liczba całkowita.

Ten parametr ma zastosowanie do training_data validation_data parametrów i. weight_column_names wprowadzono w wersji 1.0.81.

cv_split_column_names
list(str)

Lista nazw kolumn, które zawierają podział niestandardowej walidacji. Każda z kolumn podziału OKS reprezentuje jeden OKS, w którym każdy wiersz jest oznaczony jako 1 dla szkolenia lub 0 w celu sprawdzenia poprawności.

Ten parametr ma zastosowanie do training_data parametru w celu zapewnienia niestandardowego sprawdzania poprawności. cv_split_column_names wprowadzono w wersji 1.6.0

Użyj albo cv_split_column_names lub cv_splits_indices .

Aby uzyskać więcej informacji, zobacz Konfigurowanie podziałów danych i wzajemnego sprawdzania poprawności w ramach automatycznego uczenia maszynowego.

enable_local_managed
bool

Wyłączony parametr. W tej chwili nie można włączyć lokalnych zarządzanych przebiegów.

enable_dnn
bool

Określa, czy dołączać modele oparte na DNN podczas wyboru modelu. Wartość domyślna to false.

Uwagi

Poniższy kod przedstawia podstawowy przykład tworzenia obiektu AutoMLConfig i przesyłania eksperymentu do regresji:


   automl_settings = {
       "n_cross_validations": 3,
       "primary_metric": 'r2_score',
       "enable_early_stopping": True,
       "experiment_timeout_hours": 1.0,
       "max_concurrent_iterations": 4,
       "max_cores_per_iteration": -1,
       "verbosity": logging.INFO,
   }

   automl_config = AutoMLConfig(task = 'regression',
                               compute_target = compute_target,
                               training_data = train_data,
                               label_column_name = label,
                               **automl_settings
                               )

   ws = Workspace.from_config()
   experiment = Experiment(ws, "your-experiment-name")
   run = experiment.submit(automl_config, show_output=True)

Pełny przykład jest dostępny w regresji

Przykłady użycia AutoMLConfig do prognozowania znajdują się w następujących notesach:

Przykłady użycia AutoMLConfig dla wszystkich typów zadań można znaleźć w tych zautomatyzowanych notesach ml.

W przypadku w tle na zautomatyzowanym ML zapoznaj się z artykułami:

Aby uzyskać więcej informacji na temat różnych opcji konfigurowania podziałów danych dotyczących szkoleń/weryfikacji oraz przeprowadzania krzyżowego sprawdzania poprawności dla zautomatyzowanej uczenia maszynowego, AutoML, eksperymentów, zobacz Konfigurowanie podziałów danych i wzajemnego sprawdzania poprawności w ramach automatycznego uczenia maszynowego.

Metody

get_supported_dataset_languages

Pobierz obsługiwane języki i odpowiadające im kody języka w ISO 639-3.

get_supported_dataset_languages

Pobierz obsługiwane języki i odpowiadające im kody języka w ISO 639-3.

get_supported_dataset_languages(use_gpu: bool) -> typing.Dict[typing.Any, typing.Any]

Parametry

cls

Obiekt klasy AutoMLConfig .

use_gpu

wartość logiczna wskazująca, czy jest używane obliczenie procesora GPU.

Zwraca

słownik formatu { : }. Kod języka jest zgodny ze standardem ISO 639-3, należy zapoznać się z tematem https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes