Freigeben über


RegressionJob Klasse

Konfiguration für AutoML-Regressionsauftrag.

Initialisieren Sie einen neuen AutoML-Regressionstask.

Vererbung
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular
RegressionJob

Konstruktor

RegressionJob(*, primary_metric: str | None = None, **kwargs)

Parameter

primary_metric
str
Erforderlich

Die primäre Metrik, die für die Optimierung verwendet werden soll

kwargs
dict
Erforderlich

Auftragsspezifische Argumente

Methoden

dump

Gibt den Auftragsinhalt in eine Datei im YAML-Format ab.

set_data

Definieren Sie die Datenkonfiguration.

set_featurization

Definieren Sie die Featureentwicklungskonfiguration.

set_limits

Legen Sie Grenzwerte für den Auftrag fest.

set_training

Die Methode zum Konfigurieren von trainingsbezogenen Einstellungen.

dump

Gibt den Auftragsinhalt in eine Datei im YAML-Format ab.

dump(dest: str | PathLike | IO, **kwargs) -> None

Parameter

dest
Union[<xref:PathLike>, str, IO[AnyStr]]
Erforderlich

Der lokale Pfad oder Dateistream, in den der YAML-Inhalt geschrieben werden soll. Wenn dest ein Dateipfad ist, wird eine neue Datei erstellt. Wenn dest eine geöffnete Datei ist, wird die Datei direkt in geschrieben.

kwargs
dict

Zusätzliche Argumente, die an den YAML-Serialisierer übergeben werden sollen.

Ausnahmen

Wird ausgelöst, wenn dest ein Dateipfad ist und die Datei bereits vorhanden ist.

Wird ausgelöst, wenn dest eine geöffnete Datei ist und die Datei nicht beschreibbar ist.

set_data

Definieren Sie die Datenkonfiguration.

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

Parameter

training_data
Input

Trainingsdaten

target_column_name
str

Spaltenname der Zielspalte.

weight_column_name
Optional[str]

Gewichtung des Spaltennamens, standardmäßig Keine

validation_data
Optional[Input]

Validierungsdaten, standardwert auf Keine

validation_data_size
Optional[float]

Validierungsdatengröße, standardwert auf "None"

n_cross_validations
Optional[Union[str, int]]

n_cross_validations, wird standardmäßig Keine verwendet.

cv_split_column_names
Optional[List[str]]

cv_split_column_names wird standardmäßig Keine verwendet.

test_data
Optional[Input]

Testdaten, standardmäßig keine

test_data_size
Optional[float]

Testdatengröße, standardwert: Keine

Ausnahmen

Wird ausgelöst, wenn dest ein Dateipfad ist und die Datei bereits vorhanden ist.

Wird ausgelöst, wenn dest eine geöffnete Datei ist und die Datei nicht beschreibbar ist.

set_featurization

Definieren Sie die Featureentwicklungskonfiguration.

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

Parameter

blocked_transformers
Optional[List[Union[BlockedTransformers, str]]]

Eine Liste von Transformatornamen, die während der Featurisierung blockiert werden sollen, lautet standardmäßig Keine.

column_name_and_types
Optional[Dict[str, str]]

Ein Wörterbuch mit Spaltennamen und Featuretypen, die zum Aktualisieren des Spaltenzwecks verwendet werden, ist standardmäßig auf Keine festgelegt.

dataset_language
Optional[str]

Iso 639-3-Code mit drei Zeichen für die Sprache(en) im Dataset. Andere Sprachen als Englisch werden nur unterstützt, wenn Sie GPU-fähiges Compute verwenden. Die language_code "mul" sollte verwendet werden, wenn das Dataset mehrere Sprachen enthält. Informationen zum Suchen nach ISO 639-3-Codes für verschiedene Sprachen finden Sie unter https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes, standardmäßig keine.

transformer_params
Optional[Dict[str, List[ColumnTransformer]]]

Ein Wörterbuch mit Transformatoren und entsprechenden Anpassungsparametern , ist standardmäßig auf Keine festgelegt.

mode
Optional[str]

"off", "auto", default to "auto", default to None

enable_dnn_featurization
Optional[bool]

Gibt an, ob DNN-basierte Featureentwicklungsmethoden eingeschlossen werden sollen, standardmäßig keine

Ausnahmen

Wird ausgelöst, wenn dest ein Dateipfad ist und die Datei bereits vorhanden ist.

Wird ausgelöst, wenn dest eine geöffnete Datei ist und die Datei nicht beschreibbar ist.

set_limits

Legen Sie Grenzwerte für den Auftrag fest.

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

Parameter

enable_early_termination
Optional[bool]

Gibt an, ob eine vorzeitige Beendigung aktiviert werden soll, wenn sich die Bewertung nicht kurzfristig verbessert, wird standardmäßig Auf Keine festgelegt.

Logik zum frühzeitigen Beenden:

  • Kein frühzeitiges Beenden für die ersten 20 Iterationen (Orientierungspunkte).

  • Das Fenster für das frühzeitige Beenden startet bei der 21. Iteration und sucht nach early_stopping_n_iters-Iterationen

    (derzeit auf 10 festgelegt). Dies bedeutet, dass die erste Iteration, bei der das Beenden erfolgen kann, die 31. ist.

  • AutoML plant nach dem vorzeitigen Beenden weiterhin zwei Ensembleiterationen, was zu höheren Bewertungen führen kann.

  • Frühzeitiges Beenden wird ausgelöst, wenn der berechnete absolute Wert des besten Scores mit dem für vergangene

    early_stopping_n_iters-Iterationen identisch ist, das heißt, wenn es keine Verbesserung beim Score für early_stopping_n_iters-Iterationen gibt.

exit_score
Optional[float]

Der Zielscore für das Experiment. Das Experiment wird beendet, nachdem dieser Score erreicht wurde. Wenn keine Angabe erfolgt (keine Kriterien), wird das Experiment ausgeführt, bis kein weiterer Fortschritt bei der primären Metrik erzielt wird. Weitere Informationen zu Exitkriterien finden Sie in diesem Artikel , standardmäßig keine.

max_concurrent_trials
Optional[int]

Dies ist die maximale Anzahl von Iterationen, die parallel ausgeführt werden. Der Standardwert ist 1.

  • AmlCompute-Cluster unterstützen eine Iteration, die pro Knoten ausgeführt wird.

Für mehrere übergeordnete Ausführungen von AutoML-Experimenten, die auf einem einzelnen AmlCompute-Cluster parallel ausgeführt werden, sollte die Summe der max_concurrent_trials-Werte für alle Experimente kleiner oder gleich der maximalen Anzahl an Knoten sein. Andernfalls werden Ausführungen in die Warteschlange gestellt, bis Knoten verfügbar sind.

  • DSVM unterstützt mehrere Iterationen pro Knoten. max_concurrent_trials Sollten

kleiner oder gleich der Anzahl der Kerne auf der DSVM sein. Für mehrere Experimente, die auf einer einzelnen DSVM parallel ausgeführt werden, sollte die Summe der max_concurrent_trials-Werte für alle Experimente kleiner oder gleich der maximalen Anzahl an Knoten sein.

  • Databricks: max_concurrent_trials sollte kleiner oder gleich der Anzahl von sein.

Workerknoten in Databricks.

max_concurrent_trials gilt nicht für lokale Ausführungen. Der Name dieses Parameters lautete früher concurrent_iterations.

max_cores_per_trial
Optional[int]

Die maximale Anzahl von Threads, die für eine bestimmte Trainingsiteration verwendet werden sollen. Gültige Werte:

  • Größer als 1 und kleiner oder gleich der maximalen Anzahl von Kernen auf dem Computeziel.

  • Gleich -1, was bedeutet, dass alle möglichen Kerne pro Iteration pro untergeordneter Ausführung verwendet werden.

  • Gleich 1, der Standardwert.

max_nodes
Optional[int]

[Experimentell] Die maximale Anzahl von Knoten, die für verteiltes Training verwendet werden sollen.

  • Für Vorhersagen wird jedes Modell mit max(2, int(max_nodes/max_concurrent_trials))-Knoten trainiert.

  • Für die Klassifizierung/Regression wird jedes Modell mit max_nodes Knoten trainiert.

Hinweis: Dieser Parameter befindet sich in der öffentlichen Vorschau und kann sich in Zukunft ändern.

max_trials
Optional[int]

Die Gesamtzahl der verschiedenen Algorithmus- und Parameterkombinationen, die während eines automatisierten ML-Experiments getestet werden sollen. Wenn keine Angabe erfolgt ist, lautet der Standardwert 1000 Iterationen.

timeout_minutes
Optional[int]

Maximal zulässige Dauer für alle Iterationen (in Minuten). Danach wird das Experiment beendet. Wenn keine Angabe erfolgt, beträgt das Standardtimeout für Experimente 6 Tage. Um ein Timeout anzugeben, das kleiner oder gleich 1 Stunde ist, stellen Sie sicher, dass die Größe Ihres Datasets nicht größer als 10.000.000 (Zeilen mal Spalte) oder ein Fehlerergebnis ist, standardmäßig keine.

trial_timeout_minutes
Optional[int]

Maximale Dauer in Minuten für jede Ausführung einer Iteration, bevor sie beendet wird. Wenn nicht angegeben, wird ein Wert von 1 Monat oder 43200 Minuten verwendet, der Standardwert ist "None".

Ausnahmen

Wird ausgelöst, wenn dest ein Dateipfad ist und die Datei bereits vorhanden ist.

Wird ausgelöst, wenn dest eine geöffnete Datei ist und die Datei nicht beschreibbar ist.

set_training

Die Methode zum Konfigurieren von trainingsbezogenen Einstellungen.

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

Parameter

enable_onnx_compatible_models
Optional[bool]

Gibt an, ob das Erzwingen der ONNX-kompatiblen Modelle aktiviert oder deaktiviert werden soll. Die Standardeinstellung lautet „false“. Weitere Informationen zu Open Neural Network Exchange (ONNX) und Azure Machine Learning finden Sie in diesem Artikel.

enable_dnn_training
Optional[bool]

Gibt an, ob DNN-basierte Modelle bei der Modellauswahl eingeschlossen werden sollen. Für DNN-NLP-Aufgaben ist der Standardwert jedoch „True“ und für alle anderen Aufgaben des automatisierten maschinellen Lernens „False“.

enable_model_explainability
Optional[bool]

Gibt an, ob die Erläuterung des besten AutoML-Modells am Ende aller AutoML-Trainingsiterationen aktiviert werden soll. Weitere Informationen finden Sie unter Interpretierbarkeit: Modellerklärungen beim automatisierten maschinellen Lernen. , wird standardmäßig Auf Keine festgelegt.

enable_stack_ensemble
Optional[bool]

Gibt an, ob die StackEnsemble-Iteration aktiviert/deaktiviert werden soll. Wenn das Flag enable_onnx_compatible_models festgelegt wird, ist die StackEnsemble-Iteration deaktiviert. Analog dazu wird die StackEnsemble-Iteration für Timeseries-Aufgaben standardmäßig deaktiviert, um das Risiko einer Überanpassung aufgrund eines kleinen Trainingssatzes zu vermeiden, der für die Anpassung des Meta-Learners verwendet wird. Weitere Informationen zu Ensembles finden Sie unter Ensemblekonfiguration , standardwert: Keine.

enable_vote_ensemble
Optional[bool]

Gibt an, ob die VotingEnsemble-Iteration aktiviert/deaktiviert werden soll. Weitere Informationen zu Ensembles finden Sie unter Ensemblekonfiguration , standardwert: Keine.

stack_ensemble_settings
Optional[StackEnsembleSettings]

Einstellungen für StackEnsemble-Iteration, Standardwert: Keine

ensemble_model_download_timeout
Optional[int]

Während der Modellgenerierung votingEnsemble und StackEnsemble werden mehrere angepasste Modelle aus den vorherigen untergeordneten Ausführungen heruntergeladen. Konfigurieren Sie diesen Parameter mit einem höheren Wert als 300 Sekunden. Wenn mehr Zeit benötigt wird, wird standardmäßig None verwendet.

allowed_training_algorithms
Optional[List[str]]

Eine Liste der Modellnamen, in denen nach einem Experiment gesucht werden soll. Wenn nicht angegeben, werden alle für den Task unterstützten Modelle abzüglich aller angegebenen blocked_training_algorithms oder veralteten TensorFlow-Modelle verwendet. Standardwert ist "None".

blocked_training_algorithms
Optional[List[str]]

Eine Liste von Algorithmen, die für ein Experiment ignoriert werden sollen. Standardwert ist "None".

training_mode
Optional[Union[str, TabularTrainingMode]]

[Experimentell] Der zu verwendende Trainingsmodus. Mögliche Werte sind:

  • distributed: ermöglicht das verteilte Training für unterstützte Algorithmen.

  • non_distributed: Deaktiviert das verteilte Training.

  • auto: Derzeit ist es identisch mit non_distributed. In Zukunft könnte sich dies ändern.

Hinweis: Dieser Parameter befindet sich in der öffentlichen Vorschau und kann sich in Zukunft ändern.

Ausnahmen

Wird ausgelöst, wenn dest ein Dateipfad ist und die Datei bereits vorhanden ist.

Wird ausgelöst, wenn dest eine geöffnete Datei ist und die Datei nicht beschreibbar ist.

Attribute

base_path

Der Basispfad der Ressource.

Gibt zurück

Der Basispfad der Ressource.

Rückgabetyp

str

creation_context

Der Erstellungskontext der Ressource.

Gibt zurück

Die Erstellungsmetadaten für die Ressource.

Rückgabetyp

featurization

Rufen Sie die Tabellarische Featurisierungseinstellungen für den AutoML-Auftrag ab.

Gibt zurück

Tabellarische Featurisierungseinstellungen für den AutoML-Auftrag

Rückgabetyp

id

Die Ressourcen-ID.

Gibt zurück

Die globale ID der Ressource, eine Arm-ID (Azure Resource Manager).

Rückgabetyp

inputs

limits

Rufen Sie die tabellarischen Grenzwerte für den AutoML-Auftrag ab.

Gibt zurück

Tabellarische Grenzwerte für den AutoML-Auftrag

Rückgabetyp

log_files

Auftragsausgabedateien.

Gibt zurück

Das Wörterbuch der Protokollnamen und URLs.

Rückgabetyp

log_verbosity

Rufen Sie die Protokoll-Ausführlichkeit für den AutoML-Auftrag ab.

Gibt zurück

Protokoll-Ausführlichkeit für den AutoML-Auftrag

Rückgabetyp

<xref:LogVerbosity>

outputs

primary_metric

status

Der Status des Auftrags.

Zu den häufig zurückgegebenen Werten zählen „Running“ (Wird ausgeführt), „Completed“ (Abgeschlossen) und „Failed“ (Fehlgeschlagen). Alle möglichen Werte sind:

  • NotStarted: Dies ist ein temporärer Zustand, in dem sich clientseitige Run-Objekte vor der Cloudübermittlung befinden.

  • Starting: Die Verarbeitung der Ausführung in der Cloud hat begonnen. Die aufrufende Funktion besitzt zu diesem Zeitpunkt eine Ausführungs-ID.

  • Bereitstellung: Bedarfsgesteuerte Computeerstellung wird für eine bestimmte Auftragsübermittlung erstellt.

  • Vorbereitung: Die Ausführungsumgebung wird vorbereitet und befindet sich in einer von zwei Phasen:

    • Docker-Imagebuild

    • Einrichten der Conda-Umgebung

  • Warteschlangen: Der Auftrag wird auf dem Computeziel in die Warteschlange gestellt. In BatchAI befindet sich der Auftrag beispielsweise in einer Warteschlange.

    während darauf gewartet wird, dass alle angeforderten Knoten bereit sind.

  • Ausführen: Der Auftrag wurde auf dem Computeziel ausgeführt.

  • Abschluss: Die Ausführung des Benutzercodes wurde abgeschlossen, und die Ausführung befindet sich in Nachverarbeitungsphasen.

  • CancelRequested: Für den Auftrag wurde ein Abbruch angefordert.

  • Abgeschlossen: Die Ausführung wurde erfolgreich abgeschlossen. Dies umfasst sowohl die Ausführung von Benutzercode als auch die Ausführung.

    Nachbearbeitungsphasen der Ausführung ein.

  • Failed: Die Ausführung ist fehlgeschlagen. In der Regel liefert die Eigenschaft „Error“ einer Ausführung Details zur Ursache.

  • Canceled: Folgt einer Abbruchanforderung und gibt an, dass die Ausführung jetzt erfolgreich abgebrochen wurde.

  • „NotResponding“ (Reagiert nicht): Für eine Ausführung, für die Heartbeats aktiviert ist, wurde vor Kurzem kein Heartbeat gesendet.

Gibt zurück

Status des Auftrags.

Rückgabetyp

studio_url

Azure ML Studio-Endpunkt.

Gibt zurück

Die URL der Auftragsdetailseite.

Rückgabetyp

task_type

Vorgangstyp abrufen.

Gibt zurück

Der Typ der auszuführenden Aufgabe. Mögliche Werte sind : "klassifizierung", "regression", "forecasting".

Rückgabetyp

str

test_data

Abrufen von Testdaten

Gibt zurück

Testen der Dateneingabe

Rückgabetyp

training

training_data

Abrufen von Trainingsdaten.

Gibt zurück

Eingabe von Trainingsdaten

Rückgabetyp

type

Der Typ des Auftrags.

Gibt zurück

Der Typ des Auftrags.

Rückgabetyp

validation_data

Abrufen von Validierungsdaten.

Gibt zurück

Eingabe von Validierungsdaten

Rückgabetyp