RegressionJob Klasse

Referenz

Konfiguration für AutoML-Regressionsauftrag.

Initialisieren Sie einen neuen AutoML-Regressionstask.

Vererbung: azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular

RegressionJob

Konstruktor

RegressionJob(*, primary_metric: str | None = None, **kwargs)

Parameter

primary_metric: str

Erforderlich

Die primäre Metrik, die für die Optimierung verwendet werden soll

kwargs: dict

Erforderlich

Auftragsspezifische Argumente

Methoden

dump	Gibt den Auftragsinhalt in eine Datei im YAML-Format ab.
set_data	Definieren Sie die Datenkonfiguration.
set_featurization	Definieren Sie die Featureentwicklungskonfiguration.
set_limits	Legen Sie Grenzwerte für den Auftrag fest.
set_training	Die Methode zum Konfigurieren von trainingsbezogenen Einstellungen.

dump

Gibt den Auftragsinhalt in eine Datei im YAML-Format ab.

dump(dest: str | PathLike | IO, **kwargs) -> None

Parameter

dest: Union[<xref:PathLike>, str, IO[AnyStr]]

Erforderlich

Der lokale Pfad oder Dateistream, in den der YAML-Inhalt geschrieben werden soll. Wenn dest ein Dateipfad ist, wird eine neue Datei erstellt. Wenn dest eine geöffnete Datei ist, wird die Datei direkt in geschrieben.

kwargs: dict

Zusätzliche Argumente, die an den YAML-Serialisierer übergeben werden sollen.

Ausnahmen

FileExistsError

Wird ausgelöst, wenn dest ein Dateipfad ist und die Datei bereits vorhanden ist.

IOError

Wird ausgelöst, wenn dest eine geöffnete Datei ist und die Datei nicht beschreibbar ist.

set_data

Definieren Sie die Datenkonfiguration.

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

Parameter

training_data: Input

Trainingsdaten

target_column_name: str

Spaltenname der Zielspalte.

weight_column_name: Optional[str]

Gewichtung des Spaltennamens, standardmäßig Keine

validation_data: Optional[Input]

Validierungsdaten, standardwert auf Keine

validation_data_size: Optional[float]

Validierungsdatengröße, standardwert auf "None"

n_cross_validations: Optional[Union[str, int]]

n_cross_validations, wird standardmäßig Keine verwendet.

cv_split_column_names: Optional[List[str]]

cv_split_column_names wird standardmäßig Keine verwendet.

test_data: Optional[Input]

Testdaten, standardmäßig keine

test_data_size: Optional[float]

Testdatengröße, standardwert: Keine

Ausnahmen

FileExistsError

Wird ausgelöst, wenn dest ein Dateipfad ist und die Datei bereits vorhanden ist.

IOError

Wird ausgelöst, wenn dest eine geöffnete Datei ist und die Datei nicht beschreibbar ist.

set_featurization

Definieren Sie die Featureentwicklungskonfiguration.

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

Parameter

blocked_transformers: Optional[List[Union[BlockedTransformers, str]]]

Eine Liste von Transformatornamen, die während der Featurisierung blockiert werden sollen, lautet standardmäßig Keine.

column_name_and_types: Optional[Dict[str, str]]

Ein Wörterbuch mit Spaltennamen und Featuretypen, die zum Aktualisieren des Spaltenzwecks verwendet werden, ist standardmäßig auf Keine festgelegt.

dataset_language: Optional[str]

Iso 639-3-Code mit drei Zeichen für die Sprache(en) im Dataset. Andere Sprachen als Englisch werden nur unterstützt, wenn Sie GPU-fähiges Compute verwenden. Die language_code "mul" sollte verwendet werden, wenn das Dataset mehrere Sprachen enthält. Informationen zum Suchen nach ISO 639-3-Codes für verschiedene Sprachen finden Sie unter https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes, standardmäßig keine.

transformer_params: Optional[Dict[str, List[ColumnTransformer]]]

Ein Wörterbuch mit Transformatoren und entsprechenden Anpassungsparametern , ist standardmäßig auf Keine festgelegt.

mode: Optional[str]

"off", "auto", default to "auto", default to None

enable_dnn_featurization: Optional[bool]

Gibt an, ob DNN-basierte Featureentwicklungsmethoden eingeschlossen werden sollen, standardmäßig keine

Ausnahmen

FileExistsError

Wird ausgelöst, wenn dest ein Dateipfad ist und die Datei bereits vorhanden ist.

IOError

Wird ausgelöst, wenn dest eine geöffnete Datei ist und die Datei nicht beschreibbar ist.

set_limits

Legen Sie Grenzwerte für den Auftrag fest.

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

Parameter

enable_early_termination: Optional[bool]

Gibt an, ob eine vorzeitige Beendigung aktiviert werden soll, wenn sich die Bewertung nicht kurzfristig verbessert, wird standardmäßig Auf Keine festgelegt.

Logik zum frühzeitigen Beenden:

Kein frühzeitiges Beenden für die ersten 20 Iterationen (Orientierungspunkte).
Das Fenster für das frühzeitige Beenden startet bei der 21. Iteration und sucht nach early_stopping_n_iters-Iterationen

(derzeit auf 10 festgelegt). Dies bedeutet, dass die erste Iteration, bei der das Beenden erfolgen kann, die 31. ist.
AutoML plant nach dem vorzeitigen Beenden weiterhin zwei Ensembleiterationen, was zu höheren Bewertungen führen kann.
Frühzeitiges Beenden wird ausgelöst, wenn der berechnete absolute Wert des besten Scores mit dem für vergangene

early_stopping_n_iters-Iterationen identisch ist, das heißt, wenn es keine Verbesserung beim Score für early_stopping_n_iters-Iterationen gibt.

exit_score: Optional[float]

Der Zielscore für das Experiment. Das Experiment wird beendet, nachdem dieser Score erreicht wurde. Wenn keine Angabe erfolgt (keine Kriterien), wird das Experiment ausgeführt, bis kein weiterer Fortschritt bei der primären Metrik erzielt wird. Weitere Informationen zu Exitkriterien finden Sie in diesem Artikel , standardmäßig keine.

max_concurrent_trials: Optional[int]

Dies ist die maximale Anzahl von Iterationen, die parallel ausgeführt werden. Der Standardwert ist 1.

AmlCompute-Cluster unterstützen eine Iteration, die pro Knoten ausgeführt wird.

Für mehrere übergeordnete Ausführungen von AutoML-Experimenten, die auf einem einzelnen AmlCompute-Cluster parallel ausgeführt werden, sollte die Summe der max_concurrent_trials-Werte für alle Experimente kleiner oder gleich der maximalen Anzahl an Knoten sein. Andernfalls werden Ausführungen in die Warteschlange gestellt, bis Knoten verfügbar sind.

DSVM unterstützt mehrere Iterationen pro Knoten. max_concurrent_trials Sollten

kleiner oder gleich der Anzahl der Kerne auf der DSVM sein. Für mehrere Experimente, die auf einer einzelnen DSVM parallel ausgeführt werden, sollte die Summe der max_concurrent_trials-Werte für alle Experimente kleiner oder gleich der maximalen Anzahl an Knoten sein.

Databricks: max_concurrent_trials sollte kleiner oder gleich der Anzahl von sein.

Workerknoten in Databricks.

max_concurrent_trials gilt nicht für lokale Ausführungen. Der Name dieses Parameters lautete früher concurrent_iterations.

max_cores_per_trial: Optional[int]

Die maximale Anzahl von Threads, die für eine bestimmte Trainingsiteration verwendet werden sollen. Gültige Werte:

Größer als 1 und kleiner oder gleich der maximalen Anzahl von Kernen auf dem Computeziel.
Gleich -1, was bedeutet, dass alle möglichen Kerne pro Iteration pro untergeordneter Ausführung verwendet werden.
Gleich 1, der Standardwert.

max_nodes: Optional[int]

[Experimentell] Die maximale Anzahl von Knoten, die für verteiltes Training verwendet werden sollen.

Für Vorhersagen wird jedes Modell mit max(2, int(max_nodes/max_concurrent_trials))-Knoten trainiert.
Für die Klassifizierung/Regression wird jedes Modell mit max_nodes Knoten trainiert.

Hinweis: Dieser Parameter befindet sich in der öffentlichen Vorschau und kann sich in Zukunft ändern.

max_trials: Optional[int]

Die Gesamtzahl der verschiedenen Algorithmus- und Parameterkombinationen, die während eines automatisierten ML-Experiments getestet werden sollen. Wenn keine Angabe erfolgt ist, lautet der Standardwert 1000 Iterationen.

timeout_minutes: Optional[int]

Maximal zulässige Dauer für alle Iterationen (in Minuten). Danach wird das Experiment beendet. Wenn keine Angabe erfolgt, beträgt das Standardtimeout für Experimente 6 Tage. Um ein Timeout anzugeben, das kleiner oder gleich 1 Stunde ist, stellen Sie sicher, dass die Größe Ihres Datasets nicht größer als 10.000.000 (Zeilen mal Spalte) oder ein Fehlerergebnis ist, standardmäßig keine.

trial_timeout_minutes: Optional[int]

Maximale Dauer in Minuten für jede Ausführung einer Iteration, bevor sie beendet wird. Wenn nicht angegeben, wird ein Wert von 1 Monat oder 43200 Minuten verwendet, der Standardwert ist "None".

Ausnahmen

FileExistsError

Wird ausgelöst, wenn dest ein Dateipfad ist und die Datei bereits vorhanden ist.

IOError

Wird ausgelöst, wenn dest eine geöffnete Datei ist und die Datei nicht beschreibbar ist.

set_training

Die Methode zum Konfigurieren von trainingsbezogenen Einstellungen.

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

Parameter

enable_onnx_compatible_models: Optional[bool]

Gibt an, ob das Erzwingen der ONNX-kompatiblen Modelle aktiviert oder deaktiviert werden soll. Die Standardeinstellung lautet „false“. Weitere Informationen zu Open Neural Network Exchange (ONNX) und Azure Machine Learning finden Sie in diesem Artikel.

enable_dnn_training: Optional[bool]

Gibt an, ob DNN-basierte Modelle bei der Modellauswahl eingeschlossen werden sollen. Für DNN-NLP-Aufgaben ist der Standardwert jedoch „True“ und für alle anderen Aufgaben des automatisierten maschinellen Lernens „False“.

enable_model_explainability: Optional[bool]

Gibt an, ob die Erläuterung des besten AutoML-Modells am Ende aller AutoML-Trainingsiterationen aktiviert werden soll. Weitere Informationen finden Sie unter Interpretierbarkeit: Modellerklärungen beim automatisierten maschinellen Lernen. , wird standardmäßig Auf Keine festgelegt.

enable_stack_ensemble: Optional[bool]

Gibt an, ob die StackEnsemble-Iteration aktiviert/deaktiviert werden soll. Wenn das Flag enable_onnx_compatible_models festgelegt wird, ist die StackEnsemble-Iteration deaktiviert. Analog dazu wird die StackEnsemble-Iteration für Timeseries-Aufgaben standardmäßig deaktiviert, um das Risiko einer Überanpassung aufgrund eines kleinen Trainingssatzes zu vermeiden, der für die Anpassung des Meta-Learners verwendet wird. Weitere Informationen zu Ensembles finden Sie unter Ensemblekonfiguration , standardwert: Keine.

enable_vote_ensemble: Optional[bool]

Gibt an, ob die VotingEnsemble-Iteration aktiviert/deaktiviert werden soll. Weitere Informationen zu Ensembles finden Sie unter Ensemblekonfiguration , standardwert: Keine.

stack_ensemble_settings: Optional[StackEnsembleSettings]

Einstellungen für StackEnsemble-Iteration, Standardwert: Keine

ensemble_model_download_timeout: Optional[int]

Während der Modellgenerierung votingEnsemble und StackEnsemble werden mehrere angepasste Modelle aus den vorherigen untergeordneten Ausführungen heruntergeladen. Konfigurieren Sie diesen Parameter mit einem höheren Wert als 300 Sekunden. Wenn mehr Zeit benötigt wird, wird standardmäßig None verwendet.

allowed_training_algorithms: Optional[List[str]]

Eine Liste der Modellnamen, in denen nach einem Experiment gesucht werden soll. Wenn nicht angegeben, werden alle für den Task unterstützten Modelle abzüglich aller angegebenen blocked_training_algorithms oder veralteten TensorFlow-Modelle verwendet. Standardwert ist "None".

blocked_training_algorithms: Optional[List[str]]

Eine Liste von Algorithmen, die für ein Experiment ignoriert werden sollen. Standardwert ist "None".

training_mode: Optional[Union[str, TabularTrainingMode]]

[Experimentell] Der zu verwendende Trainingsmodus. Mögliche Werte sind:

distributed: ermöglicht das verteilte Training für unterstützte Algorithmen.
non_distributed: Deaktiviert das verteilte Training.
auto: Derzeit ist es identisch mit non_distributed. In Zukunft könnte sich dies ändern.

Hinweis: Dieser Parameter befindet sich in der öffentlichen Vorschau und kann sich in Zukunft ändern.

Ausnahmen

FileExistsError

Wird ausgelöst, wenn dest ein Dateipfad ist und die Datei bereits vorhanden ist.

IOError

Wird ausgelöst, wenn dest eine geöffnete Datei ist und die Datei nicht beschreibbar ist.

Attribute

base_path

Der Basispfad der Ressource.

Gibt zurück

Der Basispfad der Ressource.

Rückgabetyp

str

creation_context

Der Erstellungskontext der Ressource.

Gibt zurück

Die Erstellungsmetadaten für die Ressource.

Rückgabetyp

Optional[SystemData]

featurization

Rufen Sie die Tabellarische Featurisierungseinstellungen für den AutoML-Auftrag ab.

Gibt zurück

Tabellarische Featurisierungseinstellungen für den AutoML-Auftrag

Rückgabetyp

TabularFeaturizationSettings

id

Die Ressourcen-ID.

Gibt zurück

Die globale ID der Ressource, eine Arm-ID (Azure Resource Manager).

Rückgabetyp

Optional[str]

inputs

limits

Rufen Sie die tabellarischen Grenzwerte für den AutoML-Auftrag ab.

Gibt zurück

Tabellarische Grenzwerte für den AutoML-Auftrag

Rückgabetyp

TabularLimitSettings

log_files

Auftragsausgabedateien.

Gibt zurück

Das Wörterbuch der Protokollnamen und URLs.

Rückgabetyp

Optional[Dict[str, str]]

log_verbosity

Rufen Sie die Protokoll-Ausführlichkeit für den AutoML-Auftrag ab.

Gibt zurück

Protokoll-Ausführlichkeit für den AutoML-Auftrag

Rückgabetyp

<xref:LogVerbosity>

outputs

primary_metric

status

Der Status des Auftrags.

Zu den häufig zurückgegebenen Werten zählen „Running“ (Wird ausgeführt), „Completed“ (Abgeschlossen) und „Failed“ (Fehlgeschlagen). Alle möglichen Werte sind:

NotStarted: Dies ist ein temporärer Zustand, in dem sich clientseitige Run-Objekte vor der Cloudübermittlung befinden.
Starting: Die Verarbeitung der Ausführung in der Cloud hat begonnen. Die aufrufende Funktion besitzt zu diesem Zeitpunkt eine Ausführungs-ID.
Bereitstellung: Bedarfsgesteuerte Computeerstellung wird für eine bestimmte Auftragsübermittlung erstellt.
Vorbereitung: Die Ausführungsumgebung wird vorbereitet und befindet sich in einer von zwei Phasen:
- Docker-Imagebuild
- Einrichten der Conda-Umgebung
Warteschlangen: Der Auftrag wird auf dem Computeziel in die Warteschlange gestellt. In BatchAI befindet sich der Auftrag beispielsweise in einer Warteschlange.

während darauf gewartet wird, dass alle angeforderten Knoten bereit sind.
Ausführen: Der Auftrag wurde auf dem Computeziel ausgeführt.
Abschluss: Die Ausführung des Benutzercodes wurde abgeschlossen, und die Ausführung befindet sich in Nachverarbeitungsphasen.
CancelRequested: Für den Auftrag wurde ein Abbruch angefordert.
Abgeschlossen: Die Ausführung wurde erfolgreich abgeschlossen. Dies umfasst sowohl die Ausführung von Benutzercode als auch die Ausführung.

Nachbearbeitungsphasen der Ausführung ein.
Failed: Die Ausführung ist fehlgeschlagen. In der Regel liefert die Eigenschaft „Error“ einer Ausführung Details zur Ursache.
Canceled: Folgt einer Abbruchanforderung und gibt an, dass die Ausführung jetzt erfolgreich abgebrochen wurde.
„NotResponding“ (Reagiert nicht): Für eine Ausführung, für die Heartbeats aktiviert ist, wurde vor Kurzem kein Heartbeat gesendet.

Gibt zurück

Status des Auftrags.

Rückgabetyp

Optional[str]

studio_url

Azure ML Studio-Endpunkt.

Gibt zurück

Die URL der Auftragsdetailseite.

Rückgabetyp

Optional[str]

task_type

Vorgangstyp abrufen.

Gibt zurück

Der Typ der auszuführenden Aufgabe. Mögliche Werte sind : "klassifizierung", "regression", "forecasting".

Rückgabetyp

str

test_data

Abrufen von Testdaten

Gibt zurück

Testen der Dateneingabe

Rückgabetyp

Input

training

training_data

Abrufen von Trainingsdaten.

Gibt zurück

Eingabe von Trainingsdaten

Rückgabetyp

Input

type

Der Typ des Auftrags.

Gibt zurück

Der Typ des Auftrags.

Rückgabetyp

Optional[str]

validation_data

Abrufen von Validierungsdaten.

Gibt zurück

Eingabe von Validierungsdaten

Rückgabetyp

Input

Freigeben über

RegressionJob Klasse

Konstruktor

Parameter

Methoden

dump

Parameter

Ausnahmen

set_data

Parameter

Ausnahmen

set_featurization

Parameter

Ausnahmen

set_limits

Parameter

Ausnahmen

set_training

Parameter

Ausnahmen

Attribute

base_path

Gibt zurück

Rückgabetyp

creation_context

Gibt zurück

Rückgabetyp

featurization

Gibt zurück

Rückgabetyp

id

Gibt zurück

Rückgabetyp

inputs

limits

Gibt zurück

Rückgabetyp

log_files

Gibt zurück

Rückgabetyp

log_verbosity

Gibt zurück

Rückgabetyp

outputs

primary_metric

status

Gibt zurück

Rückgabetyp

studio_url

Gibt zurück

Rückgabetyp

task_type

Gibt zurück

Rückgabetyp

test_data

Gibt zurück

Rückgabetyp

training

training_data

Gibt zurück

Rückgabetyp

type

Gibt zurück

Rückgabetyp

validation_data

Gibt zurück

Rückgabetyp

Feedback

Zusätzliche Ressourcen