AutoMLConfig Klass
Representerar konfiguration för att skicka ett automatiserat ML-experiment i Azure Machine Learning.
Det här konfigurationsobjektet innehåller och bevarar parametrarna för att konfigurera experimentkörningen, samt de träningsdata som ska användas vid körning. Vägledning om hur du väljer dina inställningar finns i https://aka.ms/AutoMLConfig.
Skapa en AutoMLConfig.
- Arv
-
builtins.objectAutoMLConfig
Konstruktor
AutoMLConfig(task: str, path: str | None = None, iterations: int | None = None, primary_metric: str | None = None, positive_label: Any | None = None, compute_target: Any | None = None, spark_context: Any | None = None, X: Any | None = None, y: Any | None = None, sample_weight: Any | None = None, X_valid: Any | None = None, y_valid: Any | None = None, sample_weight_valid: Any | None = None, cv_splits_indices: List[List[Any]] | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: float | None = None, experiment_exit_score: float | None = None, enable_early_stopping: bool = True, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, debug_log: str = 'automl.log', training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None, test_size: float | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, enable_dnn: bool | None = None, forecasting_parameters: ForecastingParameters | None = None, **kwargs: Any)
Parametrar
Den typ av uppgift som ska köras. Värdena kan vara "klassificering", "regression" eller "prognostisering" beroende på vilken typ av automatiserat ML-problem som ska lösas.
- path
- str
Den fullständiga sökvägen till Azure Machine Learning-projektmappen. Om det inte anges är standardvärdet att använda den aktuella katalogen eller ".".
- iterations
- int
Det totala antalet olika kombinationer av algoritmer och parametrar som ska testas under ett automatiserat ML-experiment. Om inget anges är standardvärdet 1 000 iterationer.
Måttet som Automatiserad maskininlärning optimerar för modellval. Automatiserad maskininlärning samlar in fler mått än vad som kan optimeras. Du kan använda get_primary_metrics för att hämta en lista över giltiga mått för din angivna uppgift. Mer information om hur mått beräknas finns i https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.
Om det inte anges används noggrannhet för klassificeringsuppgifter, normaliserat rotmedelvärde i kvadrat används för prognostiserings- och regressionsaktiviteter, precision används för bildklassificering och klassificering av flera etiketter och genomsnittlig genomsnittlig precision används för identifiering av bildobjekt.
- positive_label
- Any
Den positiva klassetiketten som automatiserad maskininlärning använder för att beräkna binära mått med. Binära mått beräknas i två villkor för klassificeringsuppgifter:
- etikettkolumnen består av två klasser som anger att den binära klassificeringsaktiviteten AutoML använder angiven positiv klass när positive_label skickas in, annars väljer AutoML en positiv klass baserat på etikettkodat värde.
- klassificeringsaktivitet för flera klasser med positive_label angiven
Mer information om klassificering finns i kassamått för klassificeringsscenarier.
- compute_target
- AbstractComputeTarget
Azure Machine Learning-beräkningsmålet för att köra experimentet Automatiserad maskininlärning på. Mer https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote information om beräkningsmål finns i .
- spark_context
- <xref:SparkContext>
Spark-kontexten. Gäller endast när det används i Azure Databricks/Spark-miljön.
- X
- DataFrame eller ndarray eller Dataset eller TabularDataset
Träningsfunktionerna som ska användas vid montering av pipelines under ett experiment. Den här inställningen håller på att bli inaktuell. Använd training_data och label_column_name i stället.
- y
- DataFrame eller ndarray eller Dataset eller TabularDataset
Träningsetiketterna som ska användas vid montering av pipelines under ett experiment. Det här är det värde som din modell kommer att förutsäga. Den här inställningen håller på att bli inaktuell. Använd training_data och label_column_name i stället.
- sample_weight
- DataFrame eller ndarray eller TabularDataset
Vikten för varje träningsexempel när du kör passande pipelines, varje rad bör motsvara en rad i X- och y-data.
Ange den här parametern när du X
anger .
Den här inställningen håller på att bli inaktuell. Använd training_data och weight_column_name i stället.
- X_valid
- DataFrame eller ndarray eller Dataset eller TabularDataset
Valideringsfunktioner som ska användas vid montering av pipelines under ett experiment.
Om detta anges y_valid
måste eller sample_weight_valid
också anges.
Den här inställningen håller på att bli inaktuell. Använd validation_data och label_column_name i stället.
- y_valid
- DataFrame eller ndarray eller Dataset eller TabularDataset
Valideringsetiketter som ska användas vid montering av pipelines under ett experiment.
Både X_valid
och y_valid
måste anges tillsammans.
Den här inställningen håller på att bli inaktuell. Använd validation_data och label_column_name i stället.
- sample_weight_valid
- DataFrame eller ndarray eller TabularDataset
Vikten för varje valideringsexempel när du kör bedömningspipelines bör varje rad motsvara en rad i X- och y-data.
Ange den här parametern när du X_valid
anger .
Den här inställningen håller på att bli inaktuell. Använd validation_data och weight_column_name i stället.
Index där träningsdata ska delas upp för korsvalidering. Varje rad är en separat korsvikt och inom varje korsmapp ger du 2 numpy-matriser, den första med indexen för exempel som ska användas för träningsdata och den andra med indexen som ska användas för valideringsdata. dvs. [[t1, v1], [t2, v2], ...] där t1 är träningsindexen för den första korsvikten och v1 är valideringsindexen för det första korsdelegeringet.
Om du vill ange befintliga data som valideringsdata använder du validation_data
. Om du vill låta AutoML extrahera valideringsdata från träningsdata i stället anger du antingen n_cross_validations
eller validation_size
.
Använd cv_split_column_names
om du har korsvalideringskolumner i training_data
.
- validation_size
- float
Vilken del av data som ska lagras för validering när användarvalideringsdata inte har angetts. Detta bör vara mellan 0.0 och 1.0 icke-inkluderande.
Ange validation_data
för att tillhandahålla valideringsdata, ange n_cross_validations
på annat sätt eller validation_size
extrahera valideringsdata från angivna träningsdata.
Använd för anpassad korsvalidering cv_split_column_names
.
Mer information finns i Konfigurera datadelningar och korsvalidering i automatiserad maskininlärning.
- n_cross_validations
- int
Hur många korsvalideringar som ska utföras när användarverifieringsdata inte har angetts.
Ange validation_data
för att tillhandahålla valideringsdata, ange n_cross_validations
på annat sätt eller validation_size
extrahera valideringsdata från angivna träningsdata.
Använd för anpassad korsvalidering cv_split_column_names
.
Mer information finns i Konfigurera datadelningar och korsvalidering i automatiserad maskininlärning.
- y_min
- float
Minsta värde på y för ett regressionsexperiment. Kombinationen av y_min
och y_max
används för att normalisera testuppsättningsmått baserat på indataintervallet. Den här inställningen håller på att bli inaktuell. I stället beräknas det här värdet från data.
- y_max
- float
Maximalt värde på y för ett regressionsexperiment. Kombinationen av y_min
och y_max
används för att normalisera testuppsättningsmått baserat på indataintervallet. Den här inställningen håller på att bli inaktuell. I stället beräknas det här värdet från data.
- num_classes
- int
Antalet klasser i etikettdata för ett klassificeringsexperiment. Den här inställningen håller på att bli inaktuell. I stället beräknas det här värdet från data.
- featurization
- str eller FeaturizationConfig
"auto" / "off" / FeaturizationConfig Indicator för huruvida funktionaliseringssteget ska göras automatiskt eller inte, eller om anpassad funktionalisering ska användas. Obs! Om indata är glesa går det inte att aktivera funktionalisering.
Kolumntypen identifieras automatiskt. Baserat på den identifierade kolumntypen utförs förbearbetning/funktionalisering på följande sätt:
Kategorisk: Målkodning, en frekvent kodning, släpp kategorier med hög kardinalitet, imputera saknade värden.
Numeriskt: Impute missing values, cluster distance, weight of evidence.
DateTime: Flera funktioner som dag, sekunder, minuter, timmar osv.
Text: Påse med ord, förtränad Word inbäddning, textmålkodning.
Mer information finns i artikeln Konfigurera automatiserade ML-experiment i Python.
Om du vill anpassa funktionaliseringssteget anger du ett FeaturizationConfig-objekt. Anpassad funktionalisering stöder för närvarande blockering av en uppsättning transformatorer, uppdatering av kolumnsyfte, redigering av transformeringsparametrar och släppning av kolumner. Mer information finns i Anpassa funktionsteknik.
Obs! Tidsseriefunktioner hanteras separat när aktivitetstypen är inställd på prognostisering oberoende av den här parametern.
- max_cores_per_iteration
- int
Det maximala antalet trådar som ska användas för en viss tränings iteration. Godtagbara värden:
Större än 1 och mindre än eller lika med det maximala antalet kärnor i beräkningsmålet.
Lika med -1, vilket innebär att använda alla möjliga kärnor per iteration per underordnad körning.
Lika med 1, standardvärdet.
- max_concurrent_iterations
- int
Representerar det maximala antalet iterationer som skulle köras parallellt. Standardvärdet är 1.
AmlCompute-kluster stöder en interation som körs per nod. För flera överordnade AutoML-experimentkörningar som körs parallellt i ett enda AmlCompute-kluster ska summan av
max_concurrent_iterations
värdena för alla experiment vara mindre än eller lika med det maximala antalet noder. Annars placeras körningar i kö tills noder är tillgängliga.DSVM stöder flera iterationer per nod.
max_concurrent_iterations
vara mindre än eller lika med antalet kärnor på DSVM. För flera experiment som körs parallellt på en enda DSVM ska summan avmax_concurrent_iterations
värdena för alla experiment vara mindre än eller lika med det maximala antalet noder.Databricks –
max_concurrent_iterations
ska vara mindre än eller lika med antalet arbetsnoder i Databricks.
max_concurrent_iterations
gäller inte för lokala körningar. Den här parametern hette concurrent_iterations
tidigare .
- iteration_timeout_minutes
- int
Maximal tid i minuter som varje iteration kan köras för innan den avslutas. Om inget anges används värdet 1 månad eller 4 3200 minuter.
- mem_in_mb
- int
Maximal minnesanvändning som varje iteration kan köras för innan den avslutas. Om det inte anges används värdet 1 PB eller 1073741824 MB.
- enforce_time_on_windows
- bool
Om du vill framtvinga en tidsgräns för modellträning vid varje iteration i Windows. Standardvärdet är Sant. Om du kör från en Python-skriptfil (.py) läser du dokumentationen för att tillåta resursbegränsningar i Windows.
- experiment_timeout_hours
- float
Maximal tid i timmar som alla iterationer tillsammans kan ta innan experimentet avslutas. Kan vara ett decimalvärde som 0,25 som representerar 15 minuter. Om det inte anges är standardtidsgränsen för experimentet 6 dagar. Om du vill ange en tidsgräns som är mindre än eller lika med 1 timme kontrollerar du att datauppsättningens storlek inte är större än 10 000 000 (kolumnen rader gånger) eller ett felresultat.
- experiment_exit_score
- float
Målpoäng för experiment. Experimentet avslutas när den här poängen har uppnåtts. Om det inte anges (inga kriterier) körs experimentet tills inga ytterligare framsteg har gjorts för det primära måttet. Mer information om avslutsvillkor finns i den här artikeln.
- enable_early_stopping
- bool
Om du vill aktivera tidig uppsägning om poängen inte förbättras på kort sikt. Standardvärdet är Sant.
Tidig stopplogik:
Inget tidigt stopp för de första 20 iterationerna (landmärken).
Tidigt stoppfönster startar den 21:a iterationen och letar efter early_stopping_n_iters iterationer
(för närvarande inställd på 10). Det innebär att den första iterationen där stopp kan ske är den 31:a.
AutoML schemalägger fortfarande 2 ensemble-iterationer EFTER tidig stoppning, vilket kan resultera i
högre poäng.
Tidig stoppning utlöses om det absoluta värdet för bästa beräknade poäng är detsamma för tidigare
early_stopping_n_iters iterationer, d.v.s. om det inte finns någon förbättring i poäng för early_stopping_n_iters iterationer.
- blocked_models
- list(str) eller list(Classification) <xref:for classification task> eller list(Regression) <xref:for regression task> eller list(Forecasting) <xref:for forecasting task>
En lista över algoritmer som ska ignoreras för ett experiment. Om enable_tf
är False ingår TensorFlow-modeller i blocked_models
.
- blacklist_models
- list(str) eller list(Classification) <xref:for classification task> eller list(Regression) <xref:for regression task> eller list(Forecasting) <xref:for forecasting task>
Inaktuell parameter använder du blocked_models i stället.
- exclude_nan_labels
- bool
Om rader med NaN-värden ska undantas i etiketten. Standardvärdet är Sant.
- verbosity
- int
Utförlighetsnivån för att skriva till loggfilen. Standardvärdet är INFO eller 20. Godkända värden definieras i Python-loggningsbiblioteket.
- enable_tf
- bool
Inaktuell parameter för att aktivera/inaktivera Tensorflow-algoritmer. Standardvärdet är Falskt.
- model_explainability
- bool
Om du vill aktivera förklaring av den bästa AutoML-modellen i slutet av alla AutoML-tränings iterationer. Standardvärdet är Sant. Mer information finns i Tolka: modellförklaringar i automatiserad maskininlärning.
- allowed_models
- list(str) eller list(Classification) <xref:for classification task> eller list(Regression) <xref:for regression task> eller list(Forecasting) <xref:for forecasting task>
En lista över modellnamn för att söka efter ett experiment. Om inte anges används alla modeller som stöds för uppgiften minus alla angivna i blocked_models
eller inaktuella TensorFlow-modeller.
De modeller som stöds för varje aktivitetstyp beskrivs i SupportedModels klassen .
- whitelist_models
- list(str) eller list(Classification) <xref:for classification task> eller list(Regression) <xref:for regression task> eller list(Forecasting) <xref:for forecasting task>
Inaktuell parameter använder du allowed_models i stället.
- enable_onnx_compatible_models
- bool
Om du vill aktivera eller inaktivera framtvingande av ONNX-kompatibla modeller. Standardvärdet är Falskt. Mer information om Open Neural Network Exchange (ONNX) och Azure Machine Learning finns i den här artikeln.
- forecasting_parameters
- ForecastingParameters
Ett ForecastingParameters-objekt som innehåller alla prognostiseringsspecifika parametrar.
- time_column_name
- str
Namnet på tidskolumnen. Den här parametern krävs vid prognostisering för att ange kolumnen datetime i indata som används för att skapa tidsserier och härleda dess frekvens. Den här inställningen håller på att bli inaktuell. Använd forecasting_parameters i stället.
- max_horizon
- int
Önskad maximal prognoshorisont i tidsseriefrekvensenheter. Standardvärdet är 1.
Enheterna baseras på tidsintervallet för dina träningsdata, t.ex. varje månad, varje vecka som prognosmakaren bör förutsäga. När aktivitetstypen prognostiseras krävs den här parametern. Mer information om hur du ställer in prognosparametrar finns i Auto-train a time-series forecast model (Träna en prognosmodell för tidsserier automatiskt). Den här inställningen håller på att bli inaktuell. Använd forecasting_parameters i stället.
Namnen på kolumner som används för att gruppera en tidsserie. Den kan användas för att skapa flera serier. Om kornighet inte har definierats antas datauppsättningen vara en tidsserie. Den här parametern används med aktivitetstypsprognoser. Den här inställningen håller på att bli inaktuell. Använd forecasting_parameters i stället.
Antalet tidigare perioder som ska släpas från målkolumnen. Standard är 1. Den här inställningen håller på att bli inaktuell. Använd forecasting_parameters i stället.
Vid prognostisering representerar den här parametern antalet rader som ska fördröja målvärdena baserat på datafrekvensen. Detta representeras som en lista eller ett heltal. Fördröjning bör användas när relationen mellan de oberoende variablerna och den beroende variabeln inte matchar eller korrelerar som standard. När du till exempel försöker prognostisera efterfrågan på en produkt kan efterfrågan under en månad bero på priset på specifika råvaror 3 månader tidigare. I det här exemplet kanske du vill fördröja målet (efterfrågan) negativt med 3 månader så att modellen tränar på rätt relation. Mer information finns i Auto-train a time-series forecast model (Träna en tidsserieprognosmodell automatiskt).
- feature_lags
- str
Flagga för att generera fördröjningar för de numeriska funktionerna. Den här inställningen håller på att bli inaktuell. Använd forecasting_parameters i stället.
- target_rolling_window_size
- int
Antalet tidigare perioder som används för att skapa ett medelvärde för rullande fönster för målkolumnen. Den här inställningen håller på att bli inaktuell. Använd forecasting_parameters i stället.
Vid prognostisering representerar den här parametern n historiska perioder som ska användas för att generera prognostiserade värden, <= träningsuppsättningens storlek. Om det utelämnas är n den fullständiga träningsuppsättningens storlek. Ange den här parametern när du bara vill överväga en viss mängd historik när du tränar modellen.
- country_or_region
- str
Det land/den region som används för att generera semesterfunktioner. Dessa bör vara iso 3166 tvåbokstavs lands-/regionkod, till exempel "USA" eller "GB". Den här inställningen håller på att bli inaktuell. Använd forecasting_parameters i stället.
- use_stl
- str
Konfigurera STL-nedbrytning av tidsseriemålkolumnen. use_stl kan ta tre värden: Ingen (standard) – ingen stl-nedbrytning, "säsong" – genererar bara säsongskomponent och season_trend – genererar både säsongs- och trendkomponenter. Den här inställningen håller på att bli inaktuell. Använd forecasting_parameters i stället.
Ange säsongsvariationer för tidsserier. Om säsongsvariationen är inställd på "auto" kommer den att härledas. Den här inställningen är inaktuell. Använd forecasting_parameters i stället.
- short_series_handling_configuration
- str
Parametern som definierar hur AutoML ska hantera korta tidsserier.
Möjliga värden: "auto" (standard), "pad", "drop" och None.
- auto kort serie kommer att fyllas om det inte finns några långa serier, annars kort serie kommer att släppas.
- pad alla korta serien kommer att fyllas.
- släpp alla korta serier kommer att släppas".
- Ingen kortserien kommer inte att ändras. Om värdet är "pad" kommer tabellen att fyllas med nollor och tomma värden för regressorerna och slumpmässiga värden för målet med medelvärdet lika med målvärdets median för angivet tidsserie-ID. Om medianvärdet är mer eller lika med noll klipps det minimala vadderade värdet av noll: Indata:
Datum
numeric_value
sträng
Mål
2020-01-01
23
green
55
Utdata som förutsätter att det minsta antalet värden är fyra:
Datum
numeric_value
sträng
Mål
2019-12-29
0
NA
55.1
2019-12-30
0
NA
55.6
2019-12-31
0
NA
54.5
2020-01-01
23
green
55
Observera: Vi har två parametrar short_series_handling_configuration och äldre short_series_handling. När båda parametrarna anges synkroniseras de enligt tabellen nedan (short_series_handling_configuration och short_series_handling för korthet markeras som handling_configuration respektive hantering).
Hantering
handling_configuration
resulterande hantering
resulterande handling_configuration
Sant
auto
Sant
auto
Sant
Pad
Sant
auto
Sant
drop
Sant
auto
Sant
Ingen
Falskt
Ingen
Falskt
auto
Falskt
Ingen
Falskt
Pad
Falskt
Ingen
Falskt
drop
Falskt
Ingen
Falskt
Ingen
Falskt
Ingen
Prognosfrekvens.
Vid prognostisering representerar den här parametern den period med vilken prognosen önskas, till exempel dagligen, varje vecka, varje år osv. Prognosfrekvensen är datamängdsfrekvens som standard. Du kan också ställa in den på större (men inte mindre) än datauppsättningsfrekvensen. Vi aggregerar data och genererar resultaten med prognostiseringsfrekvens. För dagliga data kan du till exempel ange att frekvensen ska vara dagligen, varje vecka eller varje månad, men inte varje timme. Frekvensen måste vara ett Pandas-offsetalias. Mer information finns i Pandas-dokumentationen: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects
Funktionen som ska användas för att aggregera målkolumnen för tidsserier så att den överensstämmer med en användardefinieringsfrekvens. Om target_aggregation_function har angetts, men freq-parametern inte har angetts, utlöses felet. Möjliga målaggregeringsfunktioner är: "sum", "max", "min" och "mean".
Freq
target_aggregation_function
Mekanism för korrigering av dataregelbundna data
Ingen (standard)
Ingen (standard)
Aggregeringen tillämpas inte. Om den giltiga frekvensen inte kan fastställas utlöses felet.
Värde
Ingen (standard)
Aggregeringen tillämpas inte. Om antalet datapunkter som är kompatibla med det angivna frekvensrutnätet är mindre kommer 90 % av dessa punkter att tas bort, annars utlöses felet.
Ingen (standard)
Sammansättningsfunktion
Felet om saknade frekvensparametrar utlöses.
Värde
Sammansättningsfunktion
Aggregera till frekvens med hjälp av den tillhandahållna aggregeringsfunktionen.
- enable_voting_ensemble
- bool
Om du vill aktivera/inaktivera VotingEnsemble-iteration. Standardvärdet är True. Mer information om ensembler finns i Ensemblekonfiguration.
- enable_stack_ensemble
- bool
Om stackEnsemble-iteration ska aktiveras/inaktiveras. Standardvärdet är Ingen. Om enable_onnx_compatible_models flagga anges inaktiveras StackEnsemble-iteration. På samma sätt inaktiveras StackEnsemble-iteration som standard för Timeseries-uppgifter för att undvika risker med överanpassning på grund av små träningsuppsättningar som används för att passa metaläraren. Mer information om ensembler finns i Ensemblekonfiguration.
- debug_log
- str
Loggfilen som felsökningsinformationen ska skrivas till. Om inget anges används "automl.log".
- training_data
- DataFrame eller Dataset eller DatasetDefinition eller TabularDataset
Träningsdata som ska användas i experimentet.
Den bör innehålla både träningsfunktioner och en etikettkolumn (valfritt en exempelviktkolumn).
Om training_data
anges måste parametern label_column_name
också anges.
training_data
introducerades i version 1.0.81.
- validation_data
- DataFrame eller Dataset eller DatasetDefinition eller TabularDataset
Valideringsdata som ska användas i experimentet.
Den bör innehålla både träningsfunktioner och etikettkolumn (om du vill kan du välja en exempelviktkolumn).
Om validation_data
anges training_data
label_column_name
måste parametrarna anges.
validation_data
introducerades i version 1.0.81. Mer information finns i Konfigurera datadelningar och korsvalidering i automatiserad maskininlärning.
- test_data
- Dataset eller TabularDataset
Funktionen Modelltest med hjälp av testdatamängder eller delningar av testdata är en funktion i förhandsversionstillstånd och kan ändras när som helst. Testdata som ska användas för en testkörning som startas automatiskt när modellträningen är klar. Testkörningen får förutsägelser med den bästa modellen och beräknar mått baserat på dessa förutsägelser.
Om den här parametern eller parametern inte anges körs ingen testkörning automatiskt när modellträningen test_size
har slutförts.
Testdata ska innehålla både funktioner och etikettkolumnen.
Om test_data
anges måste parametern label_column_name
anges.
- test_size
- float
Funktionen Modelltest med hjälp av testdatamängder eller delningar av testdata är en funktion i förhandsversionstillstånd och kan ändras när som helst. Vilken del av träningsdata som ska lagras för testdata för en testkörning som startas automatiskt när modellträningen är klar. Testkörningen får förutsägelser med den bästa modellen och beräknar mått baserat på dessa förutsägelser.
Detta bör vara mellan 0.0 och 1.0 icke-inkluderande.
Om test_size
anges samtidigt som validation_size
delas testdata från training_data
innan valideringsdata delas upp.
Om validation_size=0.1
till exempel , test_size=0.1
och de ursprungliga träningsdata har 1 000 rader, kommer testdata att ha 100 rader, valideringsdata innehåller 90 rader och träningsdata har 810 rader.
För regressionsbaserade uppgifter används slumpmässig sampling. För klassificeringsuppgifter används stratifierad sampling. Prognostisering stöder för närvarande inte att ange en testdatauppsättning med hjälp av en tränings-/testdelning.
Om den här parametern eller parametern inte anges körs ingen testkörning automatiskt när modellträningen test_data
har slutförts.
Namnet på etikettkolumnen. Om indata kommer från en Pandas. DataFrame som inte har kolumnnamn, kolumnindex kan användas i stället, uttryckt som heltal.
Den här parametern gäller för training_data
parametrarna , validation_data
och test_data
.
label_column_name
introducerades i version 1.0.81.
Namnet på exempelviktkolumnen. Automatiserad ML stöder en viktad kolumn som indata, vilket gör att rader i data viktas upp eller ned. Om indata kommer från en Pandas. DataFrame som inte har kolumnnamn, kolumnindex kan användas i stället, uttryckt som heltal.
Den här parametern gäller för training_data
parametrarna och validation_data
.
weight_column_names
introducerades i version 1.0.81.
Lista över namnen på kolumnerna som innehåller anpassad korsvalideringsdelning. Var och en av DE DELADE CV-kolumnerna representerar en CV-delning där varje rad antingen är markerad 1 för träning eller 0 för validering.
Den här parametern gäller för training_data
parametern för anpassade korsvalideringsändamål.
cv_split_column_names
introducerades i version 1.6.0
Använd antingen cv_split_column_names
eller cv_splits_indices
.
Mer information finns i Konfigurera datadelningar och korsvalidering i automatiserad maskininlärning.
- enable_local_managed
- bool
Inaktiverad parameter. Lokala hanterade körningar kan inte aktiveras just nu.
- enable_dnn
- bool
Om DNN-baserade modeller ska inkluderas under modellval. Standardvärdet i init är Ingen. Standardvärdet är dock Sant för DNN NLP-uppgifter och är Falskt för alla andra AutoML-uppgifter.
Den typ av uppgift som ska köras. Värdena kan vara "klassificering", "regression" eller "prognostisering" beroende på vilken typ av automatiserat ML-problem som ska lösas.
- path
- str
Den fullständiga sökvägen till projektmappen för Azure Machine Learning. Om inget anges är standardvärdet att använda den aktuella katalogen eller ".".
- iterations
- int
Det totala antalet olika kombinationer av algoritmer och parametrar som ska testas under ett automatiserat ML-experiment. Om inget anges är standardvärdet 1 000 iterationer.
Det mått som automatiserad maskininlärning optimerar för modellval. Automatiserad maskininlärning samlar in fler mått än vad som kan optimeras. Du kan använda get_primary_metrics för att hämta en lista över giltiga mått för din uppgift. Mer information om hur mått beräknas finns i https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.
Om det inte anges används noggrannhet för klassificeringsuppgifter, normaliserat rotmedelvärde i kvadrat används för prognostiserings- och regressionsaktiviteter, noggrannhet används för bildklassificering och klassificering av flera etiketter och genomsnittlig genomsnittlig precision används för identifiering av bildobjekt.
- positive_label
- Any
Den positiva klassetiketten som automatiserad maskininlärning använder för att beräkna binära mått med. Binära mått beräknas i två villkor för klassificeringsuppgifter:
- etikettkolumnen består av två klasser som anger att den binära klassificeringsaktiviteten AutoML använder angiven positiv klass när positive_label skickas in, annars väljer AutoML en positiv klass baserat på etikettkodat värde.
- klassificeringsuppgift för flera klasser med positive_label angiven
Mer information om klassificering finns i utcheckningsmått för klassificeringsscenarier.
- compute_target
- AbstractComputeTarget
Beräkningsmålet för Azure Machine Learning som automatiserat machine learning-experiment ska köras på. Mer https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote information om beräkningsmål finns i.
- spark_context
- <xref:SparkContext>
Spark-kontexten. Gäller endast när det används i Azure Databricks/Spark-miljön.
- X
- DataFrame eller ndarray eller Dataset eller DatasetDefinition eller TabularDataset
Träningsfunktionerna som ska användas vid montering av pipelines under ett experiment. Den här inställningen är inaktuell. Använd training_data och label_column_name i stället.
- y
- DataFrame eller ndarray eller Dataset eller DatasetDefinition eller TabularDataset
Träningsetiketterna som ska användas vid montering av pipelines under ett experiment. Det här är det värde som din modell förutsäger. Den här inställningen är inaktuell. Använd training_data och label_column_name i stället.
- sample_weight
- DataFrame eller ndarray eller TabularDataset
Vikten för varje träningsexempel när du kör passande pipelines, varje rad bör motsvara en rad i X- och y-data.
Ange den här parametern när du X
anger .
Den här inställningen är inaktuell. Använd training_data och weight_column_name i stället.
- X_valid
- DataFrame eller ndarray eller Dataset eller DatasetDefinition eller TabularDataset
Valideringsfunktioner som ska användas vid montering av pipelines under ett experiment.
Om detta anges y_valid
måste eller sample_weight_valid
också anges.
Den här inställningen är inaktuell. Använd validation_data och label_column_name i stället.
- y_valid
- DataFrame eller ndarray eller Dataset eller DatasetDefinition eller TabularDataset
Valideringsetiketter som ska användas vid montering av pipelines under ett experiment.
Både X_valid
och y_valid
måste anges tillsammans.
Den här inställningen är inaktuell. Använd validation_data och label_column_name i stället.
- sample_weight_valid
- DataFrame eller ndarray eller TabularDataset
Vikten för varje valideringsexempel vid körning av bedömningspipelines bör varje rad motsvara en rad i X- och y-data.
Ange den här parametern när du X_valid
anger .
Den här inställningen är inaktuell. Använd validation_data och weight_column_name i stället.
Index där träningsdata ska delas upp för korsvalidering. Varje rad är en separat korsvikt och inom varje korsmapp ger du 2 numpy-matriser, den första med indexen för exempel som ska användas för träningsdata och den andra med indexen som ska användas för valideringsdata. dvs. [[t1, v1], [t2, v2], ...] där t1 är träningsindexen för den första korsvikten och v1 är valideringsindexen för det första korsdelegeringet. Det här alternativet stöds när data skickas som separata datauppsättningar för funktioner och kolumnen Etikett.
Om du vill ange befintliga data som valideringsdata använder du validation_data
. Om du vill låta AutoML extrahera valideringsdata från träningsdata i stället anger du antingen n_cross_validations
eller validation_size
.
Använd cv_split_column_names
om du har korsvalideringskolumner i training_data
.
- validation_size
- float
Vilken del av data som ska lagras för validering när användarvalideringsdata inte har angetts. Detta bör vara mellan 0.0 och 1.0 icke-inkluderande.
Ange validation_data
för att tillhandahålla valideringsdata, ange n_cross_validations
på annat sätt eller validation_size
extrahera valideringsdata från angivna träningsdata.
Använd för anpassad korsvalidering cv_split_column_names
.
Mer information finns i Konfigurera datadelningar och korsvalidering i automatiserad maskininlärning.
Hur många korsvalideringar som ska utföras när användarverifieringsdata inte har angetts.
Ange validation_data
för att tillhandahålla valideringsdata, ange n_cross_validations
på annat sätt eller validation_size
extrahera valideringsdata från angivna träningsdata.
Använd för anpassad korsvalidering cv_split_column_names
.
Mer information finns i Konfigurera datadelningar och korsvalidering i automatiserad maskininlärning.
- y_min
- float
Minsta värde på y för ett regressionsexperiment. Kombinationen av y_min
och y_max
används för att normalisera testuppsättningsmått baserat på indataintervallet. Den här inställningen håller på att bli inaktuell. I stället beräknas det här värdet från data.
- y_max
- float
Maximalt värde på y för ett regressionsexperiment. Kombinationen av y_min
och y_max
används för att normalisera testuppsättningsmått baserat på indataintervallet. Den här inställningen håller på att bli inaktuell. I stället beräknas det här värdet från data.
- num_classes
- int
Antalet klasser i etikettdata för ett klassificeringsexperiment. Den här inställningen håller på att bli inaktuell. I stället beräknas det här värdet från data.
- featurization
- str eller FeaturizationConfig
"auto" / "off" / FeaturizationConfig Indicator för huruvida funktionaliseringssteget ska göras automatiskt eller inte, eller om anpassad funktionalisering ska användas. Obs! Om indata är glesa går det inte att aktivera funktionalisering.
Kolumntypen identifieras automatiskt. Baserat på den identifierade kolumntypen utförs förbearbetning/funktionalisering på följande sätt:
Kategorisk: Målkodning, en frekvent kodning, släpp kategorier med hög kardinalitet, imputera saknade värden.
Numeriskt: Impute missing values, cluster distance, weight of evidence.
DateTime: Flera funktioner som dag, sekunder, minuter, timmar osv.
Text: Påse med ord, förtränad Word inbäddning, textmålkodning.
Mer information finns i artikeln Konfigurera automatiserade ML-experiment i Python.
Om du vill anpassa funktionaliseringssteget anger du ett FeaturizationConfig-objekt. Anpassad funktionalisering stöder för närvarande blockering av en uppsättning transformatorer, uppdatering av kolumnsyfte, redigering av transformeringsparametrar och släppning av kolumner. Mer information finns i Anpassa funktionsteknik.
Obs! Tidsseriefunktioner hanteras separat när aktivitetstypen är inställd på prognostisering oberoende av den här parametern.
- max_cores_per_iteration
- int
Det maximala antalet trådar som ska användas för en viss tränings iteration. Godtagbara värden:
Större än 1 och mindre än eller lika med det maximala antalet kärnor i beräkningsmålet.
Lika med -1, vilket innebär att använda alla möjliga kärnor per iteration per underordnad körning.
Lika med 1, standardvärdet.
- max_concurrent_iterations
- int
Representerar det maximala antalet iterationer som skulle köras parallellt. Standardvärdet är 1.
AmlCompute-kluster stöder en interation som körs per nod. För flera experiment som körs parallellt på ett enda AmlCompute-kluster ska summan av
max_concurrent_iterations
värdena för alla experiment vara mindre än eller lika med det maximala antalet noder.DSVM stöder flera iterationer per nod.
max_concurrent_iterations
vara mindre än eller lika med antalet kärnor på DSVM. För flera experiment som körs parallellt på en enda DSVM ska summan avmax_concurrent_iterations
värdena för alla experiment vara mindre än eller lika med det maximala antalet noder.Databricks –
max_concurrent_iterations
ska vara mindre än eller lika med antalet arbetsnoder i Databricks.
max_concurrent_iterations
gäller inte för lokala körningar. Den här parametern hette concurrent_iterations
tidigare .
- iteration_timeout_minutes
- int
Maximal tid i minuter som varje iteration kan köras för innan den avslutas. Om inget anges används värdet 1 månad eller 4 3200 minuter.
- mem_in_mb
- int
Maximal minnesanvändning som varje iteration kan köras för innan den avslutas. Om det inte anges används värdet 1 PB eller 1073741824 MB.
- enforce_time_on_windows
- bool
Om du vill framtvinga en tidsgräns för modellträning vid varje iteration i Windows. Standardvärdet är Sant. Om du kör från en Python-skriptfil (.py) läser du dokumentationen för att tillåta resursbegränsningar i Windows.
- experiment_timeout_hours
- float
Maximal tid i timmar som alla iterationer tillsammans kan ta innan experimentet avslutas. Kan vara ett decimalvärde som 0,25 som representerar 15 minuter. Om det inte anges är standardtidsgränsen för experimentet 6 dagar. Om du vill ange en tidsgräns som är mindre än eller lika med 1 timme kontrollerar du att datauppsättningens storlek inte är större än 10 000 000 (kolumnen rader gånger) eller ett felresultat.
- experiment_exit_score
- float
Målpoäng för experiment. Experimentet avslutas när den här poängen har uppnåtts.
Om det inte anges (inga kriterier) körs experimentet tills inga ytterligare framsteg har gjorts för det primära måttet. Mer information om avslutsvillkor finns i det här >>article
https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#exit-criteria_<<.
- enable_early_stopping
- bool
Om du vill aktivera tidig uppsägning om poängen inte förbättras på kort sikt. Standardvärdet är Sant.
Tidig stopplogik:
Inget tidigt stopp för de första 20 iterationerna (landmärken).
Det tidiga stoppfönstret startar den 21:a iterationen och söker efter early_stopping_n_iters iterationer (för närvarande inställt på 10). Det innebär att den första iterationen där stopp kan ske är den 31:a.
AutoML schemalägger fortfarande 2 ensemble-iterationer EFTER tidig stoppning, vilket kan resultera i högre poäng.
Tidig stoppning utlöses om det absoluta värdet för bästa poäng som beräknas är detsamma för tidigare early_stopping_n_iters iterationer, d.v.s. om det inte finns någon förbättring i poäng för early_stopping_n_iters iterationer.
- blocked_models
- list(str) eller list(Classification) <xref:for classification task> eller list(Regression) <xref:for regression task> eller list(Forecasting) <xref:for forecasting task>
En lista över algoritmer som ska ignoreras för ett experiment. Om enable_tf
är False ingår TensorFlow-modeller i blocked_models
.
- blacklist_models
- list(str) eller list(Classification) <xref:for classification task> eller list(Regression) <xref:for regression task> eller list(Forecasting) <xref:for forecasting task>
Inaktuell parameter använder du blocked_models i stället.
- exclude_nan_labels
- bool
Om rader med NaN-värden ska undantas i etiketten. Standardvärdet är Sant.
- verbosity
- int
Utförlighetsnivån för att skriva till loggfilen. Standardvärdet är INFO eller 20. Godkända värden definieras i Python-loggningsbiblioteket.
- enable_tf
- bool
Om TensorFlow-algoritmer ska aktiveras/inaktiveras. Standardvärdet är Falskt.
- model_explainability
- bool
Om du vill aktivera förklaring av den bästa AutoML-modellen i slutet av alla AutoML-tränings iterationer. Standardvärdet är Sant. Mer information finns i Tolka: modellförklaringar i automatiserad maskininlärning.
- allowed_models
- list(str) eller list(Classification) <xref:for classification task> eller list(Regression) <xref:for regression task> eller list(Forecasting) <xref:for forecasting task>
En lista över modellnamn för att söka efter ett experiment. Om inte anges används alla modeller som stöds för uppgiften minus alla angivna i blocked_models
eller inaktuella TensorFlow-modeller.
De modeller som stöds för varje aktivitetstyp beskrivs i SupportedModels klassen .
- allowed_models
En lista över modellnamn för att söka efter ett experiment. Om inte anges används alla modeller som stöds för uppgiften minus alla angivna i blocked_models
eller inaktuella TensorFlow-modeller.
De modeller som stöds för varje aktivitetstyp beskrivs i SupportedModels klassen .
- whitelist_models
Inaktuell parameter använder du allowed_models i stället.
- enable_onnx_compatible_models
- bool
Om du vill aktivera eller inaktivera framtvingande av ONNX-kompatibla modeller. Standardvärdet är Falskt. Mer information om Open Neural Network Exchange (ONNX) och Azure Machine Learning finns i den här artikeln.
- forecasting_parameters
- ForecastingParameters
Ett objekt som innehåller alla prognostiseringsspecifika parametrar.
- time_column_name
- str
Namnet på tidskolumnen. Den här parametern krävs vid prognostisering för att ange kolumnen datetime i indata som används för att skapa tidsserier och härleda dess frekvens. Den här inställningen håller på att bli inaktuell. Använd forecasting_parameters i stället.
- max_horizon
- int
Önskad maximal prognoshorisont i tidsseriefrekvensenheter. Standardvärdet är 1. Den här inställningen håller på att bli inaktuell. Använd forecasting_parameters i stället.
Enheterna baseras på tidsintervallet för dina träningsdata, t.ex. varje månad, varje vecka som prognosmakaren bör förutsäga. När aktivitetstypen prognostiseras krävs den här parametern. Mer information om hur du ställer in prognosparametrar finns i Auto-train a time-series forecast model (Träna en prognosmodell för tidsserier automatiskt).
Namnen på kolumner som används för att gruppera en tidsserie. Den kan användas för att skapa flera serier. Om kornighet inte har definierats antas datauppsättningen vara en tidsserie. Den här parametern används med aktivitetstypsprognoser. Den här inställningen håller på att bli inaktuell. Använd forecasting_parameters i stället.
Antalet tidigare perioder som ska släpas från målkolumnen. Standard är 1. Den här inställningen håller på att bli inaktuell. Använd forecasting_parameters i stället.
Vid prognostisering representerar den här parametern antalet rader som ska fördröja målvärdena baserat på datafrekvensen. Detta representeras som en lista eller ett heltal. Fördröjning bör användas när relationen mellan de oberoende variablerna och den beroende variabeln inte matchar eller korrelerar som standard. När du till exempel försöker prognostisera efterfrågan på en produkt kan efterfrågan under en månad bero på priset på specifika råvaror 3 månader tidigare. I det här exemplet kanske du vill fördröja målet (efterfrågan) negativt med 3 månader så att modellen tränar på rätt relation. Mer information finns i Auto-train a time-series forecast model (Träna en tidsserieprognosmodell automatiskt).
- feature_lags
- str
Flagga för att generera fördröjningar för de numeriska funktionerna. Den här inställningen håller på att bli inaktuell. Använd forecasting_parameters i stället.
- target_rolling_window_size
- int
Antalet tidigare perioder som används för att skapa ett medelvärde för rullande fönster för målkolumnen. Den här inställningen håller på att bli inaktuell. Använd forecasting_parameters i stället.
Vid prognostisering representerar den här parametern n historiska perioder som ska användas för att generera prognostiserade värden, <= träningsuppsättningens storlek. Om det utelämnas är n den fullständiga träningsuppsättningens storlek. Ange den här parametern när du bara vill överväga en viss mängd historik när du tränar modellen.
- country_or_region
- str
Det land/den region som används för att generera semesterfunktioner. Dessa bör vara ISO 3166 tvåbokstavs lands-/regionkoder, till exempel "USA" eller "GB". Den här inställningen håller på att bli inaktuell. Använd forecasting_parameters i stället.
- use_stl
- str
Konfigurera STL-nedbrytning av tidsseriemålkolumnen. use_stl kan ta tre värden: Ingen (standard) – ingen stl-nedbrytning, "säsong" – genererar bara säsongskomponent och season_trend – genererar både säsongs- och trendkomponenter. Den här inställningen håller på att bli inaktuell. Använd forecasting_parameters i stället.
- seasonality
- int
Ange säsongsvariationer för tidsserier. Om säsongsvariationen är inställd på -1 härleds den. Om use_stl inte har angetts används inte den här parametern. Den här inställningen håller på att bli inaktuell. Använd forecasting_parameters i stället.
- short_series_handling_configuration
- str
Parametern som definierar hur AutoML ska hantera korta tidsserier.
Möjliga värden: "auto" (standard), "pad", "drop" och None.
- auto kort serie kommer att vara vadderade om det inte finns några långa serier, annars kort serie kommer att släppas.
- pad alla korta serien kommer att vara vadderade.
- släpp alla korta serier kommer att tas bort".
- Ingen av de korta serierna kommer inte att ändras. Om den är inställd på "pad" kommer tabellen att fyllas med nollorna och tomma värden för regressorerna och slumpmässiga värden för målet med medelvärdet lika med målvärdets median för angivet tidsserie-ID. Om medianvärdet är mer eller lika med noll klipps det minimala vadderade värdet av noll: Indata:
Datum
numeric_value
sträng
Mål
2020-01-01
23
green
55
Utdata förutsatt att det minsta antalet värden är fyra: +————+—————+———-+—–+| Datum | numeric_value | sträng | target | +============+===============+==========+========+ | 2019-12-29 | 0 | NA | 55.1 | +————+—————+———-+——–+ | 2019-12-30 | 0 | NA | 55,6 | +————+—————+———-+——–+ | 2019-12-31 | 0 | NA | 54,5 | +————+—————+———-+——–+ | 2020-01-01 | 23 | grön | 55 | +————+—————+———-+——–+
Observera: Vi har två parametrar short_series_handling_configuration och äldre short_series_handling. När båda parametrarna anges synkroniseras de enligt tabellen nedan (short_series_handling_configuration och short_series_handling för korthet markeras som handling_configuration respektive hantering).
Hantering
handling_configuration
resulterande hantering
resulterande handling_configuration
Sant
auto
Sant
auto
Sant
Pad
Sant
auto
Sant
drop
Sant
auto
Sant
Ingen
Falskt
Ingen
Falskt
auto
Falskt
Ingen
Falskt
Pad
Falskt
Ingen
Falskt
drop
Falskt
Ingen
Falskt
Ingen
Falskt
Ingen
Prognosfrekvens.
Vid prognostisering representerar den här parametern den period med vilken prognosen önskas, till exempel dagligen, varje vecka, varje år osv. Prognosfrekvensen är datamängdsfrekvens som standard. Du kan också ange det till större (men inte mindre) än datauppsättningsfrekvensen. Vi aggregerar data och genererar resultaten med prognosfrekvens. För dagliga data kan du till exempel ange att frekvensen ska vara daglig, veckovis eller månadsvis, men inte varje timme. Frekvensen måste vara ett pandas-offsetalias. Mer information finns i Pandas-dokumentationen: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects
Funktionen som ska användas för att aggregera målkolumnen för tidsserier så att den överensstämmer med en angiven frekvens för användaren. Om target_aggregation_function har angetts, men freq-parametern inte har angetts, utlöses felet. Möjliga målaggregeringsfunktioner är: "sum", "max", "min" och "mean".
Freq
target_aggregation_function
Mekanism för korrekthetsfixering av data
Ingen (standard)
Ingen (standard)
Aggregeringen tillämpas inte. Om den giltiga frekvensen inte kan fastställas utlöses felet.
Visst värde
Ingen (standard)
Aggregeringen tillämpas inte. Om antalet datapunkter som är kompatibla med det angivna frekvensrutnätet är mindre tas 90 %dessa punkter bort, annars utlöses felet.
Ingen (standard)
Sammansättningsfunktion
Felet om saknade frekvensparametrar utlöses.
Visst värde
Sammansättningsfunktion
Aggregera till frekvens med hjälp av den tillhandahållna aggregeringsfunktionen.
- enable_voting_ensemble
- bool
Om du vill aktivera/inaktivera VotingEnsemble-iteration. Standardvärdet är Sant. Mer information om ensembler finns i Ensemblekonfiguration.
- enable_stack_ensemble
- bool
Om stackEnsemble-iteration ska aktiveras/inaktiveras. Standardvärdet är Ingen. Om enable_onnx_compatible_models flagga anges inaktiveras StackEnsemble-iteration. På samma sätt inaktiveras StackEnsemble-iteration som standard för Timeseries-uppgifter för att undvika risker för överanpassning på grund av små träningsuppsättningar som används för att passa metainläraren. Mer information om ensembler finns i Ensemblekonfiguration.
- debug_log
- str
Loggfilen som du vill skriva felsökningsinformation till. Om det inte anges används "automl.log".
- training_data
- DataFrame eller Dataset eller DatasetDefinition eller TabularDataset
Träningsdata som ska användas i experimentet.
Den bör innehålla både träningsfunktioner och en etikettkolumn (valfritt en kolumn med exempelvikter).
Om training_data
anges måste parametern label_column_name
också anges.
training_data
introducerades i version 1.0.81.
- validation_data
- DataFrame eller Dataset eller DatasetDefinition eller TabularDataset
Valideringsdata som ska användas i experimentet.
Den bör innehålla både träningsfunktioner och etikettkolumn (valfritt en kolumn med exempelvikter).
Om validation_data
anges training_data
label_column_name
måste parametrar anges.
validation_data
introducerades i version 1.0.81. Mer information finns i Konfigurera datadelningar och korsvalidering i automatiserad maskininlärning.
- test_data
- Dataset eller TabularDataset
Funktionen Modelltest med testdatamängder eller testdatadelningar är en funktion i förhandsversionstillstånd och kan ändras när som helst. Testdata som ska användas för en testkörning som startas automatiskt när modellträningen är klar. Testkörningen hämtar förutsägelser med hjälp av den bästa modellen och beräknar mått med tanke på dessa förutsägelser.
Om den här parametern eller parametern inte anges körs ingen testkörning automatiskt när modellträningen test_size
har slutförts.
Testdata ska innehålla både funktioner och etikettkolumn.
Om test_data
anges måste parametern label_column_name
anges.
- test_size
- float
Funktionen Modelltest med testdatamängder eller testdatadelningar är en funktion i förhandsversionstillstånd och kan ändras när som helst. Vilken del av träningsdata som ska lagras för testdata för en testkörning som startas automatiskt när modellträningen är klar. Testkörningen hämtar förutsägelser med hjälp av den bästa modellen och beräknar mått med tanke på dessa förutsägelser.
Detta bör vara mellan 0.0 och 1.0 icke-inkluderande.
Om test_size
anges samtidigt som validation_size
delas testdata från training_data
innan valideringsdata delas.
Om validation_size=0.1
till exempel , test_size=0.1
och de ursprungliga träningsdata har 1 000 rader, kommer testdata att ha 100 rader, valideringsdata innehåller 90 rader och träningsdata har 810 rader.
För regressionsbaserade uppgifter används slumpmässig sampling. För klassificeringsuppgifter används stratifierad sampling. Prognostisering stöder för närvarande inte att ange en testdatauppsättning med hjälp av en tränings-/testdelning.
Om den här parametern eller parametern inte anges körs ingen testkörning automatiskt när modellträningen test_data
har slutförts.
Namnet på etikettkolumnen. Om indata kommer från en Pandas. DataFrame som inte har kolumnnamn, kolumnindex kan användas i stället, uttryckt som heltal.
Den här parametern gäller för training_data
parametrarna och validation_data
test_data
.
label_column_name
introducerades i version 1.0.81.
Namnet på exempelviktkolumnen. Automatiserad ML stöder en viktad kolumn som indata, vilket gör att rader i data viktas upp eller ned. Om indata kommer från en Pandas. DataFrame som inte har kolumnnamn, kolumnindex kan användas i stället, uttryckt som heltal.
Den här parametern gäller för training_data
parametrar och validation_data
.
weight_column_names
introducerades i version 1.0.81.
Lista över namn på kolumner som innehåller anpassad korsvalideringsdelning. Var och en av de delade CV-kolumnerna representerar en CV-uppdelning där varje rad antingen är markerad 1 för träning eller 0 för validering.
Den här parametern gäller för training_data
parametern för anpassade korsvalideringsändamål.
cv_split_column_names
introducerades i version 1.6.0
Använd antingen cv_split_column_names
eller cv_splits_indices
.
Mer information finns i Konfigurera datadelningar och korsvalidering i automatiserad maskininlärning.
- enable_local_managed
- bool
Inaktiverad parameter. Lokala hanterade körningar kan inte aktiveras just nu.
- enable_dnn
- bool
Om DNN-baserade modeller ska inkluderas under modellval. Standardvärdet i init är Ingen. Standardvärdet är dock Sant för DNN NLP-uppgifter och är Falskt för alla andra AutoML-uppgifter.
Kommentarer
Följande kod visar ett grundläggande exempel på hur du skapar ett AutoMLConfig-objekt och skickar ett experiment för regression:
automl_settings = {
"n_cross_validations": 3,
"primary_metric": 'r2_score',
"enable_early_stopping": True,
"experiment_timeout_hours": 1.0,
"max_concurrent_iterations": 4,
"max_cores_per_iteration": -1,
"verbosity": logging.INFO,
}
automl_config = AutoMLConfig(task = 'regression',
compute_target = compute_target,
training_data = train_data,
label_column_name = label,
**automl_settings
)
ws = Workspace.from_config()
experiment = Experiment(ws, "your-experiment-name")
run = experiment.submit(automl_config, show_output=True)
Ett fullständigt exempel finns i Regression
Exempel på hur du använder AutoMLConfig för prognostisering finns i följande notebook-filer:
Exempel på hur du använder AutoMLConfig för alla aktivitetstyper finns i dessa automatiserade ML-notebook-filer.
Bakgrund om automatiserad ML finns i artiklarna:
Konfigurera automatiserade ML-experiment i Python. I den här artikeln finns information om de olika algoritmer och primära mått som används för varje aktivitetstyp.
Träna en prognosmodell för tidsserier automatiskt. I den här artikeln finns information om vilka konstruktorparametrar och
**kwargs
vilka som används i prognostisering.
Mer information om olika alternativ för att konfigurera datadelningar för träning/validering och korsvalidering för automatiserad maskininlärning, AutoML, experiment finns i Konfigurera datadelningar och korsvalidering i automatiserad maskininlärning.
Metoder
as_serializable_dict |
Konvertera objektet till en ordlista. |
get_supported_dataset_languages |
Hämta språk som stöds och deras motsvarande språkkoder i ISO 639-3. |
as_serializable_dict
Konvertera objektet till en ordlista.
as_serializable_dict() -> Dict[str, Any]
get_supported_dataset_languages
Hämta språk som stöds och deras motsvarande språkkoder i ISO 639-3.
get_supported_dataset_languages(use_gpu: bool) -> Dict[Any, Any]
Parametrar
- use_gpu
booleskt värde som anger om gpu-beräkning används eller inte.
Returer
ordlista med formatet {: }. Språkkod följer ISO 639-3-standarden, se https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för