AutoMLConfig Sınıf

Başvuru

Azure Machine Learning'de otomatik ml denemesi gönderme yapılandırmasını temsil eder.

Bu yapılandırma nesnesi, deneme çalıştırmasını yapılandırmaya yönelik parametrelerin yanı sıra çalışma zamanında kullanılacak eğitim verilerini içerir ve kalıcı hale alır. Ayarlarınızı seçme konusunda rehberlik için bkz https://aka.ms/AutoMLConfig. .

AutoMLConfig oluşturun.

Devralma: builtins.object

AutoMLConfig

Oluşturucu

AutoMLConfig(task: str, path: str | None = None, iterations: int | None = None, primary_metric: str | None = None, positive_label: Any | None = None, compute_target: Any | None = None, spark_context: Any | None = None, X: Any | None = None, y: Any | None = None, sample_weight: Any | None = None, X_valid: Any | None = None, y_valid: Any | None = None, sample_weight_valid: Any | None = None, cv_splits_indices: List[List[Any]] | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: float | None = None, experiment_exit_score: float | None = None, enable_early_stopping: bool = True, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, debug_log: str = 'automl.log', training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None, test_size: float | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, enable_dnn: bool | None = None, forecasting_parameters: ForecastingParameters | None = None, **kwargs: Any)

Parametreler

task: str veya Tasks

Gerekli

Çalıştırılacak görevin türü. Değerler, çözülecek otomatik ML sorununun türüne bağlı olarak 'sınıflandırma', 'regresyon' veya 'tahmin' olabilir.

path: str

Gerekli

Azure Machine Learning proje klasörünün tam yolu. Belirtilmezse, varsayılan değer geçerli dizini veya "." kullanmaktır.

iterations: int

Gerekli

Otomatik ML denemesi sırasında test edilmesi gereken farklı algoritma ve parametre bileşimlerinin toplam sayısı. Belirtilmezse, varsayılan değer 1000 yinelemedir.

primary_metric: str veya Metric

Gerekli

Otomatik Makine Öğrenmesi'nin model seçimi için iyileştireceği ölçüm. Otomatik Makine Öğrenmesi iyileştirenenden daha fazla ölçüm toplar. Verilen göreviniz için geçerli ölçümlerin listesini almak için kullanabilirsiniz get_primary_metrics . Ölçümlerin hesaplanma şekli hakkında daha fazla bilgi için bkz https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. .

Belirtilmezse, sınıflandırma görevleri için doğruluk kullanılır, tahmin ve regresyon görevleri için normalleştirilmiş kök ortalama kare kullanılır, doğruluk görüntü sınıflandırması ve görüntü çok etiketli sınıflandırma için kullanılır ve ortalama ortalama duyarlık görüntü nesnesi algılama için kullanılır.

positive_label: Any

Gerekli

Otomatik Makine Öğrenmesi'nin ikili ölçümleri hesaplamak için kullanacağı pozitif sınıf etiketi. İkili ölçümler sınıflandırma görevleri için iki koşulda hesaplanır:

etiket sütunu, positive_label geçirildiğinde AutoML'nin belirtilen pozitif sınıfı kullanacağını belirten ikili sınıflandırma görevini gösteren iki sınıftan oluşur; aksi takdirde AutoML, etiket kodlanmış değerine göre pozitif bir sınıf seçer.
positive_label belirtilen çok sınıflı sınıflandırma görevi

Sınıflandırma hakkında daha fazla bilgi için sınıflandırma senaryoları için kullanıma alma ölçümleri.

compute_target: AbstractComputeTarget

Gerekli

Otomatik Makine Öğrenmesi denemesini çalıştırmak için Azure Machine Learning işlem hedefi. İşlem hedefleri hakkında daha fazla bilgi için bkz https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote .

spark_context: <xref:SparkContext>

Gerekli

Spark bağlamı. Yalnızca Azure Databricks/Spark ortamında kullanıldığında geçerlidir.

X: DataFrame veya ndarray veya Dataset veya TabularDataset

Gerekli

Deneme sırasında işlem hatlarını sığdırırken kullanılacak eğitim özellikleri. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine training_data ve label_column_name kullanın.

y: DataFrame veya ndarray veya Dataset veya TabularDataset

Gerekli

Deneme sırasında işlem hatlarını sığdırırken kullanılacak eğitim etiketleri. Bu, modelinizin tahmin edeceği değerdir. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine training_data ve label_column_name kullanın.

sample_weight: DataFrame veya ndarray veya TabularDataset

Gerekli

Uygun işlem hatlarını çalıştırırken her eğitim örneğine verilmelidir. Her satır X ve y verilerindeki bir satıra karşılık gelir.

belirtirken bu parametreyi belirtin X. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine training_data ve weight_column_name kullanın.

X_valid: DataFrame veya ndarray veya Dataset veya TabularDataset

Gerekli

Deneme sırasında işlem hatlarını sığdırırken kullanılacak doğrulama özellikleri.

Belirtildiyse y_valid veya sample_weight_valid de belirtilmelidir. Bu ayar kullanım dışı bırakılıyor. Bunun yerine lütfen validation_data ve label_column_name kullanın.

y_valid: DataFrame veya ndarray veya Dataset veya TabularDataset

Gerekli

Deneme sırasında işlem hatlarını sığdırırken kullanılacak doğrulama etiketleri.

Hem hem de X_validy_valid birlikte belirtilmelidir. Bu ayar kullanım dışı bırakılıyor. Bunun yerine lütfen validation_data ve label_column_name kullanın.

sample_weight_valid: DataFrame veya ndarray veya TabularDataset

Gerekli

Puanlama işlem hatları çalıştırılırken her doğrulama örneğine verilmelidir. Her satır X ve y verilerindeki bir satıra karşılık gelir.

belirtirken bu parametreyi belirtin X_valid. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine validation_data ve weight_column_name kullanın.

cv_splits_indices: List[List[ndarray]]

Gerekli

Çapraz doğrulama için eğitim verilerinin bölüneceği dizinler. Her satır ayrı bir çapraz katlamadır ve her bir çapraz klasörün içinde, ilki eğitim verileri için kullanılacak örneklerin dizinlerini, ikincisi ise doğrulama verileri için kullanılacak dizinleri içeren 2 numpy dizisi sağlar. örneğin, [[t1, v1], [t2, v2], ...] burada t1 ilk çapraz katlama için eğitim endeksleri, v1 ise ilk çapraz katlama için doğrulama dizinleridir.

Mevcut verileri doğrulama verileri olarak belirtmek için kullanın validation_data. Bunun yerine AutoML'nin doğrulama verilerini eğitim verilerinden ayıklamasına izin vermek için veya validation_sizebelirtinn_cross_validations. içinde training_dataçapraz doğrulama sütunlarınız varsa kullanıncv_split_column_names.

validation_size: float

Gerekli

Kullanıcı doğrulama verileri belirtilmediğinde doğrulama için tutulacak verilerin ne kadar kesirli olduğu. Bu değer 0,0 ile 1,0 arasında olmalıdır ve bunlar dahil değildir.

Doğrulama verilerini sağlamak için belirtin validation_data , aksi takdirde doğrulama verilerini belirtilen eğitim verilerinden ayarlayın n_cross_validations veya validation_size ayıklayın. Özel çapraz doğrulama katlama için kullanın cv_split_column_names.

Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.

n_cross_validations: int

Gerekli

Kullanıcı doğrulama verileri belirtilmediğinde gerçekleştirilecek çapraz doğrulamalar.

Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.

y_min: float

Gerekli

Regresyon denemesi için en az y değeri. ve birleşimi y_miny_max , giriş veri aralığına göre test kümesi ölçümlerini normalleştirmek için kullanılır. Bu ayar kullanım dışı bırakılıyor. Bunun yerine, bu değer verilerden hesaplanır.

y_max: float

Gerekli

Regresyon denemesi için en fazla y değeri. ve birleşimi y_miny_max , giriş veri aralığına göre test kümesi ölçümlerini normalleştirmek için kullanılır. Bu ayar kullanım dışı bırakılıyor. Bunun yerine, bu değer verilerden hesaplanır.

num_classes: int

Gerekli

Sınıflandırma denemesi için etiket verilerindeki sınıf sayısı. Bu ayar kullanım dışı bırakılıyor. Bunun yerine, bu değer verilerden hesaplanır.

featurization: str veya FeaturizationConfig

Gerekli

Özellik ekleme adımının otomatik olarak yapılıp yapılmayacağı veya özelleştirilmiş özellik geliştirmenin kullanılıp kullanılmayacağı için 'auto' / 'off' / FeaturizationConfig Göstergesi. Not: Giriş verileri seyrekse özellik özelliği açılamaz.

Sütun türü otomatik olarak algılanır. Algılanan sütun türüne göre ön işleme/özellik geliştirme aşağıdaki gibi yapılır:

Kategorik: Hedef kodlama, bir sık erişimli kodlama, yüksek kardinalite kategorilerini bırakma, eksik değerleri açma/kapatma.
Sayısal: Eksik değerler, küme uzaklığı, kanıtın ağırlığı.
DateTime: Gün, saniye, dakika, saat gibi çeşitli özellikler.
Metin: Sözcük paketi, önceden eğitilmiş Word ekleme, metin hedefi kodlama.

Daha fazla ayrıntı python'da otomatik ML denemelerini yapılandırma makalesinde bulunabilir.

Özellik geliştirme adımlarını özelleştirmek için bir FeaturizationConfig nesnesi sağlayın. Özelleştirilmiş özellik geliştirme şu anda bir transformatör kümesini engellemeyi, sütun amacını güncelleştirmeyi, transformatör parametrelerini düzenlemeyi ve sütunları bırakmayı destekler. Daha fazla bilgi için bkz. Özellik mühendisliğini özelleştirme.

Not: Görev türü bu parametreden bağımsız olarak tahmine ayarlandığında timeseries özellikleri ayrı olarak işlenir.

max_cores_per_iteration: int

Gerekli

Belirli bir eğitim yinelemesi için kullanılacak iş parçacığı sayısı üst sınırı. Kabul edilebilir değerler:

1'den büyük ve işlem hedefinde maksimum çekirdek sayısından küçük veya ona eşit.
-1'e eşittir, bu da alt çalıştırma başına yineleme başına tüm olası çekirdekleri kullanmak anlamına gelir.
Varsayılan değer olan 1'e eşittir.

max_concurrent_iterations: int

Gerekli

Paralel olarak yürütülecek en fazla yineleme sayısını temsil eder. Varsayılan değer 1’dir.

AmlCompute kümeleri düğüm başına çalışan bir interation'i destekler. Tek bir AmlCompute kümesinde paralel olarak yürütülen birden çok AutoML denemesi üst çalıştırması için, tüm denemelerin değerlerinin max_concurrent_iterations toplamı en fazla düğüm sayısından küçük veya buna eşit olmalıdır. Aksi takdirde, düğümler kullanılabilir olana kadar çalıştırmalar kuyruğa alınır.
DSVM düğüm başına birden çok yinelemeyi destekler. max_concurrent_iterations DSVM'de çekirdek sayısından küçük veya buna eşit olmalıdır. Birden çok denemenin tek bir DSVM üzerinde paralel olarak çalıştırılması için, tüm denemelerin değerlerinin max_concurrent_iterations toplamı en fazla düğüm sayısından küçük veya buna eşit olmalıdır.
Databricks - max_concurrent_iterations Databricks'te çalışan düğümlerinin sayısından küçük veya buna eşit olmalıdır.

max_concurrent_iterations yerel çalıştırmalar için geçerli değildir. Daha önce bu parametre olarak adlandırılmıştı concurrent_iterations.

iteration_timeout_minutes: int

Gerekli

Her yinelemenin sonlandırılabilmesi için çalıştırabileceği dakika cinsinden en uzun süre. Belirtilmezse, 1 ay veya 43200 dakika değeri kullanılır.

mem_in_mb: int

Gerekli

Her yinelemenin sonlandırilmeden önce çalıştırabileceği en fazla bellek kullanımı. Belirtilmezse, 1 PB veya 1073741824 MB değeri kullanılır.

enforce_time_on_windows: bool

Gerekli

Windows'taki her yinelemede model eğitimi için bir zaman sınırı zorunlu kılınıp uygulanmaymayacağı. Varsayılan değer True'dur. Python betik dosyasından (.py) çalıştırıyorsanız Windows'da kaynak sınırlarına izin verme belgelerine bakın.

experiment_timeout_hours: float

Gerekli

Deneme sona ermeden önce tüm yinelemelerin birleştirildiği saat cinsinden maksimum süre. 15 dakikayı temsil eden 0,25 gibi bir ondalık değer olabilir. Belirtilmezse, varsayılan deneme zaman aşımı 6 gündür. 1 saatten küçük veya buna eşit bir zaman aşımı belirtmek için veri kümenizin boyutunun 10.000.000'den (satır çarpı sütunu) büyük olmadığından veya hata sonuçlarından emin olun.

experiment_exit_score: float

Gerekli

Deneme için hedef puan. Bu puana ulaşıldıktan sonra deneme sonlandırılır. Belirtilmezse (ölçüt yoksa), birincil ölçümde başka bir ilerleme kaydedilmeden deneme çalıştırılır. Çıkış ölçütleri hakkında daha fazla bilgi için bu makaleye bakın.

enable_early_stopping: bool

Gerekli

Kısa vadede puanın iyileşmemesi durumunda erken sonlandırmanın etkinleştirilip etkinleştirilmeyileceği. Varsayılan değer True'dur.

Erken durdurma mantığı:

İlk 20 yineleme (yer işaretleri) için erken durdurma yoktur.
Erken durdurma penceresi 21. yinelemede başlar ve early_stopping_n_iters yinelemeleri arar

(şu anda 10 olarak ayarlanmıştır). Bu, durdurmanın gerçekleşebileceği ilk yinelemenin 31. yineleme olduğu anlamına gelir.
AutoML, erken durdurma sonrasında 2 grup yinelemesi zamanlamaya devam eder ve bu da

daha yüksek puanlar.
En iyi puanın hesaplanmış mutlak değeri geçmiş için aynıysa erken durdurma tetikleniyor

early_stopping_n_iters yinelemeler, yani early_stopping_n_iters yinelemeler için puanda bir gelişme yoksa.

blocked_models: list(str) veya list(Classification) <xref:for classification task> veya list(Regression) <xref:for regression task> veya list(Forecasting) <xref:for forecasting task>

Gerekli

Deneme için yoksayılan algoritmaların listesi. False ise enable_tf , TensorFlow modelleri içinde blocked_modelsbulunur.

blacklist_models: list(str) veya list(Classification) <xref:for classification task> veya list(Regression) <xref:for regression task> veya list(Forecasting) <xref:for forecasting task>

Gerekli

Kullanım dışı parametresi yerine blocked_models kullanın.

exclude_nan_labels: bool

Gerekli

Etikette NaN değerleri olan satırların dışlanıp dışlanmayacağı. Varsayılan değer True'dur.

verbosity: int

Gerekli

Günlük dosyasına yazmak için ayrıntı düzeyi. Varsayılan değer BİlGİ veya 20'dir. Kabul edilebilir değerler Python günlük kitaplığında tanımlanır.

enable_tf: bool

Gerekli

Tensorflow algoritmalarını etkinleştirmek/devre dışı bırakmak için kullanım dışı parametresi. Varsayılan değer False'tur.

model_explainability: bool

Gerekli

Tüm AutoML eğitim yinelemelerinin sonunda en iyi AutoML modelinin açıklanıp açıklanmayacağı. Varsayılan değer True'dur. Daha fazla bilgi için bkz. Yorumlanabilirlik: otomatik makine öğrenmesinde model açıklamaları.

allowed_models: list(str) veya list(Classification) <xref:for classification task> veya list(Regression) <xref:for regression task> veya list(Forecasting) <xref:for forecasting task>

Gerekli

Bir deneme için aranacak model adlarının listesi. Belirtilmezse, görev için desteklenen tüm modeller tensorflow modellerinde blocked_models belirtilen veya kullanım dışı bırakılan modellerden çıkarılır. Her görev türü için desteklenen modeller sınıfında açıklanmıştır SupportedModels .

whitelist_models: list(str) veya list(Classification) <xref:for classification task> veya list(Regression) <xref:for regression task> veya list(Forecasting) <xref:for forecasting task>

Gerekli

Kullanım dışı parametresi yerine allowed_models kullanın.

enable_onnx_compatible_models: bool

Gerekli

ONNX uyumlu modelleri zorunlu tutmanın etkinleştirilip etkinleştirilmeyileceği veya devre dışı bırakılıp bırakılmaymayacağı. Varsayılan değer False'tur. Açık Sinir Ağı Değişimi (ONNX) ve Azure Machine Learning hakkında daha fazla bilgi için bu makaleye bakın.

forecasting_parameters: ForecastingParameters

Gerekli

Tüm tahmine özgü parametreleri tutan bir ForecastingParameters nesnesi.

time_column_name: str

Gerekli

Saat sütununun adı. Bu parametre, zaman serisini oluşturmak ve sıklığını çıkarsamak için kullanılan giriş verilerinde tarih saat sütununu belirtmek için tahminde bulunurken gereklidir. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

max_horizon: int

Gerekli

Zaman serisi sıklığı birimleri cinsinden istenen maksimum tahmin ufku. Varsayılan değer 1’dir.

Birimler, eğitim verilerinizin zaman aralığına (örn. tahminde bulunanın tahmin etmesi gereken aylık, haftalık) bağlıdır. Görev türü tahmin edilirken bu parametre gereklidir. Tahmin parametrelerini ayarlama hakkında daha fazla bilgi için bkz. Zaman serisi tahmin modelini otomatik olarak eğitme. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

grain_column_names: str veya list(str)

Gerekli

Zaman aralıklarını gruplandırmak için kullanılan sütunların adları. Birden çok seri oluşturmak için kullanılabilir. Tahıl tanımlanmamışsa, veri kümesinin tek bir zaman serisi olduğu varsayılır. Bu parametre, görev türü tahmini ile kullanılır. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

target_lags: int veya list(int)

Gerekli

Hedef sütundan geri alınacak geçmiş dönemlerin sayısı. Varsayılan değer 1'dir. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

Tahmin yaparken, bu parametre verilerin sıklığına bağlı olarak hedef değerlerin gecikmesi için satır sayısını temsil eder. Bu, bir liste veya tek bir tamsayı olarak temsil edilir. Bağımsız değişkenler ile bağımlı değişken arasındaki ilişki varsayılan olarak eşleşmediğinde veya ilişkilendirilmediğinde gecikme kullanılmalıdır. Örneğin, bir ürünün talebini tahmin etmeye çalışırken, herhangi bir aydaki talep, 3 ay önceki belirli emtiaların fiyatına bağlı olabilir. Bu örnekte, modelin doğru ilişki üzerinde eğitim görebilmesi için hedefi (talebi) 3 ay gecikmeli olarak geçirmek isteyebilirsiniz. Daha fazla bilgi için bkz. Zaman serisi tahmin modelini otomatik olarak eğitme.

feature_lags: str

Gerekli

Sayısal özellikler için gecikme oluşturma bayrağı. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

target_rolling_window_size: int

Gerekli

Hedef sütunun sıralı pencere ortalamasını oluşturmak için kullanılan geçmiş dönemlerin sayısı. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

Tahmin yaparken, bu parametre tahmin edilen değerleri oluşturmak için kullanılacak n geçmiş dönemi , <= eğitim kümesi boyutunu temsil eder. Belirtilmezse , n tam eğitim kümesi boyutudur. Modeli eğitirken yalnızca belirli bir geçmiş miktarını göz önünde bulundurmak istediğinizde bu parametreyi belirtin.

country_or_region: str

Gerekli

Tatil özellikleri oluşturmak için kullanılan ülke/bölge. Bunlar ISO 3166 iki harfli ülke/bölge kodu olmalıdır, örneğin 'ABD' veya 'GB'. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

use_stl: str

Gerekli

Zaman serisi hedef sütununun STL Ayrıştırma'sını yapılandırın. use_stl üç değer alabilir: Yok (varsayılan) - ayrıştırma yok, 'sezon' - yalnızca sezon bileşeni ve season_trend oluştur - hem mevsim hem de eğilim bileşenlerini oluşturun. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

seasonality: int veya str

Gerekli

Zaman serisi mevsimselliğini ayarlayın. Mevsimsellik 'otomatik' olarak ayarlanırsa çıkarım yapılır. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

short_series_handling_configuration: str

Gerekli

AutoML'nin kısa zaman serisini nasıl işleyeceklerini tanımlayan parametre.

Olası değerler: 'auto' (varsayılan), 'pad', 'drop' ve None.

uzun seri yoksa otomatik kısa seriler doldurulur, aksi takdirde kısa seriler bırakılır.
tuş takımı tüm kısa seriler doldurulacaktır.
tüm kısa seriler bırakılacaktır".
Hiçbiri kısa seri değiştirilmez. 'pad' olarak ayarlanırsa, tablo regresyonlar için sıfırlar ve boş değerlerle ve verilen zaman serisi kimliği için ortalama hedef değer ortanca değerine eşit olan hedef için rastgele değerlerle doldurulur. Ortanca değer sıfırdan büyük veya sıfıra eşitse, minimum doldurulmuş değer sıfıra kırpılır: Giriş:

Date

numeric_value

Dize

Hedef

2020-01-01

green

En az değer sayısının dört olduğunu varsayarsak çıkış:

Date

numeric_value

Dize

Hedef

2019-12-29

55.1

2019-12-30

55.6

2019-12-31

54.5

2020-01-01

green

Not: short_series_handling_configuration ve eski short_series_handling iki parametremiz vardır. Her iki parametre de ayarlandığında, bunları aşağıdaki tabloda gösterildiği gibi eşitleriz (short_series_handling_configuration ve kısaltma için short_series_handling sırasıyla handling_configuration ve işleme olarak işaretlenir).

Işleme

handling_configuration

sonuç işleme

sonuç handling_configuration

Doğru

auto

Doğru

auto

Doğru

Pad

Doğru

auto

Doğru

drop

Doğru

auto

Doğru

Hiçbiri

Yanlış

Hiçbiri

Yanlış

auto

Yanlış

Hiçbiri

Yanlış

Pad

Yanlış

Hiçbiri

Yanlış

drop

Yanlış

Hiçbiri

Yanlış

Hiçbiri

Yanlış

Hiçbiri

freq: str veya None

Gerekli

Tahmin sıklığı.

Tahmin yapılırken, bu parametre tahminin istendiği dönemi (örneğin, günlük, haftalık, yıllık vb.) temsil eder. Tahmin sıklığı varsayılan olarak veri kümesi sıklığıdır. İsteğe bağlı olarak veri kümesi sıklığından daha büyük (ancak daha az değil) olarak ayarlayabilirsiniz. Verileri toplayarak sonuçları tahmin sıklığında oluşturacağız. Örneğin, günlük veriler için sıklığı günlük, haftalık veya aylık olarak ayarlayabilirsiniz ancak saatlik olarak ayarlayamayabilirsiniz. Sıklığın pandas uzaklık diğer adı olması gerekir. Daha fazla bilgi için lütfen pandas belgelerine bakın: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function: str veya None

Gerekli

Zaman serisi hedef sütununu kullanıcının belirtilen sıklığına uyacak şekilde toplamak için kullanılacak işlev. target_aggregation_function ayarlandıysa ancak freq parametresi ayarlanmadıysa hata oluşur. Olası hedef toplama işlevleri şunlardır: "sum", "max", "min" ve "mean".

Frekans

target_aggregation_function

Veri düzenliliği düzeltme mekanizması

Hiçbiri (Varsayılan)

Toplama uygulanmaz. Geçerli sıklık belirlenemezse hata oluşturulur.

Bazı Değerler

Hiçbiri (Varsayılan)

Toplama uygulanmaz. Verilen sıklık kılavuzuyla uyumlu veri noktası sayısı daha azsa bu noktalar %90 kaldırılır, aksi takdirde hata oluşur.

Hiçbiri (Varsayılan)

Toplama işlevi

Eksik sıklık parametresiyle ilgili hata tetiklenmiş.

Bazı Değerler

Toplama işlevi

providedaggregation işlevini kullanarak sıklık olarak toplama.

enable_voting_ensemble: bool

Gerekli

VotingEnsemble yinelemesini etkinleştirme/devre dışı bırakma. Varsayılan değer True'dur. Topluluklar hakkında daha fazla bilgi için bkz. Grup yapılandırması.

enable_stack_ensemble: bool

Gerekli

StackEnsemble yinelemesini etkinleştirme/devre dışı bırakma. Varsayılan değer Yok'tur. enable_onnx_compatible_models bayrağı ayarlanıyorsa StackEnsemble yinelemesi devre dışı bırakılır. Benzer şekilde, Timeseries görevleri için StackEnsemble yinelemesi, meta öğrenciyi sığdırmak için kullanılan küçük eğitim kümesi nedeniyle fazla uygunluk risklerini önlemek için varsayılan olarak devre dışı bırakılır. Topluluklar hakkında daha fazla bilgi için bkz. Grup yapılandırması.

debug_log: str

Gerekli

Hata ayıklama bilgilerini yazacak günlük dosyası. Belirtilmezse, 'automl.log' kullanılır.

training_data: DataFrame veya Dataset veya DatasetDefinition veya TabularDataset

Gerekli

Deneme içinde kullanılacak eğitim verileri. Hem eğitim özelliklerini hem de etiket sütununu (isteğe bağlı olarak bir örnek ağırlık sütunu) içermelidir. belirtilirse training_data parametresinin label_column_name de belirtilmesi gerekir.

training_data sürüm 1.0.81'de kullanıma sunulmuştur.

validation_data: DataFrame veya Dataset veya DatasetDefinition veya TabularDataset

Gerekli

Deneme içinde kullanılacak doğrulama verileri. Hem eğitim özelliklerini hem de etiket sütununu (isteğe bağlı olarak örnek ağırlıklar sütunu) içermelidir. belirtilirse validation_datatraining_data ve label_column_name parametreleri belirtilmelidir.

validation_data sürüm 1.0.81'de kullanıma sunulmuştur. Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.

test_data: Dataset veya TabularDataset

Gerekli

Test veri kümelerini veya test veri bölmelerini kullanan Model Testi özelliği Önizleme durumundaki bir özelliktir ve herhangi bir zamanda değişebilir. Model eğitimi tamamlandıktan sonra otomatik olarak başlatılacak bir test çalıştırması için kullanılacak test verileri. Test çalıştırması en iyi modeli kullanarak tahminleri alır ve bu tahminler göz önüne alındığında ölçümleri hesaplar.

Bu parametre veya test_size parametre belirtilmezse, model eğitimi tamamlandıktan sonra hiçbir test çalıştırması otomatik olarak yürütülmeyecektir. Test verileri hem özellikleri hem de etiket sütununu içermelidir. belirtilirse test_data parametresi belirtilmelidir label_column_name .

test_size: float

Gerekli

Test veri kümelerini veya test veri bölmelerini kullanan Model Testi özelliği Önizleme durumundaki bir özelliktir ve herhangi bir zamanda değişebilir. Model eğitimi tamamlandıktan sonra otomatik olarak başlatılacak bir test çalıştırması için test verileri için tutulacak eğitim verilerinin ne kadar bölümü. Test çalıştırması en iyi modeli kullanarak tahminleri alır ve bu tahminler göz önüne alındığında ölçümleri hesaplar.

Bu, 0,0 ile 1,0 arasında olmalıdır ve bunlar dahil değildir. ile aynı anda validation_sizebelirtilirsetest_size, doğrulama verileri bölünmeden önce test verileri'nden training_data bölünür. Örneğin , ve özgün eğitim verileri 1000 satır içeriyorsavalidation_size=0.1test_size=0.1, test verilerinin 100 satırı olur, doğrulama verileri 90 satır içerir ve eğitim verileri 810 satır içerir.

Regresyon tabanlı görevler için rastgele örnekleme kullanılır. Sınıflandırma görevleri için katmanlı örnekleme kullanılır. Tahmin şu anda eğitme/test bölme kullanarak test veri kümesi belirtmeyi desteklememektedir.

Bu parametre veya test_data parametre belirtilmezse, model eğitimi tamamlandıktan sonra hiçbir test çalıştırması otomatik olarak yürütülmeyecektir.

label_column_name: Union[str, int]

Gerekli

Etiket sütununun adı. Giriş verileri bir pandas'tansa. Sütun adları olmayan DataFrame, bunun yerine tamsayı olarak ifade edilen sütun dizinleri kullanılabilir.

Bu parametre, validation_data ve test_data parametreleri için training_datageçerlidir. label_column_name sürüm 1.0.81'de kullanıma sunulmuştur.

weight_column_name: Union[str, int]

Gerekli

Örnek ağırlık sütununun adı. Otomatik ML, giriş olarak ağırlıklı bir sütunu destekler ve bu da verilerdeki satırların yukarı veya aşağı ağırlıklı olmasına neden olur. Giriş verileri bir pandas'tansa. Sütun adları olmayan DataFrame, bunun yerine tamsayı olarak ifade edilen sütun dizinleri kullanılabilir.

Bu parametre ve validation_data parametreleri için training_data geçerlidir. weight_column_names sürüm 1.0.81'de kullanıma sunulmuştur.

cv_split_column_names: list(str)

Gerekli

Özel çapraz doğrulama bölme içeren sütunların adları listesi. CV bölme sütunlarının her biri, her satırın eğitim için 1 veya doğrulama için 0 olarak işaretlendiği bir CV bölmeyi temsil eder.

Bu parametre, özel çapraz doğrulama amacıyla parametre için training_data geçerlidir. cv_split_column_names sürüm 1.6.0'da kullanıma sunulmuştur

cv_split_column_names veya cv_splits_indiceskullanın.

Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.

enable_local_managed: bool

Gerekli

Devre dışı parametresi. Yerel yönetilen çalıştırmalar şu anda etkinleştirilemiyor.

enable_dnn: bool

Gerekli

Model seçimi sırasında DNN tabanlı modellerin dahil edilip edilmeyeceği. init içindeki varsayılan değer Yok'tur. Ancak, DNN NLP görevleri için varsayılan değer True, diğer tüm AutoML görevleri için ise False'tur.

task: str veya Tasks

Gerekli

Çalıştırılacak görevin türü. Değerler, çözülecek otomatik ML sorununun türüne bağlı olarak 'sınıflandırma', 'regresyon' veya 'tahmin' olabilir.

path: str

Gerekli

Azure Machine Learning proje klasörünün tam yolu. Belirtilmezse, varsayılan değer geçerli dizini veya "." kullanmaktır.

iterations: int

Gerekli

Otomatik ml denemesi sırasında test edilmesi gereken farklı algoritma ve parametre birleşimlerinin toplam sayısı. Belirtilmezse, varsayılan değer 1000 yinelemedir.

primary_metric: str veya Metric

Gerekli

Otomatik Makine Öğrenmesi'nin model seçimi için iyileştireceği ölçüm. Otomatik Makine Öğrenmesi iyileştirenenden daha fazla ölçüm toplar. Verilen göreviniz için geçerli ölçümlerin listesini almak için komutunu kullanabilirsiniz get_primary_metrics . Ölçümlerin hesaplanma şekli hakkında daha fazla bilgi için bkz https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. .

Belirtilmezse, sınıflandırma görevleri için doğruluk kullanılır, tahmin ve regresyon görevleri için normalleştirilmiş kök ortalama karesi kullanılır, doğruluk görüntü sınıflandırması ve görüntü çok etiketli sınıflandırma için kullanılır ve ortalama ortalama duyarlık görüntü nesnesi algılama için kullanılır.

positive_label: Any

Gerekli

Otomatik Makine Öğrenmesi'nin ikili ölçümleri hesaplamak için kullanacağı pozitif sınıf etiketi. İkili ölçümler sınıflandırma görevleri için iki koşulda hesaplanır:

etiket sütunu, positive_label geçirildiğinde AutoML'nin belirtilen pozitif sınıfı kullanacağını belirten ikili sınıflandırma görevini gösteren iki sınıftan oluşur; aksi takdirde AutoML, etiket kodlanmış değerine göre pozitif bir sınıf seçer.
positive_label belirtilmiş çok sınıflı sınıflandırma görevi

Sınıflandırma hakkında daha fazla bilgi için sınıflandırma senaryoları için kullanıma alma ölçümleri.

compute_target: AbstractComputeTarget

Gerekli

spark_context: <xref:SparkContext>

Gerekli

Spark bağlamı. Yalnızca Azure Databricks/Spark ortamında kullanıldığında geçerlidir.

X: DataFrame veya ndarray veya Dataset veya DatasetDefinition veya TabularDataset

Gerekli

Deneme sırasında işlem hatlarını sığdırırken kullanılacak eğitim özellikleri. Bu ayar kullanım dışı bırakılıyor. Bunun yerine lütfen training_data ve label_column_name kullanın.

y: DataFrame veya ndarray veya Dataset veya DatasetDefinition veya TabularDataset

Gerekli

Deneme sırasında işlem hatlarını sığdırırken kullanılacak eğitim etiketleri. Bu, modelinizin tahmin edeceği değerdir. Bu ayar kullanım dışı bırakılıyor. Bunun yerine lütfen training_data ve label_column_name kullanın.

sample_weight: DataFrame veya ndarray veya TabularDataset

Gerekli

Sığdırma işlem hatlarını çalıştırırken her eğitim örneğine verilmelidir. Her satır X ve y verilerindeki bir satıra karşılık gelir.

belirtirken bu parametreyi belirtin X. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine training_data ve weight_column_name kullanın.

X_valid: DataFrame veya ndarray veya Dataset veya DatasetDefinition veya TabularDataset

Gerekli

Deneme sırasında işlem hatlarını sığdırırken kullanılacak doğrulama özellikleri.

Belirtilirse y_valid veya sample_weight_valid de belirtilmelidir. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine validation_data ve label_column_name kullanın.

y_valid: DataFrame veya ndarray veya Dataset veya DatasetDefinition veya TabularDataset

Gerekli

Deneme sırasında işlem hatlarını sığdırırken kullanılacak doğrulama etiketleri.

y_valid Hem hem de X_valid birlikte belirtilmelidir. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine validation_data ve label_column_name kullanın.

sample_weight_valid: DataFrame veya ndarray veya TabularDataset

Gerekli

Puanlama işlem hatları çalıştırılırken her doğrulama örneğine verilmelidir. Her satır X ve y verilerindeki bir satıra karşılık gelir.

belirtirken bu parametreyi belirtin X_valid. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine validation_data ve weight_column_name kullanın.

cv_splits_indices: List[List[ndarray]]

Gerekli

Çapraz doğrulama için eğitim verilerinin bölüneceği dizinler. Her satır ayrı bir çapraz katlamadır ve her bir çapraz klasörün içinde, ilki eğitim verileri için kullanılacak örneklerin dizinlerini, ikincisi ise doğrulama verileri için kullanılacak dizinleri içeren 2 numpy dizisi sağlar. örneğin, [[t1, v1], [t2, v2], ...] burada t1 ilk çapraz katlama için eğitim dizinleri, v1 ise ilk çapraz katlama için doğrulama dizinleridir. Bu seçenek, veriler ayrı Özellikler veri kümesi ve Etiket sütunu olarak geçirildiğinde desteklenir.

Mevcut verileri doğrulama verileri olarak belirtmek için kullanın validation_data. AutoML'nin eğitim verilerinin dışında doğrulama verilerini ayıklamasına izin vermek için veya validation_sizebelirtinn_cross_validations. içinde training_dataçapraz doğrulama sütunlarınız varsa kullanıncv_split_column_names.

validation_size: float

Gerekli

Kullanıcı doğrulama verileri belirtilmediğinde doğrulama için tutulacak verilerin kesri. Bu, 0,0 ile 1,0 arasında olmalıdır ve bunlar dahil değildir.

Doğrulama verilerini sağlamak için belirtin validation_data , aksi takdirde belirtilen eğitim verilerinden doğrulama verilerini ayarlayın n_cross_validations veya validation_size ayıklayın. Özel çapraz doğrulama katlama için kullanın cv_split_column_names.

Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.

n_cross_validations: int veya str

Gerekli

Kullanıcı doğrulama verileri belirtilmediğinde gerçekleştirilecek çapraz doğrulamalar.

Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.

y_min: float

Gerekli

Regresyon denemesi için en az y değeri. ve y_max birleşimiy_min, giriş veri aralığına göre test kümesi ölçümlerini normalleştirmek için kullanılır. Bu ayar kullanım dışı bırakılıyor. Bunun yerine, bu değer verilerden hesaplanır.

y_max: float

Gerekli

Regresyon denemesi için en fazla y değeri. ve y_max birleşimiy_min, giriş veri aralığına göre test kümesi ölçümlerini normalleştirmek için kullanılır. Bu ayar kullanım dışı bırakılıyor. Bunun yerine, bu değer verilerden hesaplanır.

num_classes: int

Gerekli

Sınıflandırma denemesi için etiket verilerindeki sınıf sayısı. Bu ayar kullanım dışı bırakılıyor. Bunun yerine, bu değer verilerden hesaplanır.

featurization: str veya FeaturizationConfig

Gerekli

Özellik geliştirme adımının otomatik olarak yapılıp yapılmayacağı veya özelleştirilmiş özellik geliştirmenin kullanılıp kullanılmayacağı için 'auto' / 'off' / FeaturizationConfig Göstergesi. Not: Giriş verileri seyrekse özellik özelliği açılamaz.

Sütun türü otomatik olarak algılanır. Algılanan sütun türüne bağlı olarak ön işleme/özellik kazandırma aşağıdaki gibi yapılır:

Kategorik: Hedef kodlama, bir sık erişimli kodlama, yüksek kardinalite kategorilerini bırakma, eksik değerleri açma.
Sayısal: Eksik değerlerin yerine getirme, küme uzaklığı, kanıtın ağırlığı.
DateTime: Gün, saniye, dakika, saat gibi çeşitli özellikler.
Metin: Sözcük paketi, önceden eğitilmiş Word ekleme, metin hedefi kodlama.

Daha fazla ayrıntı python'da otomatik ML denemelerini yapılandırma makalesinde bulunabilir.

Özellik geliştirme adımlarını özelleştirmek için bir FeaturizationConfig nesnesi sağlayın. Özelleştirilmiş özellik kazandırma şu anda bir dönüştürücü kümesini engellemeyi, sütun amacını güncelleştirmeyi, transformatör parametrelerini düzenlemeyi ve sütunları bırakmayı destekler. Daha fazla bilgi için bkz. Özellik mühendisliğini özelleştirme.

Not: Görev türü bu parametreden bağımsız olarak tahmine ayarlandığında zaman aralıkları özellikleri ayrı işlenir.

max_cores_per_iteration: int

Gerekli

Belirli bir eğitim yinelemesi için kullanılacak en fazla iş parçacığı sayısı. Kabul edilebilir değerler:

1'den büyük ve işlem hedefi üzerindeki maksimum çekirdek sayısından küçük veya buna eşit.
-1'e eşittir, bu da alt çalıştırma başına yineleme başına tüm olası çekirdekleri kullanmak anlamına gelir.
Varsayılan değer olan 1'e eşittir.

max_concurrent_iterations: int

Gerekli

Paralel olarak yürütülecek en fazla yineleme sayısını temsil eder. Varsayılan değer 1’dir.

AmlCompute kümeleri düğüm başına çalışan bir interation destekler. Tek bir AmlCompute kümesinde paralel olarak çalıştırılacak birden çok deneme için, tüm denemelerin değerlerinin max_concurrent_iterations toplamı en fazla düğüm sayısından küçük veya buna eşit olmalıdır.
DSVM düğüm başına birden çok yinelemeyi destekler. max_concurrent_iterations DSVM'de çekirdek sayısından küçük veya buna eşit olmalıdır. Birden çok denemenin tek bir DSVM üzerinde paralel olarak çalıştırılması için, tüm denemelerin değerlerinin max_concurrent_iterations toplamı en fazla düğüm sayısından küçük veya buna eşit olmalıdır.
Databricks - max_concurrent_iterations Databricks'te çalışan düğümlerinin sayısından küçük veya buna eşit olmalıdır.

max_concurrent_iterations yerel çalıştırmalar için geçerli değildir. Daha önce bu parametre olarak adlandırılmıştı concurrent_iterations.

iteration_timeout_minutes: int

Gerekli

Her yinelemenin sonlandırılabilmesi için çalıştırabileceği dakika cinsinden en uzun süre. Belirtilmezse, 1 ay veya 43200 dakika değeri kullanılır.

mem_in_mb: int

Gerekli

Her yinelemenin sonlandırilmeden önce çalıştırabileceği en fazla bellek kullanımı. Belirtilmezse, 1 PB veya 1073741824 MB değeri kullanılır.

enforce_time_on_windows: bool

Gerekli

experiment_timeout_hours: float

Gerekli

experiment_exit_score: float

Gerekli

enable_early_stopping: bool

Gerekli

Kısa vadede puanın iyileşmemesi durumunda erken sonlandırmanın etkinleştirilip etkinleştirilmeyileceği. Varsayılan değer True'dur.

Erken durdurma mantığı:

İlk 20 yineleme (yer işaretleri) için erken durdurma yoktur.
Erken durdurma penceresi 21. yinelemede başlar ve early_stopping_n_iters yinelemeleri arar (şu anda 10 olarak ayarlanmıştır). Bu, durdurmanın gerçekleşebileceği ilk yinelemenin 31. yineleme olduğu anlamına gelir.
AutoML hala erken durdurmadan sonra 2 grup yinelemesi zamanlar ve bu da daha yüksek puanlara neden olabilir.
En iyi puanın mutlak değeri geçmiş early_stopping_n_iters yinelemeleri için aynıysa, yani early_stopping_n_iters yinelemeleri için puanda bir iyileştirme yoksa erken durdurma tetikleniyor.

blocked_models: list(str) veya list(Classification) <xref:for classification task> veya list(Regression) <xref:for regression task> veya list(Forecasting) <xref:for forecasting task>

Gerekli

Deneme için yoksayılan algoritmaların listesi. False ise enable_tf , TensorFlow modelleri içinde blocked_modelsbulunur.

blacklist_models: list(str) veya list(Classification) <xref:for classification task> veya list(Regression) <xref:for regression task> veya list(Forecasting) <xref:for forecasting task>

Gerekli

Kullanım dışı parametresi yerine blocked_models kullanın.

exclude_nan_labels: bool

Gerekli

Etikette NaN değerleri olan satırların dışlanıp dışlanmayacağı. Varsayılan değer True'dur.

verbosity: int

Gerekli

Günlük dosyasına yazmak için ayrıntı düzeyi. Varsayılan değer BİlGİ veya 20'dir. Kabul edilebilir değerler Python günlük kitaplığında tanımlanır.

enable_tf: bool

Gerekli

TensorFlow algoritmalarının etkinleştirilip etkinleştirilmeyileceği/devre dışı bırakılıp bırakılmaymayacağı. Varsayılan değer False'tur.

model_explainability: bool

Gerekli

allowed_models: list(str) veya list(Classification) <xref:for classification task> veya list(Regression) <xref:for regression task> veya list(Forecasting) <xref:for forecasting task>

Gerekli

allowed_models

Gerekli

whitelist_models

Gerekli

Kullanım dışı parametresi yerine allowed_models kullanın.

enable_onnx_compatible_models: bool

Gerekli

forecasting_parameters: ForecastingParameters

Gerekli

Tüm tahmine özgü parametrelerin barındırılması için bir nesne.

time_column_name: str

Gerekli

max_horizon: int

Gerekli

Zaman serisi sıklığı birimlerinde istenen maksimum tahmin ufku. Varsayılan değer 1’dir. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

Birimler, tahminde bulunanın tahmin etmesi gereken aylık, haftalık gibi eğitim verilerinizin zaman aralığını temel alır. Görev türü tahmin edilirken bu parametre gereklidir. Tahmin parametrelerini ayarlama hakkında daha fazla bilgi için bkz. Zaman serisi tahmin modelini otomatik olarak eğitme.

grain_column_names: str veya list(str)

Gerekli

Zaman zamanlarını gruplandırmak için kullanılan sütunların adları. Birden çok seri oluşturmak için kullanılabilir. Tahıl tanımlanmamışsa, veri kümesinin bir zaman serisi olduğu varsayılır. Bu parametre, görev türü tahmini ile kullanılır. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

target_lags: int veya list(int)

Gerekli

Hedef sütundan gecikmeye neden olan geçmiş dönemlerin sayısı. Varsayılan değer 1'dir. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

Tahmin yapılırken, bu parametre verilerin sıklığına göre hedef değerlerin gecikmesi için satır sayısını temsil eder. Bu, bir liste veya tek bir tamsayı olarak temsil edilir. Bağımsız değişkenler ve bağımlı değişken arasındaki ilişki varsayılan olarak eşleşmediğinde veya bağıntılı olmadığında gecikme kullanılmalıdır. Örneğin, bir ürünün talebini tahmin etmeye çalışırken, herhangi bir aydaki talep 3 ay önceki belirli emtiaların fiyatına bağlı olabilir. Bu örnekte, modelin doğru ilişkiyi eğitmesi için hedefi (talebi) 3 ay olumsuz olarak gecikmeli olarak geçirmek isteyebilirsiniz. Daha fazla bilgi için bkz. Zaman serisi tahmin modelini otomatik olarak eğitin.

feature_lags: str

Gerekli

Sayısal özellikler için gecikme oluşturma bayrağı. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

target_rolling_window_size: int

Gerekli

Tahmin yaparken, bu parametre tahmin edilen değerleri oluşturmak için kullanılacak n geçmiş dönemi, <= eğitim kümesi boyutunu temsil eder. Belirtilmezse , n tam eğitim kümesi boyutudur. Modeli eğitirken yalnızca belirli bir geçmiş miktarını göz önünde bulundurmak istediğinizde bu parametreyi belirtin.

country_or_region: str

Gerekli

Tatil özellikleri oluşturmak için kullanılan ülke/bölge. Bunlar ISO 3166 iki harfli ülke/bölge kodları olmalıdır, örneğin 'US' veya 'GB'. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

use_stl: str

Gerekli

Zaman serisi hedef sütununun STL Ayrıştırmasını yapılandırın. use_stl üç değer alabilir: Hiçbiri (varsayılan) - ayrıştırma yok, 'season' - yalnızca sezon bileşeni ve season_trend oluşturma - hem mevsim hem de eğilim bileşenlerini oluşturur. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

seasonality: int

Gerekli

Zaman serisi mevsimselliğini ayarlayın. Mevsimsellik -1 olarak ayarlanırsa, çıkarsanır. use_stl ayarlanmadıysa, bu parametre kullanılmaz. Bu ayar kullanım dışı bırakılıyor. Lütfen bunun yerine forecasting_parameters kullanın.

short_series_handling_configuration: str

Gerekli

AutoML'nin kısa zaman serisini nasıl işleyeceklerini tanımlayan parametre.

Olası değerler: 'auto' (varsayılan), 'pad', 'drop' ve None.

uzun seri yoksa otomatik kısa seriler doldurulur, aksi takdirde kısa seriler bırakılır.
tuş takımı tüm kısa seriler doldurulacaktır.
tüm kısa seriler bırakılacaktır".
Hiçbiri kısa seri değiştirilmez. 'pad' olarak ayarlanırsa, tablo regresyonlar için sıfırlar ve boş değerlerle ve verilen zaman serisi kimliği için ortalama hedef değer ortanca değerine eşit olan hedef için rastgele değerlerle doldurulur. Ortanca değer sıfırdan büyük veya sıfıra eşitse, minimum doldurulmuş değer sıfıra kırpılır: Giriş:

Date

numeric_value

Dize

Hedef

2020-01-01

green

En az değer sayısının dört olduğunu varsayarsak çıkış: +————+—————+———-+—–+ | Tarih | numeric_value | dize | target | +============+===============+==========+========+ | 2019-12-29 | 0 | NA | 55.1 | +————+—————+———-+——–+ | 2019-12-30 | 0 | NA | 55.6 | +————+—————+———-+——–+ | 2019-12-31 | 0 | NA | 54.5 | +————+—————+———-+——–+ | 2020-01-01 | 23 | yeşil | 55 | +————+—————+———-+——–+

Işleme

handling_configuration

sonuç işleme

sonuç handling_configuration

Doğru

auto

Doğru

auto

Doğru

Pad

Doğru

auto

Doğru

drop

Doğru

auto

Doğru

Hiçbiri

Yanlış

Hiçbiri

Yanlış

auto

Yanlış

Hiçbiri

Yanlış

Pad

Yanlış

Hiçbiri

Yanlış

drop

Yanlış

Hiçbiri

Yanlış

Hiçbiri

Yanlış

Hiçbiri

freq: str veya None

Gerekli

Tahmin sıklığı.

target_aggregation_function: str veya None

Gerekli

Frekans

target_aggregation_function

Veri düzenliliği düzeltme mekanizması

Hiçbiri (Varsayılan)

Toplama uygulanmaz. Geçerli sıklık belirlenemezse hata oluşturulur.

Bazı Değerler

Hiçbiri (Varsayılan)

Toplama uygulanmaz. Verilen sıklık kılavuzuyla uyumlu veri noktası sayısı daha azsa bu noktalar %90 kaldırılır, aksi takdirde hata oluşur.

Hiçbiri (Varsayılan)

Toplama işlevi

Eksik sıklık parametresiyle ilgili hata tetiklenmiş.

Bazı Değerler

Toplama işlevi

providedaggregation işlevini kullanarak sıklık olarak toplama.

enable_voting_ensemble: bool

Gerekli

VotingEnsemble yinelemesini etkinleştirme/devre dışı bırakma. Varsayılan değer True'dur. Topluluklar hakkında daha fazla bilgi için bkz. Grup yapılandırması.

enable_stack_ensemble: bool

Gerekli

StackEnsemble yinelemesini etkinleştirme/devre dışı bırakma. Varsayılan değer Yok'tır. enable_onnx_compatible_models bayrağı ayarlanıyorsa StackEnsemble yinelemesi devre dışı bırakılır. Benzer şekilde, Timeseries görevleri için StackEnsemble yinelemesi, meta öğrenciyi sığdırmak için kullanılan küçük eğitim kümesi nedeniyle fazla uygunluk risklerinden kaçınmak için varsayılan olarak devre dışı bırakılır. Topluluklar hakkında daha fazla bilgi için bkz. Grup yapılandırması.

debug_log: str

Gerekli

Hata ayıklama bilgilerini yazacak günlük dosyası. Belirtilmezse , 'automl.log' kullanılır.

training_data: DataFrame veya Dataset veya DatasetDefinition veya TabularDataset

Gerekli

Deneme içinde kullanılacak eğitim verileri. Hem eğitim özelliklerini hem de etiket sütununu (isteğe bağlı olarak örnek ağırlıklar sütunu) içermelidir. belirtilirse training_data parametresinin label_column_name de belirtilmesi gerekir.

training_data sürüm 1.0.81'de kullanıma sunulmuştur.

validation_data: DataFrame veya Dataset veya DatasetDefinition veya TabularDataset

Gerekli

Deneme içinde kullanılacak doğrulama verileri. Hem eğitim özelliklerini hem de etiket sütununu (isteğe bağlı olarak bir örnek ağırlık sütunu) içermelidir. belirtilirse validation_datatraining_data ve label_column_name parametreleri belirtilmelidir.

validation_data sürüm 1.0.81'de kullanıma sunulmuştur. Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.

test_data: Dataset veya TabularDataset

Gerekli

Test veri kümelerini veya test veri bölmelerini kullanan Model Testi özelliği, Önizleme durumundaki bir özelliktir ve herhangi bir zamanda değişebilir. Model eğitimi tamamlandıktan sonra otomatik olarak başlatılacak bir test çalıştırması için kullanılacak test verileri. Test çalıştırması en iyi modeli kullanarak tahminleri alır ve bu tahminler göz önüne alındığında ölçümleri hesaplar.

test_size: float

Gerekli

Test veri kümelerini veya test veri bölmelerini kullanan Model Testi özelliği, Önizleme durumundaki bir özelliktir ve herhangi bir zamanda değişebilir. Model eğitimi tamamlandıktan sonra otomatik olarak başlatılacak bir test çalıştırması için test verileri için tutulacak eğitim verilerinin ne kadarı. Test çalıştırması en iyi modeli kullanarak tahminleri alır ve bu tahminler göz önüne alındığında ölçümleri hesaplar.

Bu değer 0,0 ile 1,0 arasında olmalıdır ve bunlar dahil değildir. ile aynı zamanda validation_sizebelirtilirsetest_size, doğrulama verileri bölünmeden önce test verileri'nden training_data bölünür. Örneğin, ve özgün eğitim verileri 1000 satır içeriyorsavalidation_size=0.1test_size=0.1, test verileri 100 satıra sahip olur, doğrulama verileri 90 satır içerir ve eğitim verileri 810 satır içerir.

Regresyon tabanlı görevler için rastgele örnekleme kullanılır. Sınıflandırma görevleri için katmanlı örnekleme kullanılır. Tahmin şu anda eğitim/test bölme kullanarak test veri kümesi belirtmeyi desteklememektedir.

Bu parametre veya test_data parametre belirtilmezse, model eğitimi tamamlandıktan sonra hiçbir test çalıştırması otomatik olarak yürütülmeyecektir.

label_column_name: Union[str, int]

Gerekli

Etiket sütununun adı. Giriş verileri bir pandas'tan alınıyorsa. Sütun adları olmayan DataFrame, bunun yerine tamsayı olarak ifade edilen sütun dizinleri kullanılabilir.

Bu parametre, validation_data ve test_data parametreleri için training_datageçerlidir. label_column_name sürüm 1.0.81'de kullanıma sunulmuştur.

weight_column_name: Union[str, int]

Gerekli

Örnek ağırlık sütununun adı. Otomatik ML, giriş olarak ağırlıklı bir sütunu destekler ve bu da verilerdeki satırların yukarı veya aşağı ağırlıklı olmasına neden olur. Giriş verileri bir pandas'tan alınıyorsa. Sütun adları olmayan DataFrame, bunun yerine tamsayı olarak ifade edilen sütun dizinleri kullanılabilir.

Bu parametre ve validation_data parametreleri için training_data geçerlidir. weight_column_names sürüm 1.0.81'de kullanıma sunulmuştur.

cv_split_column_names: list(str)

Gerekli

Özel çapraz doğrulama bölmesini içeren sütunların adları listesi. CV bölme sütunlarının her biri, her satırın eğitim için 1 veya doğrulama için 0 olarak işaretlendiği bir CV bölmesini temsil eder.

Bu parametre, özel çapraz doğrulama amacıyla parametre için training_data geçerlidir. cv_split_column_names sürüm 1.6.0'da kullanıma sunulmuştur

cv_split_column_names veya cv_splits_indiceskullanın.

Daha fazla bilgi için bkz . Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.

enable_local_managed: bool

Gerekli

Devre dışı parametresi. Yerel yönetilen çalıştırmalar şu anda etkinleştirilemiyor.

enable_dnn: bool

Gerekli

Model seçimi sırasında DNN tabanlı modellerin dahil edilip edilmeyeceği. init içindeki varsayılan değer Yok'tır. Ancak, varsayılan değer DNN NLP görevleri için True ve diğer tüm AutoML görevleri için False'tur.

Açıklamalar

Aşağıdaki kod, AutoMLConfig nesnesi oluşturmanın ve regresyon için deneme göndermenin temel bir örneğini gösterir:


   automl_settings = {
       "n_cross_validations": 3,
       "primary_metric": 'r2_score',
       "enable_early_stopping": True,
       "experiment_timeout_hours": 1.0,
       "max_concurrent_iterations": 4,
       "max_cores_per_iteration": -1,
       "verbosity": logging.INFO,
   }

   automl_config = AutoMLConfig(task = 'regression',
                               compute_target = compute_target,
                               training_data = train_data,
                               label_column_name = label,
                               **automl_settings
                               )

   ws = Workspace.from_config()
   experiment = Experiment(ws, "your-experiment-name")
   run = experiment.submit(automl_config, show_output=True)

Regresyon'da tam bir örnek mevcuttur

Tahmin için AutoMLConfig kullanma örnekleri şu not defterlerinde verilmiştir:

Tüm görev türleri için AutoMLConfig kullanma örnekleri bu otomatik ML not defterlerinde bulunabilir.

Otomatik ML arka planı için makalelere bakın:

Makine öğrenmesi görevi tanımlama
Python'da otomatik ML denemelerini yapılandırma. Bu makalede, her görev türü için kullanılan farklı algoritmalar ve birincil ölçümler hakkında bilgi sağlanır.
Zaman serisi tahmin modelini otomatik olarak eğitin. Bu makalede, tahminde hangi oluşturucu parametrelerinin kullanıldığı ve **kwargs kullanıldığı hakkında bilgiler yer alır.

Otomatik makine öğrenmesi, AutoML ve denemeleriniz için eğitim/doğrulama veri bölmelerini ve çapraz doğrulamayı yapılandırmaya yönelik farklı seçenekler hakkında daha fazla bilgi için bkz. Otomatik makine öğrenmesinde veri bölmelerini ve çapraz doğrulamayı yapılandırma.

Yöntemler

as_serializable_dict	Nesneyi sözlüğe dönüştürün.
get_supported_dataset_languages	ISO 639-3'te desteklenen dilleri ve ilgili dil kodlarını alın.

as_serializable_dict

Nesneyi sözlüğe dönüştürün.

as_serializable_dict() -> Dict[str, Any]

get_supported_dataset_languages

ISO 639-3'te desteklenen dilleri ve ilgili dil kodlarını alın.

get_supported_dataset_languages(use_gpu: bool) -> Dict[Any, Any]

Parametreler

cls

Gerekli

sınıf nesnesi AutoMLConfig.

use_gpu

Gerekli

gpu işleminin kullanılıp kullanılmadığını gösteren boole değeri.

Döndürülenler

{: } biçiminin sözlüğü. Dil kodu ISO 639-3 standardına uygun, lütfen https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes

AutoMLConfig Sınıf

Oluşturucu

Parametreler

Açıklamalar

Yöntemler

as_serializable_dict

get_supported_dataset_languages

Parametreler

Döndürülenler

Geri Bildirim

Geri Bildirim

Ek kaynaklar