Bagikan melalui


Skema YAML pekerjaan Prakiraan ML Otomatis CLI (v2)

BERLAKU UNTUK:Ekstensi ml Azure CLI v2 (saat ini)

Skema JSON sumber dapat ditemukan di https://azuremlschemas.azureedge.net/latest/autoMLForecastingJob.schema.json

Catatan

Sintaks YAML yang dirinci dalam dokumen ini didasarkan pada skema JSON untuk versi terbaru ekstensi CLI v2 ML. Sintaks ini dijamin hanya berfungsi dengan versi terbaru ekstensi CLI v2 ML. Anda dapat menemukan skema untuk versi ekstensi yang lebih lama di https://azuremlschemasprod.azureedge.net/.

Sintaks YAML

Kunci Jenis Deskripsi Nilai yang diizinkan Nilai default
$schema string Lokasi/url untuk memuat skema YAML.
Jika pengguna menggunakan ekstensi Visual Studio Code Azure Machine Learning untuk menulis file YAML, termasuk $schema di bagian atas file memungkinkan pengguna untuk memanggil skema dan penyelesaian sumber daya.
compute string Diperlukan.
Nama infrastruktur komputasi AML untuk menjalankan pekerjaan.
Komputasi dapat berupa referensi ke komputer komputasi yang ada di ruang kerja
Catatan: pekerjaan dalam alur tidak mendukung 'lokal' sebagai compute. 'lokal' di sini berarti bahwa instans komputasi yang dibuat di ruang kerja studio Azure Machine Learning pengguna.
1. pola [^azureml:<compute_name>] untuk menggunakan komputasi yang ada,
2.'local' untuk menggunakan eksekusi lokal
'local'
limits objek Mewakili objek kamus yang terdiri dari konfigurasi batas pekerjaan tabular ML Otomatis.
Kuncinya adalah nama untuk batas dalam konteks pekerjaan dan nilainya adalah nilai batas. Lihat batasan untuk mengetahui properti objek ini.
name string Nama pekerjaan ML Otomatis yang dikirimkan.
Ini harus unik di semua pekerjaan di ruang kerja. Jika tidak ditentukan, Azure Machine Learning secara otomatis membuat GUID untuk namanya.
description string Penjabaran dari pekerjaan ML Otomatis.
display_name string Nama pekerjaan yang ingin ditampilkan pengguna di antarmuka pengguna studio. Ini bisa tidak unik dalam ruang kerja. Jika dihilangkan, Azure Machine Learning secara otomatis menghasilkan pengidentifikasi kata sifat yang dapat dibaca manusia untuk nama tampilan.
experiment_name string Nama Eksperimen.
Eksperimen adalah catatan pekerjaan pelatihan ML Anda di Azure. Eksperimen berisi hasil eksekusi Anda, bersama dengan log, bagan, dan grafik. Setiap rekaman eksekusi pekerjaan diatur di bawah eksperimen yang sesuai di tab "Eksperimen" studio.
Nama direktori kerja tempat direktori tersebut dibuat
environment_variables objek Objek kamus variabel lingkungan untuk diatur pada proses di mana perintah sedang dijalankan.
outputs objek Mewakili kamus konfigurasi output pekerjaan. Kunci adalah nama untuk output dalam konteks pekerjaan dan nilai adalah konfigurasi output. Lihat output pekerjaan untuk mengetahui properti objek ini.
log_files objek Objek kamus yang berisi log eksekusi pekerjaan ML Otomatis
log_verbosity string Tingkat verbositas log untuk menulis ke file log.
Nilai yang dapat diterima didefinisikan dalam pustaka pengelogan Python.
'not_set', 'debug', 'info', 'warning', 'error', 'critical' 'info'
type const Diperlukan.
Jenis pekerjaan.
automl automl
task const Diperlukan.
Jenis tugas ML Otomatis yang akan dijalankan.
forecasting forecasting
target_column_name string Diperlukan.
Mewakili nama kolom yang akan diperkirakan. Pekerjaan ML Otomatis menimbulkan kesalahan jika tidak ditentukan.
featurization objek Objek kamus yang menentukan konfigurasi fiturisasi kustom. Jika tidak dibuat, konfigurasi ML Otomatis menerapkan fiturisasi otomatis. Lihat fiturisasi untuk melihat properti objek ini.
forecasting objek Objek kamus yang menentukan pengaturan pekerjaan prakiraan. Lihat prakiraan untuk mengetahui properti objek ini.
n_cross_validations string atau bilangan bulat Jumlah validasi silang yang akan dilakukan selama pemilihan model/alur jika validation_data tidak ditentukan.
Jika dan validation_data parameter ini tidak disediakan atau diatur ke None, maka Pekerjaan ML otomatis mengaturnya ke auto secara default. distributed_featurization Jika diaktifkan dan validation_data tidak ditentukan, maka diatur ke 2 secara default.
'auto', [int] None
primary_metric string Metrik yang dioptimalkan ML Otomatis untuk pemilihan model Prakiraan Time Series.
Jika allowed_training_algorithms memiliki 'tcn_forecaster' untuk digunakan untuk pelatihan, maka ML Otomatis hanya mendukung di 'normalized_root_mean_squared_error' dan 'normalized_mean_absolute_error' untuk digunakan sebagai primary_metric.
"spearman_correlation", "normalized_root_mean_squared_error", "r2_score""normalized_mean_absolute_error" "normalized_root_mean_squared_error"
training objek Objek kamus yang menentukan konfigurasi yang digunakan dalam pelatihan model.
Periksa pelatihan untuk mengetahui properti objek ini.
training_data objek Diperlukan
Objek kamus yang berisi konfigurasi MLTable yang menentukan data pelatihan yang akan digunakan sebagai input untuk pelatihan model. Data ini adalah subset data dan harus terdiri dari fitur/kolom independen dan fitur/kolom target. Pengguna dapat menggunakan MLTable terdaftar di ruang kerja menggunakan format ':' (misalnya Input(mltable='my_mltable:1')) ATAU dapat menggunakan file atau folder lokal sebagai MLTable(misalnya Input(mltable=MLTable(local_path="./data")). Objek ini harus disediakan. Jika fitur target tidak ada dalam file sumber, maka ML Otomatis akan menampilkan kesalahan. Periksa pelatihan atau validasi atau data pengujian untuk mengetahui properti objek ini.
validation_data objek Objek kamus yang berisi konfigurasi MLTable yang menentukan data validasi yang akan digunakan dalam eksperimen ML Otomatis untuk validasi silang. Ini harus terdiri dari fitur/kolom independen dan fitur/kolom target jika objek ini disediakan. Sampel dalam data pelatihan dan data validasi tidak dapat tumpang tindih dalam lipatan.
Lihat data pelatihan atau validasi atau pengujian untuk mengetahui properti objek ini. Jika objek ini tidak ditentukan, maka ML Otomatis menggunakan n_cross_validations untuk memisahkan data validasi dari data pelatihan yang ditentukan dalam training_data objek.
test_data objek Objek kamus yang berisi konfigurasi MLTable yang menentukan data pengujian yang akan digunakan dalam uji coba untuk prediksi dalam menggunakan model terbaik dan mengevaluasi model menggunakan metrik yang ditentukan. Ini harus terdiri dari hanya fitur independen yang digunakan dalam data pelatihan (tanpa fitur target) jika objek ini disediakan.
Periksa data pelatihan atau validasi atau pengujian untuk mengetahui properti objek ini. Jika tidak disediakan, maka ML Otomatis menggunakan metode bawaan lainnya untuk menyarankan model terbaik untuk digunakan untuk inferensi.

batas

Kunci Jenis Deskripsi Nilai yang diizinkan Nilai default
enable_early_termination boolean Mewakili apakah akan mengaktifkan penghentian eksperimen jika skor kerugian tidak membaik setelah jumlah perulangan 'x'.
Dalam pekerjaan ML Otomatis, tidak ada penghentian awal yang diterapkan pada 20 iterasi pertama. Jendela pemberhentian awal dimulai hanya setelah 20 iterasi pertama.
true, false true
max_concurrent_trials bilangan bulat Jumlah maksimum uji coba (pekerjaan anak) yang akan dijalankan secara paralel. Sangat disarankan untuk mengatur jumlah eksekusi bersamaan ke jumlah simpul dalam kluster (komputasi aml yang ditentukan dalam compute). 1
max_trials bilangan bulat Mewakili jumlah maksimum uji coba yang dapat dicoba oleh pekerjaan ML Otomatis untuk menjalankan algoritma pelatihan dengan kombinasi hiperparameter yang berbeda. Nilai defaultnya diatur ke 1000. Jika enable_early_termination ditentukan, maka jumlah uji coba yang digunakan untuk menjalankan algoritma pelatihan bisa lebih kecil. 1000
max_cores_per_trial bilangan bulat Mewakili jumlah maksimum inti per yang tersedia untuk digunakan oleh setiap percobaan. Nilai defaultnya diatur ke -1, yang berarti semua inti digunakan dalam proses. -1
timeout_minutes bilangan bulat Jumlah waktu maksimum dalam menit yang dapat diambil oleh pekerjaan ML Otomatis yang dikirimkan untuk dijalankan. Setelah jumlah waktu yang ditentukan, pekerjaan dihentikan. Batas waktu ini mencakup penyiapan, fiturisasi, eksekusi pelatihan, ansambel, dan kemampuan penjelasan model (jika disediakan) dari semua uji coba.
Perhatikan bahwa itu tidak termasuk ansambel dan penjelasan model berjalan di akhir proses jika pekerjaan gagal diselesaikan dalam disediakan timeout_minutes karena fitur-fitur ini tersedia setelah semua uji coba (pekerjaan anak-anak) selesai.
Nilai defaultnya diatur ke 360 menit (6 jam). Untuk menentukan batas waktu kurang dari atau sama dengan 1 jam (60 menit), pengguna harus memastikan ukuran himpunan data tidak lebih besar dari 10.000.000 (kolom waktu baris) atau hasil kesalahan.
360
trial_timeout_minutes bilangan bulat Jumlah waktu maksimum dalam menit yang dapat dijalankan oleh setiap percobaan (pekerjaan anak) dalam pekerjaan ML Otomatis yang dikirimkan. Setelah jumlah waktu yang ditentukan, pekerjaan anak akan dihentikan. 30
exit_score float Skor yang dicapai oleh eksperimen. Eksperimen berakhir setelah skor yang ditentukan tercapai. Jika tidak ditentukan (tidak ada kriteria), eksperimen berjalan sampai tidak ada kemajuan lebih lanjut yang dibuat pada yang ditentukan primary metric.

Peramalan

Kunci Jenis Deskripsi Nilai yang diizinkan Nilai default
time_column_name string Diperlukan
Nama kolom dalam himpunan data yang sesuai dengan sumbu waktu setiap rangkaian waktu. Himpunan data input untuk pelatihan, validasi, atau pengujian harus berisi kolom ini jika tugasnya adalah forecasting. Jika tidak disediakan atau diatur ke None, Pekerjaan prakiraan ML otomatis melemparkan kesalahan dan mengakhiri eksperimen.
forecast_horizon string atau bilangan bulat Cakrawala prakiraan maksimum dalam satuan frekuensi rangkaian waktu. Unit-unit ini didasarkan pada interval waktu yang disimpulkan dari data pelatihan Anda, (Misalnya: bulanan, mingguan) yang digunakan prakiraan untuk memprediksi. Jika diatur ke Tidak Ada atau auto, maka nilai defaultnya diatur ke 1, yang berarti 't+1' dari tanda waktu terakhir t dalam data input. auto, [int] 1
frequency untai (karakter) Frekuensi di mana pembuatan prakiraan diinginkan, misalnya harian, mingguan, tahunan, dll.
Jika tidak ditentukan atau diatur ke Tidak Ada, maka nilai defaultnya disimpulkan dari indeks waktu himpunan data. Pengguna dapat mengatur nilainya lebih besar dari frekuensi yang disimpulkan himpunan data, tetapi tidak kurang dari itu. Misalnya, jika frekuensi himpunan data adalah harian, itu dapat mengambil nilai seperti harian, mingguan, bulanan, tetapi tidak per jam karena per jam kurang dari harian (24 jam).
Lihat dokumentasi panda untuk informasi selengkapnya.
None
time_series_id_column_names string atau daftar(string) Nama kolom dalam data yang akan digunakan untuk mengelompokkan data ke dalam beberapa rangkaian waktu. Jika time_series_id_column_names tidak ditentukan atau diatur ke Tidak Ada, ML Otomatis menggunakan logika deteksi otomatis untuk mendeteksi kolom. None
feature_lags string Mewakili apakah pengguna ingin menghasilkan jeda secara otomatis untuk fitur numerik yang disediakan. Default diatur ke auto, yang berarti bahwa ML Otomatis menggunakan heuristik berbasis korelasi otomatis untuk secara otomatis memilih pesanan jeda dan menghasilkan fitur jeda yang sesuai untuk semua fitur numerik. "None" berarti tidak ada jeda yang dihasilkan untuk fitur numerik apa pun. 'auto', None None
country_or_region_for_holidays string Negara atau wilayah yang akan digunakan untuk menghasilkan fitur liburan. Karakter ini harus diwakili dalam kode negara/wilayah dua huruf ISO 3166, misalnya 'AS' atau 'GB'. Daftar kode ISO dapat ditemukan di https://wikipedia.org/wiki/List_of_ISO_3166_country_codes. None
cv_step_size string atau bilangan bulat Jumlah titik antara origin_time satu lipatan CV dan lipatan berikutnya. Misalnya, jika diatur ke 3 untuk data harian, waktu asal untuk setiap lipatan terpisah tiga hari. Jika diatur ke Tidak Ada atau tidak ditentukan, maka diatur ke auto secara default. Jika berjenis bilangan bulat, nilai minimum yang dapat diambil adalah 1 jika tidak, itu menimbulkan kesalahan. auto, [int] auto
seasonality string atau bilangan bulat Musiman rangkaian waktu sebagai kelipatan bilangan bulat dari frekuensi seri. Jika musiman tidak ditentukan, nilainya diatur ke 'auto', yang berarti disimpulkan secara otomatis oleh ML Otomatis. Jika parameter ini tidak diatur ke None, ML Otomatis mengasumsikan rangkaian waktu sebagai non-musiman, yang setara dengan mengaturnya sebagai nilai bilangan bulat 1. 'auto', [int] auto
short_series_handling_config string Mewakili bagaimana ML Otomatis harus menangani rangkaian waktu singkat jika ditentukan. Dibutuhkan nilai berikut:
  • 'auto' : seri pendek di-padding jika tidak ada seri panjang, jika tidak, seri pendek dihilangkan.
  • 'pad': semua seri pendek dilapisi dengan nol.
  • 'drop': semua seri pendek dihilangkan.
  • None: seri pendek tidak dimodifikasi.
    'auto', 'pad', 'drop', None auto
    target_aggregate_function string Mewakili fungsi agregat yang akan digunakan untuk mengagregasi kolom target dalam rangkaian waktu dan menghasilkan perkiraan pada frekuensi yang ditentukan (ditentukan dalam freq). Jika parameter ini diatur, tetapi freq parameter tidak diatur, maka kesalahan akan muncul. Ini dihilangkan atau diatur ke Tidak Ada, maka tidak ada agregasi yang diterapkan. 'sum', 'max', 'min', 'mean' auto
    target_lags string atau bilangan bulat atau daftar(bilangan bulat) Jumlah periode masa lalu/historis yang digunakan untuk tertinggal dari nilai target berdasarkan frekuensi himpunan data. Secara default, parameter ini dinonaktifkan. Pengaturan ini 'auto' memungkinkan sistem untuk menggunakan lag berbasis heuristik otomatis.
    Properti jeda ini harus digunakan ketika hubungan antara variabel independen dan variabel dependen tidak berkorelasi secara default. Untuk informasi selengkapnya, lihat Fitur tertinggal untuk prakiraan rangkaian waktu di ML Otomatis.
    'auto', [int] None
    target_rolling_window_size string atau bilangan bulat Jumlah pengamatan sebelumnya yang digunakan untuk membuat rata-rata jendela bergulir dari kolom target. Saat melakukan prakiraan, parameter ini mewakili periode historis n yang digunakan untuk menghasilkan nilai yang diperkirakan, <= ukuran set pelatihan. Jika dihilangkan, n adalah ukuran set pelatihan penuh. Tentukan parameter ini ketika Anda hanya ingin mempertimbangkan sejumlah riwayat tertentu saat melatih model. 'auto'Integer None None
    use_stl string Komponen yang dihasilkan dengan menerapkan dekompresi STL pada rangkaian waktu. Jika tidak disediakan atau diatur ke Tidak Ada, tidak ada komponen rangkaian waktu yang dihasilkan.
    use_stl dapat mengambil dua nilai:
    'season' : untuk menghasilkan komponen musiman.
    'season_trend' : untuk menghasilkan ML otomatis musim dan komponen tren.
    'season', 'seasontrend' None

    pelatihan atau validasi atau data pengujian

    Kunci Jenis Deskripsi Nilai yang diizinkan Nilai default
    datastore string Nama datastore tempat data diunggah oleh pengguna.
    path string Jalur dari mana data harus dimuat. Ini bisa menjadi file jalur, jalur, folder atau pattern untuk jalur.
    pattern menentukan pola pencarian untuk memungkinkan globbing(* dan **) file dan folder yang berisi data. Jenis URI yang didukung adalah azureml, https, wasbs, abfss, dan adl. Untuk informasi selengkapnya, lihat Sintaks yaml inti untuk memahami cara menggunakan azureml:// format URI. URI lokasi file artefak. Jika URI ini tidak memiliki skema (misalnya, http:, azureml: dll.), maka URI ini dianggap sebagai referensi lokal dan file yang ditujukan untuk diunggah ke penyimpanan blob ruang kerja default saat entitas dibuat.
    type const Jenis data input. Untuk menghasilkan model visi komputer, pengguna perlu membawa data gambar berlabel sebagai input untuk pelatihan model dalam bentuk MLTable. mltable mltable

    Pelatihan

    Kunci Jenis Deskripsi Nilai yang diizinkan Nilai default
    allowed_training_algorithms list(string) Daftar algoritma Time Series Forecasting untuk dicoba sebagai model dasar untuk pelatihan model dalam eksperimen. Jika dihilangkan atau diatur ke Tidak Ada, maka semua algoritma yang didukung digunakan selama eksperimen, kecuali algoritma yang ditentukan dalam blocked_training_algorithms. 'auto_arima', 'prophet', 'naive','seasonal_naive', 'average', 'seasonal_average', 'exponential_smoothing', 'arimax', 'tcn_forecaster', 'elastic_net', 'gradient_boosting', 'decision_tree', 'knn', 'lasso_lars', 'sgd', 'random_forest', 'extreme_random_trees', 'light_gbm', 'xg_boost_regressor' None
    blocked_training_algorithms list(string) Daftar algoritma Time Series Forecasting untuk tidak berjalan sebagai model dasar saat pelatihan model dalam eksperimen. Jika dihilangkan atau diatur ke Tidak Ada, maka semua algoritma yang didukung digunakan selama pelatihan model. 'auto_arima', 'prophet', 'naive', 'seasonal_naive', 'average', 'seasonal_average', 'exponential_smoothing', 'arimax','tcn_forecaster', 'elastic_net', 'gradient_boosting', 'decision_tree', 'knn', 'lasso_lars', 'sgd', 'random_forest', 'extreme_random_trees', 'light_gbm', 'xg_boost_regressor' None
    enable_dnn_training boolean Bendera untuk mengaktifkan atau menonaktifkan penyertaan model berbasis DNN untuk dicoba selama pemilihan model. True, False False
    enable_model_explainability boolean Mewakili bendera untuk mengaktifkan kemampuan penjelasan model seperti kepentingan fitur, dari model terbaik yang dievaluasi oleh sistem ML Otomatis. True, False True
    enable_vote_ensemble boolean Bendera untuk mengaktifkan atau menonaktifkan ansambel beberapa model dasar menggunakan algoritma Voting. Untuk informasi selengkapnya tentang ansambel, lihat Menyiapkan Pelatihan otomatis. true, false true
    enable_stack_ensemble boolean Bendera untuk mengaktifkan atau menonaktifkan ansambel dari beberapa model dasar menggunakan algoritma Stacking. Dalam tugas prakiraan, bendera ini dimatikan secara default, untuk menghindari risiko overfitting karena set pelatihan kecil yang digunakan dalam menyesuaikan pelajar meta. Untuk informasi selengkapnya tentang ansambel, lihat Menyiapkan Pelatihan otomatis. true, false false

    fiturisasi

    Kunci Jenis Deskripsi Nilai yang diizinkan Nilai default
    mode string Mode fiturisasi yang akan digunakan oleh pekerjaan ML Otomatis.
    Mengaturnya ke:
    'auto' menunjukkan apakah langkah fiturisasi harus dilakukan secara otomatis
    'off' menunjukkan tidak ada fiturisasi<'custom' yang menunjukkan apakah fiturisasi yang disesuaikan harus digunakan.

    Catatan: Jika data inputnya merupakan data sparse, featurization tidak dapat diaktifkan.
    'auto', 'off', 'custom' None
    blocked_transformers list(string) Daftar nama transformator yang akan diblokir selama langkah fiturisasi oleh ML Otomatis, jika fiturisasi mode diatur ke 'kustom'. 'text_target_encoder', 'one_hot_encoder', 'cat_target_encoder', 'tf_idf', 'wo_e_target_encoder', 'label_encoder', 'word_embedding', 'naive_bayes', 'count_vectorizer', 'hash_one_hot_encoder' None
    column_name_and_types objek Objek kamus yang terdiri dari nama kolom sebagai kunci dict dan jenis fitur yang digunakan untuk memperbarui tujuan kolom sebagai nilai terkait, jika fiturisasi mode diatur ke 'kustom'.
    transformer_params objek Objek kamus berlapis yang terdiri dari nama transformator sebagai kunci dan parameter kustomisasi yang sesuai pada kolom himpunan data untuk fiturisasi, jika fiturisasi mode diatur ke 'kustom'.
    Prakiraan hanya mendukung transformator untuk penyesuaian imputer .
    Lihat column_transformers untuk mengetahui cara membuat parameter kustomisasi.
    None

    column_transformers

    Kunci Jenis Deskripsi Nilai yang diizinkan Nilai default
    fields list(string) Daftar nama kolom yang disediakan transformer_params harus diterapkan.
    parameters objek Objek kamus yang terdiri dari 'strategi' sebagai kunci dan nilai sebagai strategi imputasi.
    Detail selengkapnya tentang bagaimana hal itu dapat disediakan, disediakan dalam contoh di sini.

    Output pekerjaan

    Kunci Jenis Deskripsi Nilai yang diizinkan Nilai default
    type string Jenis output pekerjaan. Untuk jenis default uri_folder , output sesuai dengan folder. uri_folder , mlflow_model, custom_model uri_folder
    mode string Mode bagaimana file output dikirimkan ke penyimpanan tujuan. Untuk mode pemasangan baca-tulis (rw_mount) direktori output adalah direktori yang dipasang. Untuk mode unggah, file yang ditulis diunggah di akhir pekerjaan. rw_mount, upload rw_mount

    Cara menjalankan pekerjaan prakiraan melalui CLI

    az ml job create --file [YOUR_CLI_YAML_FILE] --workspace-name [YOUR_AZURE_WORKSPACE] --resource-group [YOUR_AZURE_RESOURCE_GROUP] --subscription [YOUR_AZURE_SUBSCRIPTION]