DatabricksStep Kelas

Referensi

Membuat langkah Alur Azure Machine Learning untuk menambahkan buku catatan DataBricks, skrip Python, atau JAR sebagai node.

Untuk contoh penggunaan DatabricksStep, lihat notebook https://aka.ms/pl-databricks.

Buat langkah Alur Azure ML untuk menambahkan buku catatan DataBricks, skrip Python, atau JAR sebagai simpul.

Untuk contoh penggunaan DatabricksStep, lihat notebook https://aka.ms/pl-databricks.

:p aram python_script_name:[Required] Nama skrip Python relatif terhadap source_directory. Jika skrip mengambil input dan output, input dan output tersebut akan diteruskan ke skrip sebagai parameter. Jika python_script_name ditentukan, maka source_directory juga harus ditentukan.

Tentukan salah satu dari notebook_path, python_script_path, python_script_name, atau main_class_name.

Jika Anda menentukan objek DataReference sebagai input dengan data_reference_name=input1 dan objek PipelineData sebagai output dengan name=output1, maka input dan output akan diteruskan ke skrip sebagai parameter. Tampilannya akan terlihat seperti ini dan Anda akan perlu mengurai argumen dalam skrip Anda untuk mengakses jalur setiap input dan output: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Selain itu, parameter berikut akan tersedia dalam skrip:

AZUREML_RUN_TOKEN: Token AML untuk mengautentikasi dengan Azure Machine Learning.
AZUREML_RUN_TOKEN_EXPIRY: Waktu kedaluwarsa token AML.
AZUREML_RUN_ID: ID Eksekusi Azure Machine Learning untuk eksekusi ini.
AZUREML_ARM_SUBSCRIPTION: Langganan Azure untuk ruang kerja AML Anda.
AZUREML_ARM_RESOURCEGROUP: Grup sumber daya Azure untuk ruang kerja Azure Machine Learning Anda.
AZUREML_ARM_WORKSPACE_NAME: Nama ruang kerja Azure Machine Learning Anda.
AZUREML_ARM_PROJECT_NAME: Nama eksperimen Azure Machine Learning Anda.
AZUREML_SERVICE_ENDPOINT: URL titik akhir untuk layanan AML.
AZUREML_WORKSPACE_ID: ID ruang kerja Azure Machine Learning Anda.
AZUREML_EXPERIMENT_ID: ID eksperimen Azure Machine Learning Anda.
AZUREML_SCRIPT_DIRECTORY_NAME: Jalur direktori di DBFS tempat source_directory disalin.

  (This parameter is only populated when `python_script_name` is used.  See more details below.)

Saat Anda menjalankan skrip Python dari komputer lokal Anda di Databricks menggunakan parameter source_directory dan python_script_name DatabricksStep, source_directory Anda disalin ke DBFS dan jalur direktori pada DBFS diteruskan sebagai parameter ke skrip Anda saat memulai eksekusi. Parameter ini diberi label sebagai –AZUREML_SCRIPT_DIRECTORY_NAME. Anda perlu mengawalinya dengan string "dbfs:/" atau "/dbfs/" untuk mengakses direktori di DBFS.

Warisan: azureml.pipeline.core._databricks_step_base._DatabricksStepBase

DatabricksStep

Konstruktor

DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)

Parameter

Nama	Deskripsi
name Diperlukan	str [Diperlukan] Nama langkah tersebut.
inputs	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Daftar koneksi input untuk data yang dikonsumsi oleh langkah ini. Ambil daftar ini dalam buku catatan menggunakan dbutils.widgets.get("input_name"). Dapat berupa DataReference atau PipelineData. DataReference menunjukkan bagian data yang ada di datastore. Pada dasarnya ini adalah jalur di datastore. DatabricksStep mendukung datastore yang merangkum DBFS, Azure blob, atau ADLS v1. PipelineData menunjukkan data perantara yang dihasilkan oleh langkah lain dalam sebuah alur. nilai default: None
outputs	list[Union[OutputPortBinding, PipelineOutputAbstractDataset, PipelineData]] Daftar definisi port output untuk output yang dihasilkan oleh langkah ini. Ambil ini di dalam buku catatan menggunakan dbutils.widgets.get("output_name"). Harus merupakan PipelineData. nilai default: None
existing_cluster_id	str ID kluster dari kluster interaktif yang ada di ruang kerja Databricks. Jika meneruskan parameter ini, Anda tidak dapat meneruskan salah satu parameter berikut yang digunakan untuk membuat kluster baru: spark_version node_type instance_pool_id num_workers min_workers max_workers spark_env_variables spark_conf Catatan: Untuk membuat kluster pekerjaan baru, Anda akan perlu meneruskan parameter di atas. Anda dapat meneruskan parameter ini secara langsung atau Anda dapat meneruskannya sebagai bagian dari objek RunConfiguration menggunakan parameter runconfig. Meneruskan parameter ini secara langsung dan melalui RunConfiguration akan menghasilkan kesalahan. nilai default: None
spark_version	str Versi spark untuk kluster eksekusi Databricks, misalnya: "10.4.x-scala2.12". Untuk informasi selengkapnya, lihat deskripsi untuk parameter `existing_cluster_id`. nilai default: None
node_type	str [Wajib] Jenis node Azure Virtual Machine untuk kluster eksekusi Databricks, misalnya: "Standard_D3_v2". Tentukan antara `node_type` atau `instance_pool_id`. Untuk informasi selengkapnya, lihat deskripsi untuk parameter `existing_cluster_id`. nilai default: None
instance_pool_id	str [Wajib] ID kumpulan instans tempat kluster perlu dilampirkan. Tentukan antara `node_type` atau `instance_pool_id`. Untuk informasi selengkapnya, lihat deskripsi untuk parameter `existing_cluster_id`. nilai default: None
num_workers	int [Wajib] Jumlah statik pekerja untuk kluster eksekusi Databricks. Anda harus menentukan `num_workers` atau keduanya `min_workers` dan `max_workers`. Untuk informasi selengkapnya, lihat deskripsi untuk parameter `existing_cluster_id`. nilai default: None
min_workers	int [Wajib] Jumlah minimum pekerja yang digunakan untuk penskalaan otomatis kluster yang dijalankan Databricks. Anda harus menentukan `num_workers` atau keduanya `min_workers` dan `max_workers`. Untuk informasi selengkapnya, lihat deskripsi untuk parameter `existing_cluster_id`. nilai default: None
max_workers	int [Wajib] Jumlah maksimal pekerja yang akan digunakan untuk penskalaan otomatis kluster yang dijalankan Databricks. Anda harus menentukan `num_workers` atau keduanya `min_workers` dan `max_workers`. Untuk informasi selengkapnya, lihat deskripsi untuk parameter `existing_cluster_id`. nilai default: None
spark_env_variables	dict Variabel lingkungan spark untuk kluster eksekusi Databricks. Untuk informasi selengkapnya, lihat deskripsi untuk parameter `existing_cluster_id`. nilai default: None
spark_conf	dict Konfigurasi spark untuk kluster eksekusi Databricks. Untuk informasi selengkapnya, lihat deskripsi untuk parameter `existing_cluster_id`. nilai default: None
init_scripts	[str] Dihentikan. Databricks mengumumkan skrip init yang disimpan di DBFS akan berhenti berfungsi setelah 1 Des 2023. Untuk mengurangi masalah, silakan 1) gunakan skrip init global di databricks setelah https://learn.microsoft.com/azure/databricks/init-scripts/global 2) komentari baris init_scripts di langkah AzureML databricks Anda. nilai default: None
cluster_log_dbfs_path	str Jalur DBFS tempat log kluster akan dikirimkan. nilai default: None
notebook_path	str [Wajib] Jalur ke buku catatan dalam instans Databricks. Kelas ini memungkinkan empat cara untuk menentukan kode yang akan dieksekusi di kluster Databricks. Untuk menjalankan buku catatan yang ada di ruang kerja Databricks, gunakan: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'} Untuk menjalankan skrip Python yang ada di DBFS, gunakan: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'} Untuk menjalankan JAR yang ada di DBFS, gunakan: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)] Untuk menjalankan skrip Python yang ada di komputer lokal Anda, gunakan: python_script_name=python_script_name, source_directory=source_directory Tentukan salah satu dari `notebook_path`, `python_script_path`, `python_script_name`, atau `main_class_name`. nilai default: None
notebook_params	dict[str, Union[str, PipelineParameter]] Kamus parameter untuk diteruskan ke buku catatan. `notebook_params` tersedia sebagai widget. Anda dapat mengambil nilai dari widget ini di dalam buku catatan menggunakan dbutils.widgets.get("myparam"). nilai default: None
python_script_path	str [Wajib] Jalur ke skrip python di DBFS. Tentukan salah satu dari `notebook_path`, `python_script_path`, `python_script_name`, atau `main_class_name`. nilai default: None
python_script_params	list[str, PipelineParameter] Parameter untuk skrip Python. nilai default: None
main_class_name	str [Wajib] Nama titik entri dalam modul JAR. Tentukan salah satu dari `notebook_path`, `python_script_path`, `python_script_name`, atau `main_class_name`. nilai default: None
jar_params	list[str, PipelineParameter] Parameter untuk modul JAR. nilai default: None
python_script_name	str [Wajib] Nama skrip Python relatif terhadap `source_directory`. Jika skrip mengambil input dan output, input dan output tersebut akan diteruskan ke skrip sebagai parameter. Jika `python_script_name` ditentukan, maka `source_directory` juga harus ditentukan. Tentukan salah satu dari `notebook_path`, `python_script_path`, `python_script_name`, atau `main_class_name`. Jika Anda menentukan objek DataReference sebagai input dengan data_reference_name=input1 dan objek PipelineData sebagai output dengan name=output1, maka input dan output akan diteruskan ke skrip sebagai parameter. Tampilannya akan terlihat seperti ini dan Anda akan perlu mengurai argumen dalam skrip Anda untuk mengakses jalur setiap input dan output: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1" Selain itu, parameter berikut akan tersedia dalam skrip: AZUREML_RUN_TOKEN: Token AML untuk mengautentikasi dengan Azure Machine Learning. AZUREML_RUN_TOKEN_EXPIRY: Waktu kedaluwarsa token AML. AZUREML_RUN_ID: ID Eksekusi Azure Machine Learning untuk eksekusi ini. AZUREML_ARM_SUBSCRIPTION: Langganan Azure untuk ruang kerja AML Anda. AZUREML_ARM_RESOURCEGROUP: Grup sumber daya Azure untuk ruang kerja Azure Machine Learning Anda. AZUREML_ARM_WORKSPACE_NAME: Nama ruang kerja Azure Machine Learning Anda. AZUREML_ARM_PROJECT_NAME: Nama eksperimen Azure Machine Learning Anda. AZUREML_SERVICE_ENDPOINT: URL titik akhir untuk layanan AML. AZUREML_WORKSPACE_ID: ID ruang kerja Azure Machine Learning Anda. AZUREML_EXPERIMENT_ID: ID eksperimen Azure Machine Learning Anda. AZUREML_SCRIPT_DIRECTORY_NAME: Jalur direktori di DBFS tempat source_directory disalin. (Parameter ini hanya diisi saat `python_script_name` digunakan. Lihat detail selengkapnya di bawah ini.) Saat Anda menjalankan skrip Python dari komputer lokal Anda di Databricks menggunakan parameter `source_directory` dan `python_script_name` DatabricksStep, source_directory Anda disalin ke DBFS dan jalur direktori pada DBFS diteruskan sebagai parameter ke skrip Anda saat memulai eksekusi. Parameter ini diberi label sebagai –AZUREML_SCRIPT_DIRECTORY_NAME. Anda perlu mengawalinya dengan string "dbfs:/" atau "/dbfs/" untuk mengakses direktori di DBFS. nilai default: None
source_directory	str Folder yang berisi script dan file lainnya. Jika `python_script_name` ditentukan, maka `source_directory` juga harus ditentukan. nilai default: None
hash_paths	[str] TIDAK DIGUNAKAN LAGI: tidak lagi diperlukan. Daftar jalur ke hash saat memeriksa perubahan ke konten langkah. Jika tidak ada perubahan yang terdeteksi, alur akan menggunakan ulang konten langkah dari eksekusi sebelumnya. Secara default, konten `source_directory` di-hash kecuali untuk file yang terdaftar di .amlignore atau .gitignore. nilai default: None
run_name	str Nama dalam Databricks untuk eksekusi ini. nilai default: None
timeout_seconds	int Batas waktu untuk eksekusi Databricks. nilai default: None
runconfig	RunConfiguration Runconfig yang akan digunakan. Catatan: Anda dapat meneruskan pustaka sebanyak yang Anda inginkan sebagai dependensi ke pekerjaan menggunakan parameter berikut: `maven_libraries`, `pypi_libraries`, `egg_libraries`, `jar_libraries`, atau `rcran_libraries`. Teruskan parameter ini secara langsung dengan parameter terkaitnya atau sebagai bagian dari objek RunConfiguration menggunakan parameter `runconfig`, tetapi tidak keduanya. nilai default: None
maven_libraries	list[MavenLibrary] Pustaka Maven yang akan digunakan untuk eksekusi Databricks. nilai default: None
pypi_libraries	list[PyPiLibrary] Pustaka PyPi yang akan digunakan untuk eksekusi Databricks. nilai default: None
egg_libraries	list[EggLibrary] Pustaka Egg yang akan digunakan untuk eksekusi Databricks. nilai default: None
jar_libraries	list[JarLibrary] Pustaka Jar yang akan digunakan untuk eksekusi Databricks. nilai default: None
rcran_libraries	list[RCranLibrary] Pustaka RCran yang akan digunakan untuk eksekusi Databricks. nilai default: None
compute_target	str, DatabricksCompute [Wajib] Komputasi Azure Databricks. Sebelum Anda dapat menggunakan DatabricksStep untuk menjalankan skrip atau buku catatan di ruang kerja Azure Databricks, Anda perlu menambahkan ruang kerja Azure Databricks sebagai target komputasi ke ruang kerja Azure Machine Learning. nilai default: None
allow_reuse	bool Menunjukkan apakah langkah tersebut harus menggunakan kembali hasil sebelumnya saat dijalankan lagi dengan pengaturan yang sama. Penggunaan kembali diaktifkan secara default. Jika konten langkah (skrip/dependensi) serta input dan parameter tetap tidak berubah, output dari eksekusi sebelumnya dari langkah ini digunakan ulang. Saat menggunakan ulang langkah tersebut, daripada mengirimkan pekerjaan ke komputasi, hasil dari eksekusi sebelumnya segera dibuat tersedia untuk langkah selanjutnya. Jika Anda menggunakan himpunan data Azure Machine Learning sebagai input, penggunaan ulang ditentukan oleh apakah definisi himpunan data telah berubah, bukan oleh apakah data yang mendasarinya telah berubah. nilai default: True
version	str Tag versi opsional untuk menunjukkan perubahan fungsionalitas untuk langkah tersebut. nilai default: None
permit_cluster_restart	bool jika existing_cluster_id ditentukan, parameter ini memberi tahu apakah kluster dapat dimulai ulang atas nama pengguna. nilai default: None
name Diperlukan	str [Diperlukan] Nama langkah tersebut.
inputs Diperlukan	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Daftar koneksi input untuk data yang digunakan oleh langkah ini. Ambil daftar ini dalam buku catatan menggunakan dbutils.widgets.get("input_name"). Dapat berupa DataReference atau PipelineData. DataReference menunjukkan bagian data yang ada di datastore. Pada dasarnya ini adalah jalur di datastore. DatabricksStep mendukung penyimpanan data yang merangkum DBFS, blob Azure, atau ADLS v1. PipelineData menunjukkan data perantara yang dihasilkan oleh langkah lain dalam sebuah alur.
outputs Diperlukan	list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]] Daftar definisi port output untuk output yang dihasilkan oleh langkah ini. Ambil ini di dalam buku catatan menggunakan dbutils.widgets.get("output_name"). Harus merupakan PipelineData.
existing_cluster_id Diperlukan	str ID kluster dari kluster interaktif yang ada di ruang kerja Databricks. Jika meneruskan parameter ini, Anda tidak dapat meneruskan salah satu parameter berikut yang digunakan untuk membuat kluster baru: spark_version node_type instance_pool_id num_workers min_workers max_workers spark_env_variables spark_conf Catatan: Untuk membuat kluster pekerjaan baru, Anda akan perlu meneruskan parameter di atas. Anda dapat meneruskan parameter ini secara langsung atau Anda dapat meneruskannya sebagai bagian dari objek RunConfiguration menggunakan parameter runconfig. Meneruskan parameter ini secara langsung dan melalui RunConfiguration akan menghasilkan kesalahan.
spark_version Diperlukan	str Versi spark untuk kluster eksekusi Databricks, misalnya: "10.4.x-scala2.12". Untuk informasi selengkapnya, lihat deskripsi untuk parameter `existing_cluster_id`.
node_type Diperlukan	str [Wajib] Jenis node Azure Virtual Machine untuk kluster eksekusi Databricks, misalnya: "Standard_D3_v2". Tentukan antara `node_type` atau `instance_pool_id`. Untuk informasi selengkapnya, lihat deskripsi untuk parameter `existing_cluster_id`.
instance_pool_id Diperlukan	str [Wajib] ID kumpulan instans tempat kluster perlu dilampirkan. Tentukan antara `node_type` atau `instance_pool_id`. Untuk informasi selengkapnya, lihat deskripsi untuk parameter `existing_cluster_id`.
num_workers Diperlukan	int [Wajib] Jumlah statik pekerja untuk kluster eksekusi Databricks. Anda harus menentukan `num_workers` atau keduanya `min_workers` dan `max_workers`. Untuk informasi selengkapnya, lihat deskripsi untuk parameter `existing_cluster_id`.
min_workers Diperlukan	int [Wajib] Jumlah minimum pekerja yang digunakan untuk penskalaan otomatis kluster yang dijalankan Databricks. Anda harus menentukan `num_workers` atau keduanya `min_workers` dan `max_workers`. Untuk informasi selengkapnya, lihat deskripsi untuk parameter `existing_cluster_id`.
max_workers Diperlukan	int [Wajib] Jumlah maksimal pekerja yang akan digunakan untuk penskalaan otomatis kluster yang dijalankan Databricks. Anda harus menentukan `num_workers` atau keduanya `min_workers` dan `max_workers`. Untuk informasi selengkapnya, lihat deskripsi untuk parameter `existing_cluster_id`.
spark_env_variables Diperlukan	dict Variabel lingkungan spark untuk kluster eksekusi Databricks. Untuk informasi selengkapnya, lihat deskripsi untuk parameter `existing_cluster_id`.
spark_conf Diperlukan	dict Konfigurasi spark untuk kluster eksekusi Databricks. Untuk informasi selengkapnya, lihat deskripsi untuk parameter `existing_cluster_id`.
init_scripts Diperlukan	[str] Dihentikan. Databricks mengumumkan skrip init yang disimpan di DBFS akan berhenti berfungsi setelah 1 Des 2023. Untuk mengurangi masalah, silakan 1) gunakan skrip init global di databricks setelah https://learn.microsoft.com/azure/databricks/init-scripts/global 2) komentari baris init_scripts di langkah AzureML databricks Anda.
cluster_log_dbfs_path Diperlukan	str Jalur DBFS tempat log kluster akan dikirimkan.
notebook_path Diperlukan	str [Wajib] Jalur ke buku catatan dalam instans Databricks. Kelas ini memungkinkan empat cara untuk menentukan kode yang akan dieksekusi di kluster Databricks. Untuk menjalankan buku catatan yang ada di ruang kerja Databricks, gunakan: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'} Untuk menjalankan skrip Python yang ada di DBFS, gunakan: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'} Untuk menjalankan JAR yang ada di DBFS, gunakan: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)] Untuk menjalankan skrip Python yang ada di komputer lokal Anda, gunakan: python_script_name=python_script_name, source_directory=source_directory Tentukan salah satu dari `notebook_path`, `python_script_path`, `python_script_name`, atau `main_class_name`.
notebook_params Diperlukan	dict[str, (str atau PipelineParameter)] Kamus parameter untuk diteruskan ke buku catatan. `notebook_params` tersedia sebagai widget. Anda dapat mengambil nilai dari widget ini di dalam buku catatan menggunakan dbutils.widgets.get("myparam").
python_script_path Diperlukan	str [Wajib] Jalur ke skrip python di DBFS. Tentukan salah satu dari `notebook_path`, `python_script_path`, `python_script_name`, atau `main_class_name`.
python_script_params Diperlukan	list[str, PipelineParameter] Parameter untuk skrip Python.
main_class_name Diperlukan	str [Wajib] Nama titik entri dalam modul JAR. Tentukan salah satu dari `notebook_path`, `python_script_path`, `python_script_name`, atau `main_class_name`.
jar_params Diperlukan	list[str, PipelineParameter] Parameter untuk modul JAR.
source_directory Diperlukan	str Folder yang berisi script dan file lainnya. Jika `python_script_name` ditentukan, maka `source_directory` juga harus ditentukan.
hash_paths Diperlukan	[str] TIDAK DIGUNAKAN LAGI: tidak lagi diperlukan. Daftar jalur ke hash saat memeriksa perubahan ke konten langkah. Jika tidak ada perubahan yang terdeteksi, alur akan menggunakan ulang konten langkah dari eksekusi sebelumnya. Secara default, konten `source_directory` di-hash kecuali untuk file yang terdaftar di .amlignore atau .gitignore.
run_name Diperlukan	str Nama dalam Databricks untuk eksekusi ini.
timeout_seconds Diperlukan	int Batas waktu untuk eksekusi Databricks.
runconfig Diperlukan	RunConfiguration Runconfig yang akan digunakan. Catatan: Anda dapat meneruskan pustaka sebanyak yang Anda inginkan sebagai dependensi ke pekerjaan menggunakan parameter berikut: `maven_libraries`, `pypi_libraries`, `egg_libraries`, `jar_libraries`, atau `rcran_libraries`. Teruskan parameter ini secara langsung dengan parameter terkaitnya atau sebagai bagian dari objek RunConfiguration menggunakan parameter `runconfig`, tetapi tidak keduanya.
maven_libraries Diperlukan	list[<xref:azureml.core.runconfig.MavenLibrary>] Pustaka Maven yang akan digunakan untuk eksekusi Databricks. Untuk informasi selengkapnya tentang spesifikasi pustaka Maven, lihat `help(azureml.core.runconfig.MavenLibrary)`.
pypi_libraries Diperlukan	list[<xref:azureml.core.runconfig.PyPiLibrary>] Pustaka PyPi yang akan digunakan untuk eksekusi Databricks. Untuk informasi selengkapnya tentang spesifikasi pustaka PyPi, lihat `help(azureml.core.runconfig.PyPiLibrary)`.
egg_libraries Diperlukan	list[<xref:azureml.core.runconfig.EggLibrary>] Pustaka Egg yang akan digunakan untuk eksekusi Databricks. Untuk informasi selengkapnya tentang spesifikasi pustaka Telur, lihat `help(azureml.core.runconfig.EggLibrary)`.
jar_libraries Diperlukan	list[<xref:azureml.core.runconfig.JarLibrary>] Pustaka Jar yang akan digunakan untuk eksekusi Databricks. Untuk informasi selengkapnya tentang spesifikasi pustaka Jar, lihat `help(azureml.core.runconfig.JarLibrary)`.
rcran_libraries Diperlukan	list[<xref:azureml.core.runconfig.RCranLibrary>] Pustaka RCran yang akan digunakan untuk eksekusi Databricks. Untuk informasi selengkapnya tentang spesifikasi pustaka RCran, lihat `help(azureml.core.runconfig.RCranLibrary)`.
compute_target Diperlukan	str, DatabricksCompute [Diperlukan] Komputasi Azure Databricks. Sebelum Anda dapat menggunakan DatabricksStep untuk menjalankan skrip atau buku catatan di ruang kerja Azure Databricks, Anda perlu menambahkan ruang kerja Azure Databricks sebagai target komputasi ke ruang kerja Azure Machine Learning.
allow_reuse Diperlukan	bool Menunjukkan apakah langkah tersebut harus menggunakan kembali hasil sebelumnya saat dijalankan lagi dengan pengaturan yang sama. Penggunaan kembali diaktifkan secara default. Jika konten langkah (skrip/dependensi) serta input dan parameter tetap tidak berubah, output dari eksekusi sebelumnya dari langkah ini digunakan ulang. Saat menggunakan ulang langkah tersebut, daripada mengirimkan pekerjaan ke komputasi, hasil dari eksekusi sebelumnya segera dibuat tersedia untuk langkah selanjutnya. Jika Anda menggunakan himpunan data Azure Machine Learning sebagai input, penggunaan ulang ditentukan oleh apakah definisi himpunan data telah berubah, bukan oleh apakah data yang mendasarinya telah berubah.
version Diperlukan	str Tag versi opsional untuk menunjukkan perubahan fungsionalitas untuk langkah tersebut.
permit_cluster_restart Diperlukan	bool jika existing_cluster_id ditentukan, parameter ini memberi tahu apakah kluster dapat dimulai ulang atas nama pengguna.

Metode

create_node

Buat node dari langkah Databricks dan tambahkan ke grafik yang ditentukan.

Metode ini tidak dimaksudkan untuk digunakan secara langsung. Ketika alur dibuat dengan langkah ini, Azure Machine Learning secara otomatis meneruskan parameter yang diperlukan melalui metode ini sehingga langkah tersebut dapat ditambahkan ke grafik alur yang mewakili alur kerja.

create_node

Buat node dari langkah Databricks dan tambahkan ke grafik yang ditentukan.

create_node(graph, default_datastore, context)

Parameter

Nama	Deskripsi
graph Diperlukan	Graph Objek grafik untuk menambahkan node.
default_datastore Diperlukan	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] Datastore default.
context Diperlukan	<xref:azureml.pipeline.core._GraphContext> Konteks grafik.

Mengembalikan

Jenis	Deskripsi
Node	Node yang dibuat.

Bagikan melalui

DatabricksStep Kelas

Konstruktor

Parameter

Metode

create_node

Parameter

Mengembalikan

Saran dan Komentar

Saran dan Komentar

Sumber Daya Tambahan: