DatabricksStep Klasa

Odwołanie

Tworzy krok potoku usługi Azure ML w celu dodania notesu usługi DataBricks, skryptu języka Python lub pliku JAR jako węzła.

Aby zapoznać się z przykładem użycia usługi DatabricksStep, zobacz notes https://aka.ms/pl-databricks.

Utwórz krok potoku usługi Azure ML, aby dodać notes usługi DataBricks, skrypt języka Python lub plik JAR jako węzeł.

Aby zapoznać się z przykładem użycia usługi DatabricksStep, zobacz notes https://aka.ms/pl-databricks.

:p aram python_script_name:[Required] Nazwa skryptu języka Python względem .source_directory Jeśli skrypt przyjmuje dane wejściowe i wyjściowe, zostaną one przekazane do skryptu jako parametry. Jeśli python_script_name parametr jest określony, source_directory musi być też.

Określ dokładnie jedną z notebook_pathwartości , python_script_path, python_script_namelub main_class_name.

Jeśli określisz obiekt DataReference jako dane wejściowe z data_reference_name=input1 i obiekt PipelineData jako dane wyjściowe o nazwie =output1, dane wejściowe i wyjściowe zostaną przekazane do skryptu jako parametry. W ten sposób będą wyglądać następująco: należy przeanalizować argumenty w skrypcie, aby uzyskać dostęp do ścieżek poszczególnych danych wejściowych i wyjściowych: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Ponadto w skrycie będą dostępne następujące parametry:

AZUREML_RUN_TOKEN: token AML do uwierzytelniania za pomocą usługi Azure Machine Learning.
AZUREML_RUN_TOKEN_EXPIRY: czas wygaśnięcia tokenu AML.
AZUREML_RUN_ID: Identyfikator przebiegu usługi Azure Machine Learning dla tego przebiegu.
AZUREML_ARM_SUBSCRIPTION: subskrypcja platformy Azure dla obszaru roboczego usługi AML.
AZUREML_ARM_RESOURCEGROUP: grupa zasobów platformy Azure dla obszaru roboczego usługi Azure Machine Learning.
AZUREML_ARM_WORKSPACE_NAME: nazwa obszaru roboczego usługi Azure Machine Learning.
AZUREML_ARM_PROJECT_NAME: nazwa eksperymentu usługi Azure Machine Learning.
AZUREML_SERVICE_ENDPOINT: adres URL punktu końcowego dla usług AML.
AZUREML_WORKSPACE_ID: identyfikator obszaru roboczego usługi Azure Machine Learning.
AZUREML_EXPERIMENT_ID: identyfikator eksperymentu usługi Azure Machine Learning.
AZUREML_SCRIPT_DIRECTORY_NAME: ścieżka katalogu w systemie plików DBFS, w której skopiowano source_directory.

  (This parameter is only populated when `python_script_name` is used.  See more details below.)

Podczas wykonywania skryptu języka Python z komputera lokalnego w usłudze Databricks przy użyciu parametrów source_directory DatabricksStep i python_script_namesource_directory jest kopiowany do systemu plików DBFS, a ścieżka katalogu w systemie plików DBFS jest przekazywana jako parametr do skryptu po rozpoczęciu wykonywania. Ten parametr jest oznaczony jako –AZUREML_SCRIPT_DIRECTORY_NAME. Aby uzyskać dostęp do katalogu w systemie plików DBFS, należy go prefiksować za pomocą ciągu "dbfs:/" lub "/dbfs/".

Dziedziczenie: azureml.pipeline.core._databricks_step_base._DatabricksStepBase

DatabricksStep

Konstruktor

DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)

Parametry

name: str

Wymagane

[Wymagane] Nazwa kroku.

inputs: list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]

wartość domyślna: None

Lista połączeń wejściowych dla danych używanych przez ten krok. Pobierz to wewnątrz notesu przy użyciu dbutils.widgets.get("input_name"). Może to być dataReference lub PipelineData. DataReference reprezentuje istniejący element danych w magazynie danych. Zasadniczo jest to ścieżka w magazynie danych. Usługa DatabricksStep obsługuje magazyny danych, które hermetyzują system PLIKÓW DBFS, obiekt blob platformy Azure lub usługę ADLS w wersji 1. PipelineData reprezentuje dane pośrednie generowane przez inny krok w potoku.

outputs: list[Union[OutputPortBinding, PipelineOutputAbstractDataset, PipelineData]]

wartość domyślna: None

Lista definicji portów wyjściowych dla danych wyjściowych utworzonych w tym kroku. Pobierz to wewnątrz notesu przy użyciu dbutils.widgets.get("output_name"). Powinna być wartość PipelineData.

existing_cluster_id: str

wartość domyślna: None

Identyfikator klastra istniejącego klastra interaktywnego w obszarze roboczym usługi Databricks. W przypadku przekazania tego parametru nie można przekazać żadnego z następujących parametrów, które są używane do utworzenia nowego klastra:

spark_version
Node_type
instance_pool_id
num_workers
min_workers
max_workers
spark_env_variables
spark_conf

Uwaga: aby utworzyć nowy klaster zadań, należy przekazać powyższe parametry. Te parametry można przekazać bezpośrednio lub przekazać je w ramach obiektu RunConfiguration przy użyciu parametru runconfig. Przekazywanie tych parametrów bezpośrednio i za pomocą funkcji RunConfiguration powoduje wystąpienie błędu.

spark_version: str

wartość domyślna: None

Wersja platformy Spark dla klastra uruchomień usługi Databricks, na przykład: "10.4.x-scala2.12". Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

node_type: str

wartość domyślna: None

[Wymagane] Typy węzłów maszyny wirtualnej platformy Azure dla klastra uruchamiania usługi Databricks, na przykład: "Standard_D3_v2". Określ wartość node_type lub instance_pool_id. Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

instance_pool_id: str

wartość domyślna: None

[Wymagane] Identyfikator puli wystąpień, do którego należy dołączyć klaster. Określ wartość node_type lub instance_pool_id. Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

num_workers: int

wartość domyślna: None

[Wymagane] Statyczna liczba procesów roboczych dla klastra uruchamiania usługi Databricks. Musisz określić wartość lub zarówno , jak num_workersmin_workers i max_workers. Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

min_workers: int

wartość domyślna: None

[Wymagane] Minimalna liczba procesów roboczych używanych do automatycznego skalowania klastra uruchomień usługi Databricks. Musisz określić wartość lub zarówno , jak num_workersmin_workers i max_workers. Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

max_workers: int

wartość domyślna: None

[Wymagane] Maksymalna liczba procesów roboczych używanych do automatycznego skalowania klastra uruchomień usługi Databricks. Musisz określić wartość lub zarówno , jak num_workersmin_workers i max_workers. Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

spark_env_variables: dict

wartość domyślna: None

Zmienne środowiskowe platformy Spark dla klastra uruchomień usługi Databricks. Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

spark_conf: dict

wartość domyślna: None

Konfiguracja platformy Spark dla klastra uruchomień usługi Databricks. Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

init_scripts: [str]

wartość domyślna: None

Przestarzałe. Usługa Databricks ogłosiła, że skrypt inicjowania przechowywany w systemie plików DBFS przestanie działać po 1 grudnia 2023 r. Aby rozwiązać ten problem, użyj globalnych skryptów init w usłudze databricks po https://learn.microsoft.com/azure/databricks/init-scripts/global 2) oznacz jako komentarz wiersz init_scripts w kroku usługi AzureML databricks.

cluster_log_dbfs_path: str

wartość domyślna: None

Ścieżki systemu plików DBFS, w których mają być dostarczane dzienniki klastrów.

notebook_path: str

wartość domyślna: None

[Wymagane] Ścieżka do notesu w wystąpieniu usługi Databricks. Ta klasa umożliwia cztery sposoby określania kodu do wykonania w klastrze usługi Databricks.

Aby wykonać notes obecny w obszarze roboczym usługi Databricks, użyj polecenia: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}
Aby wykonać skrypt języka Python obecny w systemie plików DBFS, użyj polecenia: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}
Aby wykonać plik JAR obecny w systemie DBFS, użyj polecenia: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]
Aby wykonać skrypt języka Python znajdujący się na komputerze lokalnym, użyj polecenia: python_script_name=python_script_name, source_directory=source_directory

Określ dokładnie jedną z notebook_pathwartości , , python_script_pathpython_script_namelub main_class_name.

notebook_params: dict[str, Union[str, PipelineParameter]]

wartość domyślna: None

Słownik parametrów do przekazania do notesu. notebook_params są dostępne jako widżety. Możesz pobrać wartości z tych widżetów wewnątrz notesu przy użyciu polecenia dbutils.widgets.get("myparam")..

python_script_path: str

wartość domyślna: None

[Wymagane] Ścieżka do skryptu języka Python w systemie plików DBFS. Określ dokładnie jedną z notebook_pathwartości , , python_script_pathpython_script_namelub main_class_name.

python_script_params: list[str, PipelineParameter]

wartość domyślna: None

Parametry skryptu języka Python.

main_class_name: str

wartość domyślna: None

[Wymagane] Nazwa punktu wejścia w module JAR. Określ dokładnie jedną z notebook_pathwartości , , python_script_pathpython_script_namelub main_class_name.

jar_params: list[str, PipelineParameter]

wartość domyślna: None

Parametry modułu JAR.

python_script_name: str

wartość domyślna: None

[Wymagane] Nazwa skryptu języka Python względem source_directory. Jeśli skrypt przyjmuje dane wejściowe i wyjściowe, zostaną one przekazane do skryptu jako parametry. Jeśli python_script_name zostanie określony, source_directory musi być też.

Określ dokładnie jedną z notebook_pathwartości , , python_script_pathpython_script_namelub main_class_name.

Jeśli określisz obiekt DataReference jako dane wejściowe z data_reference_name=input1 i obiekt PipelineData jako dane wyjściowe o nazwie=output1, dane wejściowe i wyjściowe zostaną przekazane do skryptu jako parametry. W ten sposób będą wyglądać i trzeba przeanalizować argumenty w skryscie, aby uzyskać dostęp do ścieżek poszczególnych danych wejściowych i wyjściowych: "-input1","wasbs:///test","-output1", "wasbs://test@storagename.blob.core.windows.nettest@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Ponadto w skryscie będą dostępne następujące parametry:

AZUREML_RUN_TOKEN: token AML do uwierzytelniania za pomocą usługi Azure Machine Learning.
AZUREML_RUN_TOKEN_EXPIRY: czas wygaśnięcia tokenu AML.
AZUREML_RUN_ID: Identyfikator przebiegu usługi Azure Machine Learning dla tego przebiegu.
AZUREML_ARM_SUBSCRIPTION: subskrypcja platformy Azure dla obszaru roboczego AML.
AZUREML_ARM_RESOURCEGROUP: grupa zasobów platformy Azure dla obszaru roboczego usługi Azure Machine Learning.
AZUREML_ARM_WORKSPACE_NAME: nazwa obszaru roboczego usługi Azure Machine Learning.
AZUREML_ARM_PROJECT_NAME: nazwa eksperymentu usługi Azure Machine Learning.
AZUREML_SERVICE_ENDPOINT: adres URL punktu końcowego dla usług AML.
AZUREML_WORKSPACE_ID: identyfikator obszaru roboczego usługi Azure Machine Learning.
AZUREML_EXPERIMENT_ID: identyfikator eksperymentu usługi Azure Machine Learning.
AZUREML_SCRIPT_DIRECTORY_NAME: ścieżka katalogu w systemie plików DBFS, w których source_directory została skopiowana. (Ten parametr jest wypełniany tylko wtedy, gdy python_script_name jest używany. Zobacz więcej szczegółów poniżej).

Podczas wykonywania skryptu języka Python z komputera lokalnego w usłudze Databricks przy użyciu parametrów source_directory DatabricksStep i python_script_namesource_directory jest kopiowany do systemu plików DBFS, a ścieżka katalogu w systemie plików DBFS jest przekazywana jako parametr do skryptu po rozpoczęciu wykonywania. Ten parametr jest oznaczony jako –AZUREML_SCRIPT_DIRECTORY_NAME. Musisz go prefiksować za pomocą ciągu "dbfs:/" lub "/dbfs/", aby uzyskać dostęp do katalogu w systemie plików DBFS.

source_directory: str

wartość domyślna: None

Folder zawierający skrypt i inne pliki. Jeśli python_script_name zostanie określony, source_directory musi być też.

hash_paths: [str]

wartość domyślna: None

PRZESTARZAŁE: nie jest już potrzebne.

Lista ścieżek do skrótu podczas sprawdzania zmian w zawartości kroku. Jeśli nie wykryto żadnych zmian, potok ponownie użyje zawartości kroku z poprzedniego uruchomienia. Domyślnie zawartość elementu source_directory jest skrótem z wyjątkiem plików wymienionych w pliku .amlignore lub .gitignore.

run_name: str

wartość domyślna: None

Nazwa w usłudze Databricks dla tego przebiegu.

timeout_seconds: int

wartość domyślna: None

Limit czasu uruchomienia usługi Databricks.

runconfig: RunConfiguration

wartość domyślna: None

Polecenie runconfig do użycia.

Uwaga: możesz przekazać dowolną liczbę bibliotek do zadania przy użyciu następujących parametrów: maven_libraries, pypi_libraries, egg_libraries, jar_librarieslub rcran_libraries. Przekaż te parametry bezpośrednio z odpowiednimi parametrami lub w ramach obiektu RunConfiguration przy użyciu parametru runconfig , ale nie obu tych parametrów.

maven_libraries: list[MavenLibrary]

wartość domyślna: None

Biblioteki Maven do użycia na potrzeby uruchamiania usługi Databricks.

pypi_libraries: list[PyPiLibrary]

wartość domyślna: None

Biblioteki PyPi do użycia na potrzeby uruchamiania usługi Databricks.

egg_libraries: list[EggLibrary]

wartość domyślna: None

Biblioteki jaj do użycia na potrzeby uruchamiania usługi Databricks.

jar_libraries: list[JarLibrary]

wartość domyślna: None

Biblioteki Jar do użycia na potrzeby uruchamiania usługi Databricks.

rcran_libraries: list[RCranLibrary]

wartość domyślna: None

Biblioteki RCran do użycia na potrzeby uruchamiania usługi Databricks.

compute_target: str, DatabricksCompute

wartość domyślna: None

[Wymagane] Obliczenia usługi Azure Databricks. Aby można było użyć narzędzia DatabricksStep do wykonywania skryptów lub notesów w obszarze roboczym usługi Azure Databricks, musisz dodać obszar roboczy usługi Azure Databricks jako obiekt docelowy obliczeniowy do obszaru roboczego usługi Azure Machine Learning.

allow_reuse: bool

wartość domyślna: True

Wskazuje, czy krok powinien ponownie używać poprzednich wyników po ponownym uruchomieniu z tymi samymi ustawieniami. Ponowne użycie jest domyślnie włączone. Jeśli zawartość kroku (skrypty/zależności) oraz dane wejściowe i parametry pozostają niezmienione, dane wyjściowe z poprzedniego uruchomienia tego kroku są ponownie używane. Podczas ponownego wykonywania kroku zamiast przesyłania zadania do obliczeń wyniki z poprzedniego uruchomienia są natychmiast udostępniane wszystkim kolejnym krokom. Jeśli używasz zestawów danych usługi Azure Machine Learning jako danych wejściowych, ponowne użycie zależy od tego, czy definicja zestawu danych uległa zmianie, a nie przez to, czy dane bazowe uległy zmianie.

version: str

wartość domyślna: None

Opcjonalny tag wersji, aby oznaczyć zmianę funkcji dla kroku.

permit_cluster_restart: bool

wartość domyślna: None

jeśli existing_cluster_id jest określony, ten parametr informuje, czy klaster można ponownie uruchomić w imieniu użytkownika.

name: str

Wymagane

[Wymagane] Nazwa kroku.

inputs: list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]

Wymagane

outputs: list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]

Wymagane

Lista definicji portów wyjściowych dla danych wyjściowych utworzonych w tym kroku. Pobierz to wewnątrz notesu przy użyciu dbutils.widgets.get("output_name"). Powinna być wartość PipelineData.

existing_cluster_id: str

Wymagane

spark_version
Node_type
instance_pool_id
num_workers
min_workers
max_workers
spark_env_variables
spark_conf

spark_version: str

Wymagane

Wersja platformy Spark dla klastra uruchomień usługi Databricks, na przykład: "10.4.x-scala2.12". Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

node_type: str

Wymagane

instance_pool_id: str

Wymagane

num_workers: int

Wymagane

[Wymagane] Statyczna liczba procesów roboczych dla klastra uruchamiania usługi Databricks. Musisz określić wartość lub zarówno , jak num_workersmin_workers i max_workers.

Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

min_workers: int

Wymagane

Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

max_workers: int

Wymagane

[Wymagane] Maksymalna liczba procesów roboczych używanych do automatycznego skalowania klastra uruchomieniowego usługi Databricks. Musisz określić jedną num_workers lub obie min_workers wartości i max_workers.

Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

spark_env_variables: dict

Wymagane

Zmienne środowiskowe platformy Spark dla klastra uruchomieniowego usługi Databricks. Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

spark_conf: dict

Wymagane

Konfiguracja platformy Spark dla klastra uruchomieniowego usługi Databricks. Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id .

init_scripts: [str]

Wymagane

Przestarzałe. Usługa Databricks ogłosiła, że skrypt inicjowania przechowywany w systemie DBFS przestanie działać po 1 grudnia 2023 r. Aby rozwiązać ten problem, użyj globalnych skryptów inicjowania w usłudze Databricks po https://learn.microsoft.com/azure/databricks/init-scripts/global 2) oznacz jako komentarz wiersz init_scripts w kroku usługi Databricks usługi AzureML.

cluster_log_dbfs_path: str

Wymagane

Ścieżki systemu plików DBFS, w których mają być dostarczane dzienniki klastrów.

notebook_path: str

Wymagane

[Wymagane] Ścieżka do notesu w wystąpieniu usługi Databricks. Ta klasa umożliwia cztery sposoby określania kodu do wykonania w klastrze usługi Databricks.

Aby wykonać notes, który znajduje się w obszarze roboczym usługi Databricks, użyj polecenia: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}
Aby wykonać skrypt języka Python, który jest obecny w systemie plików DBFS, użyj polecenia: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}
Aby wykonać plik JAR obecny w systemie dbFS, użyj polecenia: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]
Aby wykonać skrypt języka Python, który znajduje się na komputerze lokalnym, użyj polecenia: python_script_name=python_script_name, source_directory=source_directory

Określ dokładnie jedną z notebook_pathwartości , python_script_path, python_script_namelub main_class_name.

notebook_params: dict[str, (str lub PipelineParameter)]

Wymagane

Słownik parametrów do przekazania do notesu. notebook_params są dostępne jako widżety. Możesz pobrać wartości z tych widżetów wewnątrz notesu przy użyciu polecenia dbutils.widgets.get("myparam")..

python_script_path: str

Wymagane

[Wymagane] Ścieżka do skryptu języka Python w systemie plików DBFS. Określ dokładnie jedną z notebook_pathwartości , python_script_path, python_script_namelub main_class_name.

python_script_params: list[str, PipelineParameter]

Wymagane

Parametry skryptu języka Python.

main_class_name: str

Wymagane

[Wymagane] Nazwa punktu wejścia w module JAR. Określ dokładnie jedną z notebook_pathwartości , python_script_path, python_script_namelub main_class_name.

jar_params: list[str, PipelineParameter]

Wymagane

Parametry modułu JAR.

source_directory: str

Wymagane

Folder zawierający skrypt i inne pliki. Jeśli python_script_name parametr jest określony, source_directory musi być też.

hash_paths: [str]

Wymagane

PRZESTARZAŁE: nie są już potrzebne.

Lista ścieżek do skrótu podczas sprawdzania zmian w zawartości kroku. Jeśli nie zostaną wykryte żadne zmiany, potok użyje ponownie zawartości kroku z poprzedniego uruchomienia. Domyślnie zawartość pliku jest skrótem source_directory z wyjątkiem plików wymienionych w pliku .amlignore lub .gitignore.

run_name: str

Wymagane

Nazwa w usłudze Databricks dla tego przebiegu.

timeout_seconds: int

Wymagane

Limit czasu uruchomienia usługi Databricks.

runconfig: RunConfiguration

Wymagane

Element runconfig do użycia.

Uwaga: możesz przekazać dowolną liczbę bibliotek jako zależności do zadania przy użyciu następujących parametrów: maven_libraries, , pypi_librariesegg_libraries, jar_librarieslub rcran_libraries. Te parametry należy przekazać bezpośrednio przy użyciu odpowiednich parametrów lub w ramach obiektu RunConfiguration przy użyciu parametru runconfig , ale nie obu tych parametrów.

maven_libraries: list[<xref:azureml.core.runconfig.MavenLibrary>]

Wymagane

Biblioteki Maven do użycia na potrzeby uruchamiania usługi Databricks. Aby uzyskać więcej informacji na temat specyfikacji bibliotek Maven, zobacz help(azureml.core.runconfig.MavenLibrary).

pypi_libraries: list[<xref:azureml.core.runconfig.PyPiLibrary>]

Wymagane

Biblioteki PyPi do użycia na potrzeby uruchamiania usługi Databricks. Aby uzyskać więcej informacji na temat specyfikacji bibliotek PyPi, zobacz help(azureml.core.runconfig.PyPiLibrary).

egg_libraries: list[<xref:azureml.core.runconfig.EggLibrary>]

Wymagane

Biblioteki jaj do użycia na potrzeby uruchamiania usługi Databricks. Aby uzyskać więcej informacji na temat specyfikacji bibliotek egg, zobacz help(azureml.core.runconfig.EggLibrary).

jar_libraries: list[<xref:azureml.core.runconfig.JarLibrary>]

Wymagane

Biblioteki Jar do użycia na potrzeby uruchamiania usługi Databricks. Aby uzyskać więcej informacji na temat specyfikacji bibliotek Jar, zobacz help(azureml.core.runconfig.JarLibrary).

rcran_libraries: list[<xref:azureml.core.runconfig.RCranLibrary>]

Wymagane

Biblioteki RCran do użycia na potrzeby uruchamiania usługi Databricks. Aby uzyskać więcej informacji na temat specyfikacji bibliotek RCran, zobacz help(azureml.core.runconfig.RCranLibrary).

compute_target: str, DatabricksCompute

Wymagane

[Wymagane] Środowisko obliczeniowe usługi Azure Databricks. Zanim będzie można użyć usługi DatabricksStep do wykonywania skryptów lub notesów w obszarze roboczym usługi Azure Databricks, musisz dodać obszar roboczy usługi Azure Databricks jako obiekt docelowy obliczeń do obszaru roboczego usługi Azure Machine Learning.

allow_reuse: bool

Wymagane

Wskazuje, czy krok powinien ponownie używać poprzednich wyników po ponownym uruchomieniu z tymi samymi ustawieniami. Ponowne użycie jest domyślnie włączone. Jeśli zawartość kroku (skrypty/zależności) oraz dane wejściowe i parametry pozostają niezmienione, dane wyjściowe z poprzedniego uruchomienia tego kroku są ponownie używane. Podczas ponownego wykonywania kroku zamiast przesyłania zadania do obliczeń wyniki z poprzedniego przebiegu są natychmiast udostępniane wszystkim kolejnym krokom. Jeśli używasz zestawów danych usługi Azure Machine Learning jako danych wejściowych, ponowne użycie zależy od tego, czy definicja zestawu danych uległa zmianie, a nie przez to, czy dane bazowe uległy zmianie.

version: str

Wymagane

Opcjonalny tag wersji, aby oznaczyć zmianę funkcjonalności kroku.

permit_cluster_restart: bool

Wymagane

Jeśli określono existing_cluster_id, ten parametr informuje, czy klaster można ponownie uruchomić w imieniu użytkownika.

Metody

create_node

Utwórz węzeł na podstawie kroku usługi Databricks i dodaj go do określonego grafu.

Ta metoda nie jest przeznaczona do bezpośredniego użycia. Po utworzeniu wystąpienia potoku w tym kroku usługa Azure ML automatycznie przekazuje wymagane parametry za pośrednictwem tej metody, aby można było dodać krok do grafu potoku reprezentującego przepływ pracy.

create_node

Utwórz węzeł na podstawie kroku usługi Databricks i dodaj go do określonego grafu.

create_node(graph, default_datastore, context)

Parametry

graph: Graph

Wymagane

Obiekt grafu, do który ma zostać dodany węzeł.

default_datastore: Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]

Wymagane

Domyślny magazyn danych.

context: <xref:azureml.pipeline.core._GraphContext>

Wymagane

Kontekst grafu.

Zwraca

Utworzony węzeł.

Typ zwracany

Node

Udostępnij za pośrednictwem

DatabricksStep Klasa

Konstruktor

Parametry

Metody

create_node

Parametry

Zwraca

Typ zwracany

Opinia

Opinia

Dodatkowe zasoby