DatabricksStep Klasa
Tworzy krok potoku usługi Azure ML w celu dodania notesu usługi DataBricks, skryptu języka Python lub pliku JAR jako węzła.
Aby zapoznać się z przykładem użycia usługi DatabricksStep, zobacz notes https://aka.ms/pl-databricks.
Utwórz krok potoku usługi Azure ML, aby dodać notes usługi DataBricks, skrypt języka Python lub plik JAR jako węzeł.
Aby zapoznać się z przykładem użycia usługi DatabricksStep, zobacz notes https://aka.ms/pl-databricks.
:p aram python_script_name:[Required] Nazwa skryptu języka Python względem .source_directory
Jeśli skrypt przyjmuje dane wejściowe i wyjściowe, zostaną one przekazane do skryptu jako parametry.
Jeśli python_script_name
parametr jest określony, source_directory
musi być też.
Określ dokładnie jedną z notebook_path
wartości , python_script_path
, python_script_name
lub main_class_name
.
Jeśli określisz obiekt DataReference jako dane wejściowe z data_reference_name=input1 i obiekt PipelineData jako dane wyjściowe o nazwie =output1, dane wejściowe i wyjściowe zostaną przekazane do skryptu jako parametry. W ten sposób będą wyglądać następująco: należy przeanalizować argumenty w skrypcie, aby uzyskać dostęp do ścieżek poszczególnych danych wejściowych i wyjściowych: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"
Ponadto w skrycie będą dostępne następujące parametry:
- AZUREML_RUN_TOKEN: token AML do uwierzytelniania za pomocą usługi Azure Machine Learning.
- AZUREML_RUN_TOKEN_EXPIRY: czas wygaśnięcia tokenu AML.
- AZUREML_RUN_ID: Identyfikator przebiegu usługi Azure Machine Learning dla tego przebiegu.
- AZUREML_ARM_SUBSCRIPTION: subskrypcja platformy Azure dla obszaru roboczego usługi AML.
- AZUREML_ARM_RESOURCEGROUP: grupa zasobów platformy Azure dla obszaru roboczego usługi Azure Machine Learning.
- AZUREML_ARM_WORKSPACE_NAME: nazwa obszaru roboczego usługi Azure Machine Learning.
- AZUREML_ARM_PROJECT_NAME: nazwa eksperymentu usługi Azure Machine Learning.
- AZUREML_SERVICE_ENDPOINT: adres URL punktu końcowego dla usług AML.
- AZUREML_WORKSPACE_ID: identyfikator obszaru roboczego usługi Azure Machine Learning.
- AZUREML_EXPERIMENT_ID: identyfikator eksperymentu usługi Azure Machine Learning.
- AZUREML_SCRIPT_DIRECTORY_NAME: ścieżka katalogu w systemie plików DBFS, w której skopiowano source_directory.
(This parameter is only populated when `python_script_name` is used. See more details below.)
Podczas wykonywania skryptu języka Python z komputera lokalnego w usłudze Databricks przy użyciu parametrów source_directory
DatabricksStep i python_script_name
source_directory jest kopiowany do systemu plików DBFS, a ścieżka katalogu w systemie plików DBFS jest przekazywana jako parametr do skryptu po rozpoczęciu wykonywania.
Ten parametr jest oznaczony jako –AZUREML_SCRIPT_DIRECTORY_NAME. Aby uzyskać dostęp do katalogu w systemie plików DBFS, należy go prefiksować za pomocą ciągu "dbfs:/" lub "/dbfs/".
- Dziedziczenie
-
azureml.pipeline.core._databricks_step_base._DatabricksStepBaseDatabricksStep
Konstruktor
DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)
Parametry
- inputs
- list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]
Lista połączeń wejściowych dla danych używanych przez ten krok. Pobierz to wewnątrz notesu przy użyciu dbutils.widgets.get("input_name"). Może to być dataReference lub PipelineData. DataReference reprezentuje istniejący element danych w magazynie danych. Zasadniczo jest to ścieżka w magazynie danych. Usługa DatabricksStep obsługuje magazyny danych, które hermetyzują system PLIKÓW DBFS, obiekt blob platformy Azure lub usługę ADLS w wersji 1. PipelineData reprezentuje dane pośrednie generowane przez inny krok w potoku.
Lista definicji portów wyjściowych dla danych wyjściowych utworzonych w tym kroku. Pobierz to wewnątrz notesu przy użyciu dbutils.widgets.get("output_name"). Powinna być wartość PipelineData.
- existing_cluster_id
- str
Identyfikator klastra istniejącego klastra interaktywnego w obszarze roboczym usługi Databricks. W przypadku przekazania tego parametru nie można przekazać żadnego z następujących parametrów, które są używane do utworzenia nowego klastra:
- spark_version
- Node_type
- instance_pool_id
- num_workers
- min_workers
- max_workers
- spark_env_variables
- spark_conf
Uwaga: aby utworzyć nowy klaster zadań, należy przekazać powyższe parametry. Te parametry można przekazać bezpośrednio lub przekazać je w ramach obiektu RunConfiguration przy użyciu parametru runconfig. Przekazywanie tych parametrów bezpośrednio i za pomocą funkcji RunConfiguration powoduje wystąpienie błędu.
- spark_version
- str
Wersja platformy Spark dla klastra uruchomień usługi Databricks, na przykład: "10.4.x-scala2.12".
Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id
.
- node_type
- str
[Wymagane] Typy węzłów maszyny wirtualnej platformy Azure dla klastra uruchamiania usługi Databricks, na przykład: "Standard_D3_v2". Określ wartość node_type
lub instance_pool_id
.
Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id
.
- instance_pool_id
- str
[Wymagane] Identyfikator puli wystąpień, do którego należy dołączyć klaster.
Określ wartość node_type
lub instance_pool_id
.
Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id
.
- num_workers
- int
[Wymagane] Statyczna liczba procesów roboczych dla klastra uruchamiania usługi Databricks.
Musisz określić wartość lub zarówno , jak num_workers
min_workers
i max_workers
.
Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id
.
- min_workers
- int
[Wymagane] Minimalna liczba procesów roboczych używanych do automatycznego skalowania klastra uruchomień usługi Databricks.
Musisz określić wartość lub zarówno , jak num_workers
min_workers
i max_workers
.
Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id
.
- max_workers
- int
[Wymagane] Maksymalna liczba procesów roboczych używanych do automatycznego skalowania klastra uruchomień usługi Databricks.
Musisz określić wartość lub zarówno , jak num_workers
min_workers
i max_workers
.
Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id
.
- spark_env_variables
- dict
Zmienne środowiskowe platformy Spark dla klastra uruchomień usługi Databricks.
Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id
.
- spark_conf
- dict
Konfiguracja platformy Spark dla klastra uruchomień usługi Databricks.
Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id
.
- init_scripts
- [str]
Przestarzałe. Usługa Databricks ogłosiła, że skrypt inicjowania przechowywany w systemie plików DBFS przestanie działać po 1 grudnia 2023 r. Aby rozwiązać ten problem, użyj globalnych skryptów init w usłudze databricks po https://learn.microsoft.com/azure/databricks/init-scripts/global 2) oznacz jako komentarz wiersz init_scripts w kroku usługi AzureML databricks.
- cluster_log_dbfs_path
- str
Ścieżki systemu plików DBFS, w których mają być dostarczane dzienniki klastrów.
- notebook_path
- str
[Wymagane] Ścieżka do notesu w wystąpieniu usługi Databricks. Ta klasa umożliwia cztery sposoby określania kodu do wykonania w klastrze usługi Databricks.
Aby wykonać notes obecny w obszarze roboczym usługi Databricks, użyj polecenia: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}
Aby wykonać skrypt języka Python obecny w systemie plików DBFS, użyj polecenia: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}
Aby wykonać plik JAR obecny w systemie DBFS, użyj polecenia: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]
Aby wykonać skrypt języka Python znajdujący się na komputerze lokalnym, użyj polecenia: python_script_name=python_script_name, source_directory=source_directory
Określ dokładnie jedną z notebook_path
wartości , , python_script_path
python_script_name
lub main_class_name
.
- notebook_params
- dict[str, Union[str, PipelineParameter]]
Słownik parametrów do przekazania do notesu. notebook_params
są dostępne jako widżety. Możesz pobrać wartości z tych widżetów wewnątrz notesu przy użyciu polecenia dbutils.widgets.get("myparam")..
- python_script_path
- str
[Wymagane] Ścieżka do skryptu języka Python w systemie plików DBFS.
Określ dokładnie jedną z notebook_path
wartości , , python_script_path
python_script_name
lub main_class_name
.
- python_script_params
- list[str, PipelineParameter]
Parametry skryptu języka Python.
- main_class_name
- str
[Wymagane] Nazwa punktu wejścia w module JAR.
Określ dokładnie jedną z notebook_path
wartości , , python_script_path
python_script_name
lub main_class_name
.
- python_script_name
- str
[Wymagane] Nazwa skryptu języka Python względem source_directory
.
Jeśli skrypt przyjmuje dane wejściowe i wyjściowe, zostaną one przekazane do skryptu jako parametry.
Jeśli python_script_name
zostanie określony, source_directory
musi być też.
Określ dokładnie jedną z notebook_path
wartości , , python_script_path
python_script_name
lub main_class_name
.
Jeśli określisz obiekt DataReference jako dane wejściowe z data_reference_name=input1 i obiekt PipelineData jako dane wyjściowe o nazwie=output1, dane wejściowe i wyjściowe zostaną przekazane do skryptu jako parametry. W ten sposób będą wyglądać i trzeba przeanalizować argumenty w skryscie, aby uzyskać dostęp do ścieżek poszczególnych danych wejściowych i wyjściowych: "-input1","wasbs:///test","-output1", "wasbs://test@storagename.blob.core.windows.nettest@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"
Ponadto w skryscie będą dostępne następujące parametry:
- AZUREML_RUN_TOKEN: token AML do uwierzytelniania za pomocą usługi Azure Machine Learning.
- AZUREML_RUN_TOKEN_EXPIRY: czas wygaśnięcia tokenu AML.
- AZUREML_RUN_ID: Identyfikator przebiegu usługi Azure Machine Learning dla tego przebiegu.
- AZUREML_ARM_SUBSCRIPTION: subskrypcja platformy Azure dla obszaru roboczego AML.
- AZUREML_ARM_RESOURCEGROUP: grupa zasobów platformy Azure dla obszaru roboczego usługi Azure Machine Learning.
- AZUREML_ARM_WORKSPACE_NAME: nazwa obszaru roboczego usługi Azure Machine Learning.
- AZUREML_ARM_PROJECT_NAME: nazwa eksperymentu usługi Azure Machine Learning.
- AZUREML_SERVICE_ENDPOINT: adres URL punktu końcowego dla usług AML.
- AZUREML_WORKSPACE_ID: identyfikator obszaru roboczego usługi Azure Machine Learning.
- AZUREML_EXPERIMENT_ID: identyfikator eksperymentu usługi Azure Machine Learning.
- AZUREML_SCRIPT_DIRECTORY_NAME: ścieżka katalogu w systemie plików DBFS, w których source_directory została skopiowana.
(Ten parametr jest wypełniany tylko wtedy, gdy
python_script_name
jest używany. Zobacz więcej szczegółów poniżej).
Podczas wykonywania skryptu języka Python z komputera lokalnego w usłudze Databricks przy użyciu parametrów source_directory
DatabricksStep i python_script_name
source_directory jest kopiowany do systemu plików DBFS, a ścieżka katalogu w systemie plików DBFS jest przekazywana jako parametr do skryptu po rozpoczęciu wykonywania.
Ten parametr jest oznaczony jako –AZUREML_SCRIPT_DIRECTORY_NAME. Musisz go prefiksować za pomocą ciągu "dbfs:/" lub "/dbfs/", aby uzyskać dostęp do katalogu w systemie plików DBFS.
- source_directory
- str
Folder zawierający skrypt i inne pliki.
Jeśli python_script_name
zostanie określony, source_directory
musi być też.
- hash_paths
- [str]
PRZESTARZAŁE: nie jest już potrzebne.
Lista ścieżek do skrótu podczas sprawdzania zmian w zawartości kroku. Jeśli nie wykryto żadnych zmian, potok ponownie użyje zawartości kroku z poprzedniego uruchomienia. Domyślnie zawartość elementu source_directory
jest skrótem z wyjątkiem plików wymienionych w pliku .amlignore lub .gitignore.
- runconfig
- RunConfiguration
Polecenie runconfig do użycia.
Uwaga: możesz przekazać dowolną liczbę bibliotek do zadania przy użyciu następujących parametrów: maven_libraries
, pypi_libraries
, egg_libraries
, jar_libraries
lub rcran_libraries
. Przekaż te parametry bezpośrednio z odpowiednimi parametrami lub w ramach obiektu RunConfiguration przy użyciu parametru runconfig
, ale nie obu tych parametrów.
- maven_libraries
- list[MavenLibrary]
Biblioteki Maven do użycia na potrzeby uruchamiania usługi Databricks.
- pypi_libraries
- list[PyPiLibrary]
Biblioteki PyPi do użycia na potrzeby uruchamiania usługi Databricks.
- egg_libraries
- list[EggLibrary]
Biblioteki jaj do użycia na potrzeby uruchamiania usługi Databricks.
- jar_libraries
- list[JarLibrary]
Biblioteki Jar do użycia na potrzeby uruchamiania usługi Databricks.
- rcran_libraries
- list[RCranLibrary]
Biblioteki RCran do użycia na potrzeby uruchamiania usługi Databricks.
- compute_target
- str, DatabricksCompute
[Wymagane] Obliczenia usługi Azure Databricks. Aby można było użyć narzędzia DatabricksStep do wykonywania skryptów lub notesów w obszarze roboczym usługi Azure Databricks, musisz dodać obszar roboczy usługi Azure Databricks jako obiekt docelowy obliczeniowy do obszaru roboczego usługi Azure Machine Learning.
- allow_reuse
- bool
Wskazuje, czy krok powinien ponownie używać poprzednich wyników po ponownym uruchomieniu z tymi samymi ustawieniami. Ponowne użycie jest domyślnie włączone. Jeśli zawartość kroku (skrypty/zależności) oraz dane wejściowe i parametry pozostają niezmienione, dane wyjściowe z poprzedniego uruchomienia tego kroku są ponownie używane. Podczas ponownego wykonywania kroku zamiast przesyłania zadania do obliczeń wyniki z poprzedniego uruchomienia są natychmiast udostępniane wszystkim kolejnym krokom. Jeśli używasz zestawów danych usługi Azure Machine Learning jako danych wejściowych, ponowne użycie zależy od tego, czy definicja zestawu danych uległa zmianie, a nie przez to, czy dane bazowe uległy zmianie.
- permit_cluster_restart
- bool
jeśli existing_cluster_id jest określony, ten parametr informuje, czy klaster można ponownie uruchomić w imieniu użytkownika.
- inputs
- list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]
Lista połączeń wejściowych dla danych używanych przez ten krok. Pobierz to wewnątrz notesu przy użyciu dbutils.widgets.get("input_name"). Może to być dataReference lub PipelineData. DataReference reprezentuje istniejący element danych w magazynie danych. Zasadniczo jest to ścieżka w magazynie danych. Usługa DatabricksStep obsługuje magazyny danych, które hermetyzują system PLIKÓW DBFS, obiekt blob platformy Azure lub usługę ADLS w wersji 1. PipelineData reprezentuje dane pośrednie generowane przez inny krok w potoku.
- outputs
- list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]
Lista definicji portów wyjściowych dla danych wyjściowych utworzonych w tym kroku. Pobierz to wewnątrz notesu przy użyciu dbutils.widgets.get("output_name"). Powinna być wartość PipelineData.
- existing_cluster_id
- str
Identyfikator klastra istniejącego klastra interaktywnego w obszarze roboczym usługi Databricks. W przypadku przekazania tego parametru nie można przekazać żadnego z następujących parametrów, które są używane do utworzenia nowego klastra:
- spark_version
- Node_type
- instance_pool_id
- num_workers
- min_workers
- max_workers
- spark_env_variables
- spark_conf
Uwaga: aby utworzyć nowy klaster zadań, należy przekazać powyższe parametry. Te parametry można przekazać bezpośrednio lub przekazać je w ramach obiektu RunConfiguration przy użyciu parametru runconfig. Przekazywanie tych parametrów bezpośrednio i za pomocą funkcji RunConfiguration powoduje wystąpienie błędu.
- spark_version
- str
Wersja platformy Spark dla klastra uruchomień usługi Databricks, na przykład: "10.4.x-scala2.12".
Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id
.
- node_type
- str
[Wymagane] Typy węzłów maszyny wirtualnej platformy Azure dla klastra uruchamiania usługi Databricks, na przykład: "Standard_D3_v2". Określ wartość node_type
lub instance_pool_id
.
Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id
.
- instance_pool_id
- str
[Wymagane] Identyfikator puli wystąpień, do którego należy dołączyć klaster.
Określ wartość node_type
lub instance_pool_id
.
Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id
.
- num_workers
- int
[Wymagane] Statyczna liczba procesów roboczych dla klastra uruchamiania usługi Databricks.
Musisz określić wartość lub zarówno , jak num_workers
min_workers
i max_workers
.
Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id
.
- min_workers
- int
[Wymagane] Minimalna liczba procesów roboczych używanych do automatycznego skalowania klastra uruchomień usługi Databricks.
Musisz określić wartość lub zarówno , jak num_workers
min_workers
i max_workers
.
Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id
.
- max_workers
- int
[Wymagane] Maksymalna liczba procesów roboczych używanych do automatycznego skalowania klastra uruchomieniowego usługi Databricks.
Musisz określić jedną num_workers
lub obie min_workers
wartości i max_workers
.
Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id
.
- spark_env_variables
- dict
Zmienne środowiskowe platformy Spark dla klastra uruchomieniowego usługi Databricks.
Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id
.
- spark_conf
- dict
Konfiguracja platformy Spark dla klastra uruchomieniowego usługi Databricks.
Aby uzyskać więcej informacji, zobacz opis parametru existing_cluster_id
.
- init_scripts
- [str]
Przestarzałe. Usługa Databricks ogłosiła, że skrypt inicjowania przechowywany w systemie DBFS przestanie działać po 1 grudnia 2023 r. Aby rozwiązać ten problem, użyj globalnych skryptów inicjowania w usłudze Databricks po https://learn.microsoft.com/azure/databricks/init-scripts/global 2) oznacz jako komentarz wiersz init_scripts w kroku usługi Databricks usługi AzureML.
- cluster_log_dbfs_path
- str
Ścieżki systemu plików DBFS, w których mają być dostarczane dzienniki klastrów.
- notebook_path
- str
[Wymagane] Ścieżka do notesu w wystąpieniu usługi Databricks. Ta klasa umożliwia cztery sposoby określania kodu do wykonania w klastrze usługi Databricks.
Aby wykonać notes, który znajduje się w obszarze roboczym usługi Databricks, użyj polecenia: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}
Aby wykonać skrypt języka Python, który jest obecny w systemie plików DBFS, użyj polecenia: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}
Aby wykonać plik JAR obecny w systemie dbFS, użyj polecenia: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]
Aby wykonać skrypt języka Python, który znajduje się na komputerze lokalnym, użyj polecenia: python_script_name=python_script_name, source_directory=source_directory
Określ dokładnie jedną z notebook_path
wartości , python_script_path
, python_script_name
lub main_class_name
.
- notebook_params
- dict[str, (str lub PipelineParameter)]
Słownik parametrów do przekazania do notesu. notebook_params
są dostępne jako widżety. Możesz pobrać wartości z tych widżetów wewnątrz notesu przy użyciu polecenia dbutils.widgets.get("myparam")..
- python_script_path
- str
[Wymagane] Ścieżka do skryptu języka Python w systemie plików DBFS.
Określ dokładnie jedną z notebook_path
wartości , python_script_path
, python_script_name
lub main_class_name
.
- main_class_name
- str
[Wymagane] Nazwa punktu wejścia w module JAR.
Określ dokładnie jedną z notebook_path
wartości , python_script_path
, python_script_name
lub main_class_name
.
- source_directory
- str
Folder zawierający skrypt i inne pliki.
Jeśli python_script_name
parametr jest określony, source_directory
musi być też.
- hash_paths
- [str]
PRZESTARZAŁE: nie są już potrzebne.
Lista ścieżek do skrótu podczas sprawdzania zmian w zawartości kroku. Jeśli nie zostaną wykryte żadne zmiany, potok użyje ponownie zawartości kroku z poprzedniego uruchomienia. Domyślnie zawartość pliku jest skrótem source_directory
z wyjątkiem plików wymienionych w pliku .amlignore lub .gitignore.
- runconfig
- RunConfiguration
Element runconfig do użycia.
Uwaga: możesz przekazać dowolną liczbę bibliotek jako zależności do zadania przy użyciu następujących parametrów: maven_libraries
, , pypi_libraries
egg_libraries
, jar_libraries
lub rcran_libraries
. Te parametry należy przekazać bezpośrednio przy użyciu odpowiednich parametrów lub w ramach obiektu RunConfiguration przy użyciu parametru runconfig
, ale nie obu tych parametrów.
- maven_libraries
- list[<xref:azureml.core.runconfig.MavenLibrary>]
Biblioteki Maven do użycia na potrzeby uruchamiania usługi Databricks.
Aby uzyskać więcej informacji na temat specyfikacji bibliotek Maven, zobacz help(azureml.core.runconfig.MavenLibrary)
.
- pypi_libraries
- list[<xref:azureml.core.runconfig.PyPiLibrary>]
Biblioteki PyPi do użycia na potrzeby uruchamiania usługi Databricks.
Aby uzyskać więcej informacji na temat specyfikacji bibliotek PyPi, zobacz help(azureml.core.runconfig.PyPiLibrary)
.
- egg_libraries
- list[<xref:azureml.core.runconfig.EggLibrary>]
Biblioteki jaj do użycia na potrzeby uruchamiania usługi Databricks.
Aby uzyskać więcej informacji na temat specyfikacji bibliotek egg, zobacz help(azureml.core.runconfig.EggLibrary)
.
- jar_libraries
- list[<xref:azureml.core.runconfig.JarLibrary>]
Biblioteki Jar do użycia na potrzeby uruchamiania usługi Databricks.
Aby uzyskać więcej informacji na temat specyfikacji bibliotek Jar, zobacz help(azureml.core.runconfig.JarLibrary)
.
- rcran_libraries
- list[<xref:azureml.core.runconfig.RCranLibrary>]
Biblioteki RCran do użycia na potrzeby uruchamiania usługi Databricks.
Aby uzyskać więcej informacji na temat specyfikacji bibliotek RCran, zobacz help(azureml.core.runconfig.RCranLibrary)
.
- compute_target
- str, DatabricksCompute
[Wymagane] Środowisko obliczeniowe usługi Azure Databricks. Zanim będzie można użyć usługi DatabricksStep do wykonywania skryptów lub notesów w obszarze roboczym usługi Azure Databricks, musisz dodać obszar roboczy usługi Azure Databricks jako obiekt docelowy obliczeń do obszaru roboczego usługi Azure Machine Learning.
- allow_reuse
- bool
Wskazuje, czy krok powinien ponownie używać poprzednich wyników po ponownym uruchomieniu z tymi samymi ustawieniami. Ponowne użycie jest domyślnie włączone. Jeśli zawartość kroku (skrypty/zależności) oraz dane wejściowe i parametry pozostają niezmienione, dane wyjściowe z poprzedniego uruchomienia tego kroku są ponownie używane. Podczas ponownego wykonywania kroku zamiast przesyłania zadania do obliczeń wyniki z poprzedniego przebiegu są natychmiast udostępniane wszystkim kolejnym krokom. Jeśli używasz zestawów danych usługi Azure Machine Learning jako danych wejściowych, ponowne użycie zależy od tego, czy definicja zestawu danych uległa zmianie, a nie przez to, czy dane bazowe uległy zmianie.
- permit_cluster_restart
- bool
Jeśli określono existing_cluster_id, ten parametr informuje, czy klaster można ponownie uruchomić w imieniu użytkownika.
Metody
create_node |
Utwórz węzeł na podstawie kroku usługi Databricks i dodaj go do określonego grafu. Ta metoda nie jest przeznaczona do bezpośredniego użycia. Po utworzeniu wystąpienia potoku w tym kroku usługa Azure ML automatycznie przekazuje wymagane parametry za pośrednictwem tej metody, aby można było dodać krok do grafu potoku reprezentującego przepływ pracy. |
create_node
Utwórz węzeł na podstawie kroku usługi Databricks i dodaj go do określonego grafu.
Ta metoda nie jest przeznaczona do bezpośredniego użycia. Po utworzeniu wystąpienia potoku w tym kroku usługa Azure ML automatycznie przekazuje wymagane parametry za pośrednictwem tej metody, aby można było dodać krok do grafu potoku reprezentującego przepływ pracy.
create_node(graph, default_datastore, context)
Parametry
- default_datastore
- Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]
Domyślny magazyn danych.
- context
- <xref:azureml.pipeline.core._GraphContext>
Kontekst grafu.
Zwraca
Utworzony węzeł.
Typ zwracany
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla