De Databricks Notebook-activiteit uitvoeren in Azure Data Factory op een Databricks-notebook

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

In deze zelfstudie gebruikt u Azure Portal om een Azure Data Factory-pijplijn te maken die een Databricks-notebook uitvoert op basis van het Databricks-takencluster. Bovendien worden tijdens de uitvoering Azure Data Factory-parameters doorgestuurd naar de Databricks-notebook.

In deze zelfstudie voert u de volgende stappen uit:

  • Een data factory maken.

  • Een pijplijn maken die gebruikmaakt van Databricks Notebook-activiteit.

  • Een pijplijnuitvoering activeren.

  • Controleer de pijplijnuitvoering.

Als u geen Azure-abonnement hebt, maakt u een gratis account voordat u begint.

Bekijk de volgende video voor een inleiding en demonstratie van deze functie van 11 minuten:

Vereisten

  • Azure Databricks-werkruimte. Maak een Databricks-werkruimte of gebruik een bestaande werkruimte. U maakt een Python-notebook in uw Azure Databricks-werkruimte. Vervolgens voert u de notebook uit en geeft u er parameters aan door met behulp van Azure Data Factory.

Een data factory maken

  1. Start de webbrowser Microsoft Edge of Google Chrome. Op dit moment wordt de Data Factory-gebruikersinterface alleen ondersteund in de webbrowsers Microsoft Edge en Google Chrome.

  2. Selecteer Een resource maken in het menu van Azure Portal, selecteer Integratie en selecteer vervolgens Data Factory.

    Screenshot showing Data Factory selection in the New pane.

  3. Selecteer op de pagina Data factory maken op het tabblad Basisbeginselen het Azure-abonnement waarin u de data factory wilt maken.

  4. Voer een van de volgende stappen uit voor Resourcegroep:

    1. Selecteer een bestaande resourcegroep in de vervolgkeuzelijst.

    2. Selecteer Nieuwe maken en voer de naam van een nieuwe resourcegroep in.

    Zie Resourcegroepen gebruiken om Azure-resources te beheren voor meer informatie.

  5. Selecteer bij Regio de locatie voor de data factory.

    De lijst bevat alleen locaties die worden ondersteund door Data Factory en waar uw Azure Data Factory-metagegevens worden opgeslagen. De bijbehorende gegevensarchieven (zoals Azure Storage en Azure SQL Database) en berekeningen (zoals Azure HDInsight) die Data Factory gebruikt, kunnen in andere regio's worden uitgevoerd.

  6. Voer ADFTutorialDataFactory in bij Naam.

    De naam van de Azure-gegevensfactory moet wereldwijd uniek zijn. Als u de volgende fout ziet, wijzigt u de naam van de gegevensfactory (gebruik bijvoorbeeld <uw naam>ADFTutorialDataFactory). Zie het artikel Data factory - Naamgevingsregels voor naamgevingsregels voor Data Factory-artefacten.

    Screenshot showing the Error when a name is not available.

  7. Selecteer V2 als Versie.

  8. Selecteer Volgende: Git-configuratie en schakel het selectievakje Git later configureren in.

  9. Selecteer Controleren en maken, en selecteer Maken nadat de validatie is voltooid.

  10. Nadat het maken is voltooid, selecteert u Ga naar resource om naar de pagina Data Factory te gaan. Selecteer de tegel Azure Data Factory Studio openen om de gebruikersinterfacetoepassing (UI) van Azure Data Factory te starten op een afzonderlijk browsertabblad.

    Screenshot showing the home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

Gekoppelde services maken

In deze sectie maakt u een aan Databricks gekoppelde service. Deze gekoppelde service bevat de verbindingsgegevens voor het Databricks-cluster:

Een aan Azure Databricks gekoppelde service maken

  1. Ga op de startpagina naar het tabblad Beheren in het linkerdeelvenster.

    Screenshot showing the Manage tab.

  2. Selecteer Gekoppelde services onder Verbinding maken ions en selecteer vervolgens + Nieuw.

    Screenshot showing how to create a new connection.

  3. Selecteer Compute>Azure Databricks in het venster Nieuwe gekoppelde service en selecteer Vervolgens Doorgaan.

    Screenshot showing how to specify a Databricks linked service.

  4. Voer in het venster Nieuwe gekoppelde service de volgende stappen uit:

    1. Voer bij Naam AzureDatabricks_LinkedService in.

    2. Selecteer de juiste Databricks-werkruimte waarin u uw notebook gaat uitvoeren.

    3. Selecteer voor Cluster selecteren de optie Nieuw taakcluster.

    4. Voor de URL van de Databrick-werkruimte moet de informatie automatisch worden ingevuld.

    5. Als u toegangstoken selecteert, genereert u dit voor verificatietype op de Azure Databricks-werkplek. U kunt de daarvoor benodigde stappen hier vinden. Voor beheerde service-identiteit en door de gebruiker toegewezen beheerde identiteit verleent u de rol Inzender aan beide identiteiten in het toegangsbeheermenu van de Azure Databricks-resource .

    6. Selecteer voor clusterversie de versie die u wilt gebruiken.

    7. Selecteer voor clusterknooppunttype Standard_D3_v2 onder categorie Algemeen gebruik (HDD) voor deze zelfstudie.

    8. Voer bij Werkrollen2 in.

    9. Selecteer Maken.

      Screenshot showing the configuration of the new Azure Databricks linked service.

Een pipeline maken

  1. Selecteer de knop + (plusteken) en selecteer vervolgens Pijplijn in het menu.

    Screenshot showing buttons for creating a new pipeline.

  2. Maak een parameter voor gebruik in de pijplijn. Deze parameter geeft u later door aan de Databricks Notebook-activiteit. Selecteer in de lege pijplijn het tabblad Parameters en selecteer vervolgens + Nieuw en geef deze de naam 'naam'.

    Screenshot showing how to create a new parameter.

    Screenshot showing how to create the name parameter.

  3. Vouw in de werkset ActiviteitenDatabricks uit. Sleep de activiteit Notebook vanuit de werkset Activiteiten naar het ontwerpoppervlak voor pijplijnen.

    Screenshot showing how to drag the notebook to the designer surface.

  4. Voer de volgende stappen uit in de eigenschappen voor het DatabricksNotebook-activiteitvenster onderaan:

    1. Schakel over naar het tabblad Azure Databricks.

    2. Selecteer AzureDatabricks_LinkedService (die u in de vorige procedure hebt gemaakt).

    3. Schakel over naar het tabblad Instellingen.

    4. Zoek en selecteer een Databricks notebook-pad. We gaan een notebook maken en geven daarvoor hier het pad op. U krijgt het pad van de notebook door de volgende stappen uit te voeren.

      1. Start uw Azure Databricks-werkruimte.

      2. Maak een Nieuwe map in de werkruimte en roep deze aan als adftutorial.

        Screenshot showing how to create a new folder.

      3. Schermopname die laat zien hoe u een nieuw notitieblok maakt. (Python), we noemen het mynotebook onder adftutorial Folder en klik op Maken.

        Screenshot showing how to create a new notebook.

        Screenshot showing how to set the properties of the new notebook.

      4. In de zojuist gemaakte notebook 'mynotebook' voegt u de volgende code toe:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        

        Screenshot showing how to create widgets for parameters.

      5. Het notebookpad in dit geval is /adftutorial/mynotebook.

  5. Ga terug naar de gebruikersinterface van Data Factory. Navigeer naar Instellingen Tab onder de activiteit Notebook1.

    a. Voeg een parameter toe aan de notebookactiviteit. U gebruikt dezelfde parameter die u eerder aan de pijplijn hebt toegevoegd.

    Screenshot showing how to add a parameter.

    b. Geef de parameter een naam als invoer en geef de waarde op als expressie @pipeline().parameters.name.

  6. Selecteer op de werkbalk de knop Valideren om de pijplijn te valideren. Als u het validatievenster wilt sluiten, selecteert u de knop Sluiten .

    Screenshot showing how to validate the pipeline.

  7. Selecteer Alles publiceren. De gebruikersinterface van Data Factory publiceert entiteiten (gekoppelde services en pijplijn) naar de Azure Data Factory-service.

    Screenshot showing how to publish the new data factory entities.

Een pijplijnuitvoering activeren

Selecteer Trigger toevoegen op de werkbalk en selecteer Nu activeren.

Screenshot showing how to select the 'Trigger now' command.

Het dialoogvenster Pijplijnuitvoering vraagt om de naamparameter . Gebruik hier /pad/bestandsnaam als parameter. Selecteer OK.

Screenshot showing how to provide a value for the name parameters.

De pijplijnuitvoering controleren.

  1. Ga naar het tabblad Controleren . Controleer of u een pijplijnuitvoering ziet. Het duurt 5 tot 8 minuten om een Databricks-taakcluster te maken, waar de notebook wordt uitgevoerd.

    Screenshot showing how to monitor the pipeline.

  2. Selecteer regelmatig Vernieuwen om de status van de pijplijnuitvoering te controleren.

  3. Als u de activiteitsuitvoeringen wilt zien die zijn gekoppeld aan de pijplijnuitvoering, selecteert u de koppeling pipeline1 in de kolom Pijplijnnaam .

  4. Selecteer op de pagina Uitvoeringen van activiteit uitvoer in de kolom Activiteitsnaam om de uitvoer van elke activiteit weer te geven. U vindt de koppeling naar Databricks-logboeken in het deelvenster Uitvoer voor gedetailleerdere Spark-logboeken.

  5. U kunt teruggaan naar de weergave pijplijnuitvoeringen door de koppeling Alle pijplijnuitvoeringen te selecteren in het breadcrumb-menu bovenaan.

De uitvoer controleren

Meld u aan bij de Azure Databricks-werkruimte, ga naar Clusters en de Taak-status wordt weergegeven als uitvoering in behandeling, wordt uitgevoerd of beëindigd.

Screenshot showing how to view the job cluster and the job.

U kunt klikken op de Taaknaam om meer informatie weer te geven. Na een gelukte uitvoering kunt u de doorgegeven parameters en de uitvoer van de Python-notebook valideren.

Screenshot showing how to view the run details and output.

De pijplijn in dit voorbeeld activeert een Databricks Notebook-activiteit en geeft daar een parameter aan door. U hebt geleerd hoe u:

  • Een data factory maken.

  • Een pijplijn maken die gebruikmaakt van de Databricks Notebook-activiteit.

  • Een pijplijnuitvoering activeren.

  • Controleer de pijplijnuitvoering.