Azure Data Factory’de Databricks Not Defteri etkinliği ile bir Databricks not defteri çalıştırmaRun a Databricks notebook with the Databricks Notebook Activity in Azure Data Factory

Uygulama hedefi: Azure Data Factory Azure SYNAPSE Analytics (Önizleme)

Bu öğreticide, databricks iş kümesine göre bir Databricks not defteri yürüten Azure Data Factory işlem hattı oluşturmak için Azure portalını kullanırsınız.In this tutorial, you use the Azure portal to create an Azure Data Factory pipeline that executes a Databricks notebook against the Databricks jobs cluster. Bu işlem ayrıca yürütme sırasında Databricks not defterine Azure Data Factory parametrelerini geçirir.It also passes Azure Data Factory parameters to the Databricks notebook during execution.

Bu öğreticide aşağıdaki adımları gerçekleştireceksiniz:You perform the following steps in this tutorial:

  • Veri fabrikası oluşturma.Create a data factory.

  • Databricks Not Defteri Etkinliği’ni kullanan bir işlem hattı oluşturun.Create a pipeline that uses Databricks Notebook Activity.

  • İşlem hattı çalıştırması tetikleyin.Trigger a pipeline run.

  • İşlem hattı çalıştırmasını izleme.Monitor the pipeline run.

Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun.If you don't have an Azure subscription, create a free account before you begin.

Bu özelliğe yönelik on bir dakikalık bir giriş ve tanıtım için, aşağıdaki videoyu izleyin:For an eleven-minute introduction and demonstration of this feature, watch the following video:

ÖnkoşullarPrerequisites

  • Azure Databricks çalışma alanı.Azure Databricks workspace. Bir Databricks çalışma alanı oluşturun veya var olanı kullanın.Create a Databricks workspace or use an existing one. Azure Databricks çalışma alanınızda bir Python not defteri oluşturun.You create a Python notebook in your Azure Databricks workspace. Ardından, not defterini yürütün ve Azure Data Factory kullanarak parametreleri not defterine geçirin.Then you execute the notebook and pass parameters to it using Azure Data Factory.

Veri fabrikası oluşturmaCreate a data factory

  1. Microsoft Edge veya Google Chrome web tarayıcısını açın.Launch Microsoft Edge or Google Chrome web browser. Şu anda Data Factory kullanıcı arabirimi yalnızca Microsoft Edge ve Google Chrome web tarayıcılarında desteklenmektedir.Currently, Data Factory UI is supported only in Microsoft Edge and Google Chrome web browsers.

  2. Soldaki menüden Kaynak oluşturun’u, sonra Analiz’i ve ardından Data Factory’yi seçin.Select Create a resource on the left menu, select Analytics, and then select Data Factory.

    Yeni bir veri fabrikası oluşturma

  3. Yeni veri fabrikası bölmesinde Ad altına ADFTutorialDataFactory girin.In the New data factory pane, enter ADFTutorialDataFactory under Name.

    Azure veri fabrikasının adı genel olarak benzersizolmalıdır.The name of the Azure data factory must be globally unique. Aşağıdaki hatayı görürseniz veri fabrikasının adını değiştirin.If you see the following error, change the name of the data factory. (Örneğin, ** <yourname> ADFTutorialDataFactory**kullanın).(For example, use <yourname>ADFTutorialDataFactory). Data Factory yapıtlarının adlandırma kuralları için Data Factory - adlandırma kuralları makalesini inceleyin.For naming rules for Data Factory artifacts, see the Data Factory - naming rules article.

    Yeni veri fabrikası için bir ad belirtin

  4. Abonelik için, veri fabrikasını oluşturmak istediğiniz Azure aboneliğini seçin.For Subscription, select your Azure subscription in which you want to create the data factory.

  5. Kaynak Grubu için aşağıdaki adımlardan birini uygulayın:For Resource Group, take one of the following steps:

    • Mevcut olanı kullan ' ı seçin ve açılır listeden var olan bir kaynak grubunu seçin.Select Use existing and select an existing resource group from the drop-down list.

    • Yeni oluştur ' u seçin ve bir kaynak grubunun adını girin.Select Create new and enter the name of a resource group.

    Bu hızlı başlangıçtaki adımlardan bazıları kaynak grubu için ADFTutorialResourceGroup adını kullandığınızı varsayar.Some of the steps in this quickstart assume that you use the name ADFTutorialResourceGroup for the resource group. Kaynak grupları hakkında daha fazla bilgi için bkz. Azure kaynaklarınızı yönetmek için kaynak gruplarını kullanma.To learn about resource groups, see Using resource groups to manage your Azure resources.

  6. Sürüm bölümünde V2'yi seçin.For Version, select V2.

  7. Konum için, veri fabrikasının konumunu seçin.For Location, select the location for the data factory.

    Data Factory'nin kullanılabileceği Azure bölgelerinin bir listesi için bir sonraki sayfada ilgilendiğiniz bölgeleri seçin ve Analytics'i genişleterek Data Factory: Products available by region (Bölgeye göre kullanılabilir durumdaki ürünler) bölümünü bulun.For a list of Azure regions in which Data Factory is currently available, select the regions that interest you on the following page, and then expand Analytics to locate Data Factory: Products available by region. Data Factory tarafından kullanılan veri depoları (Azure Depolama ve Azure SQL Veritabanı) ve işlemler (HDInsight gibi) başka bölgelerde olabilir.The data stores (like Azure Storage and Azure SQL Database) and computes (like HDInsight) that Data Factory uses can be in other regions.

  8. Oluştur’u seçin.Select Create.

  9. Oluşturma işlemi tamamlandıktan sonra, Veri fabrikası sayfasını görürsünüz.After the creation is complete, you see the Data factory page. Data Factory kullanıcı arabirimi uygulamasını ayrı bir sekmede başlatmak için Yazar ve İzleyici kutucuğunu seçin.Select the Author & Monitor tile to start the Data Factory UI application on a separate tab.

    Veri fabrikası UI uygulamasını başlatın

Bağlı hizmetler oluşturmaCreate linked services

Bu bölümde bir Databricks bağlı hizmetini yazacaksınız.In this section, you author a Databricks linked service. Bu bağlı hizmet, Databricks kümesine bağlantı bilgilerini içerir:This linked service contains the connection information to the Databricks cluster:

Azure Databricks bağlı hizmeti oluşturmaCreate an Azure Databricks linked service

  1. Başlayalım sayfasında, sol bölmede bulunan Düzenle sekmesine geçin.On the Let's get started page, switch to the Edit tab in the left panel.

    Yeni bağlı hizmeti düzenleme

  2. Pencerenin alt kısmındaki Bağlantılar’ı ve sonra + Yeni’yi seçin.Select Connections at the bottom of the window, and then select + New.

    Yeni bağlantı oluşturma

  3. Yeni Bağlı Hizmet penceresinde İşlem > Azure Databricks’i ve sonra Devam’ı seçin.In the New Linked Service window, select Compute > Azure Databricks, and then select Continue.

    Databricks bağlı hizmeti belirtme

  4. Yeni Bağlı Hizmet penceresinde aşağıdaki adımları tamamlayın:In the New Linked Service window, complete the following steps:

    1. Ad için AzureDatabricks_LinkedService girinFor Name, enter AzureDatabricks_LinkedService

    2. Notebook'unuzu çalıştırmak için uygun Databricks çalışma alanını seçinSelect the appropriate Databricks workspace that you will run your notebook in

    3. Küme seçin'i ve ardından Yeni iş kümesi'ni seçinFor Select cluster, select New job cluster

    4. Etki alanı/Bölge otomatik olarak doldurulmalıdırFor Domain/ Region, info should auto-populate

    5. Erişim Belirteci’ni Azure Databricks çalışma alanından oluşturun.For Access Token, generate it from Azure Databricks workplace. Adımları burada bulabilirsiniz.You can find the steps here.

    6. Küme sürümüiçin 4,2 (Apache Spark 2.3.1, Scala 2,11) seçeneğini belirleyinFor Cluster version, select 4.2 (with Apache Spark 2.3.1, Scala 2.11)

    7. Küme düğümü türü için bu öğreticide Genel Amaçlı (HDD) bölümünde Standart_D3_v2 seçin.For Cluster node type, select Standard_D3_v2 under General Purpose (HDD) category for this tutorial.

    8. Çalışanlar alanına 2 yazın.For Workers, enter 2.

    9. Son ' u seçinSelect Finish

      Bağlı hizmet oluşturmayı tamamlayın

İşlem hattı oluşturmaCreate a pipeline

  1. +(Artı) düğmesini seçin ve ardından menüde Işlem hattı ' nı seçin.Select the + (plus) button, and then select Pipeline on the menu.

    Yeni işlem hattı oluşturma düğmeleri

  2. İşlem hattı içinde kullanılacak bir parametre oluşturun.Create a parameter to be used in the Pipeline. Daha sonra bu parametreyi Databricks Not Defteri Etkinliği’ne geçireceksiniz.Later you pass this parameter to the Databricks Notebook Activity. Boş işlem hattında Parametreler sekmesine, ardından Yeni’ye tıklayın ve 'name' olarak adlandırın.In the empty pipeline, click on the Parameters tab, then New and name it as 'name'.

    Yeni parametre oluşturma

    Name parametresini oluşturma

  3. Etkinlikler araç kutusunda Databricks’i genişletin.In the Activities toolbox, expand Databricks. Etkinlikler araç kutusundan Not Defteri etkinliğini işlem hattı tasarımcısının yüzeyine sürükleyin.Drag the Notebook activity from the Activities toolbox to the pipeline designer surface.

    Not defteri tasarımcı yüzeyine sürükleme

  4. Alt kısımdaki Databricks Not Defteri etkinlik penceresinin özellikler bölümünde aşağıdaki adımları tamamlayın:In the properties for the Databricks Notebook activity window at the bottom, complete the following steps:

    a.a. Azure Databricks sekmesine geçin.Switch to the Azure Databricks tab.

    b.b. AzureDatabricks_LinkedService öğesini seçin (önceki yordamda oluşturdunuz).Select AzureDatabricks_LinkedService (which you created in the previous procedure).

    c.c. Ayarlar sekmesine geçiş yapSwitch to the Settings tab

    c.c. Göz atarak bir Databricks Not Defteri yolu seçin.Browse to select a Databricks Notebook path. Şimdi bir not defteri oluşturup burada yolunu belirtelim.Let’s create a notebook and specify the path here. Sonraki birkaç adımı izleyerek Not Defteri Yolunu alın.You get the Notebook Path by following the next few steps.

    1. Azure Databricks Çalışma Alanını başlatmaLaunch your Azure Databricks Workspace

    2. Çalışma Alanında Yeni Klasör oluşturun ve adftutorial olarak adlandırın.Create a New Folder in Workplace and call it as adftutorial.

      Yeni klasör oluşturma

    3. Yeni bir not defteri (Python) oluşturun, adföğretici klasörü altında mynot defteri ' ni çağıralım, Oluştur ' a tıklayın .Create a new notebook (Python), let’s call it mynotebook under adftutorial Folder, click Create.

      Yeni not defteri oluşturma

      Yeni not defterinin özelliklerini ayarlama

    4. Yeni oluşturulan "mynotebook" adlı not defterine aşağıdaki kodu ekleyin:In the newly created notebook "mynotebook'" add the following code:

      # Creating widgets for leveraging parameters, and printing the parameters
      
      dbutils.widgets.text("input", "","")
      y = dbutils.widgets.get("input")
      print ("Param -\'input':")
      print (y)
      

      Parametreler için pencere öğeleri oluşturma

    5. Bu örnekte Not Defteri Yolu****/adftutorial/mynotebook şeklindedirThe Notebook Path in this case is /adftutorial/mynotebook

  5. Data Factory UI yazma aracına geri dönün.Switch back to the Data Factory UI authoring tool. Notebook1 Etkinliği altında Ayarlar Sekmesine gidin.Navigate to Settings Tab under the Notebook1 Activity.

    a.a. Not Defteri etkinliğine Parametre Ekleyin.Add Parameter to the Notebook activity. Daha önce işlem hattına eklediğiniz parametrenin aynısını kullanın.You use the same parameter that you added earlier to the Pipeline.

    Parametre ekleme

    b.b. Parametreyi girdi olarak adlandırın ve değeri ifade ** @ ardışık düzeni (). Parameters. Name**olarak sağlayın.Name the parameter as input and provide the value as expression @pipeline().parameters.name.

  6. İşlem hattını doğrulamak için araç çubuğundaki Doğrula düğmesini seçin.To validate the pipeline, select the Validate button on the toolbar. Doğrulama penceresini kapatmak için >> (sağ ok) düğmesini seçin.To close the validation window, select the >> (right arrow) button.

    İşlem hattını doğrulama

  7. Tümünü Yayımla.Select Publish All. Data Factory kullanıcı arabirimi, varlıkları (bağlı hizmetler ve işlem hattı) Azure Data Factory hizmetinde yayımlar.The Data Factory UI publishes entities (linked services and pipeline) to the Azure Data Factory service.

    Yeni veri fabrikası varlıklarını yayımlama

İşlem hattı çalıştırmasını tetiklemeTrigger a pipeline run

Araç çubuğunda Tetikleyici’yi ve sonra Şimdi Tetikle’yi seçin.Select Trigger on the toolbar, and then select Trigger Now.

Şimdi Tetikle komutunu seçme

İşlem Hattı Çalıştırma iletişim kutusu name parametresini sorar.The Pipeline Run dialog box asks for the name parameter. Burada parametre olarak /path/filename seçeneğini kullanın.Use /path/filename as the parameter here. Son'a tıklayın.Click Finish.

Name parametreleri için bir değer belirtin

İşlem hattı çalıştırmasını izlemeMonitor the pipeline run

  1. İzleyici sekmesine geçin. bir işlem hattı çalıştırması Görtığınızdan emin olun.Switch to the Monitor tab. Confirm that you see a pipeline run. Not defterinin yürütüldüğü bir Databricks iş kümesinin oluşturulması yaklaşık 5-8 dakika sürer.It takes approximately 5-8 minutes to create a Databricks job cluster, where the notebook is executed.

    İşlem hattını izleme

  2. Düzenli aralıklarla Yenile’yi seçerek işlem hattı çalıştırmasının durumunu denetleyin.Select Refresh periodically to check the status of the pipeline run.

  3. İşlem hattı çalıştırmasıyla ilişkili etkinlik çalıştırmalarını görmek için Eylemler sütunundaki Etkinlik Çalıştırmalarını Göster’i seçin.To see activity runs associated with the pipeline run, select View Activity Runs in the Actions column.

    Etkinlik çalıştırmalarını görüntüleme

Üstteki İşlem Hatları bağlantısını seçerek işlem hattı çalıştırmaları görünümüne dönebilirsiniz.You can switch back to the pipeline runs view by selecting the Pipelines link at the top.

Çıktıyı doğrulamaVerify the output

Azure Databricks çalışma alanında oturum açabilir, Kümeler’e gidebilir ve İş durumunu yürütme bekliyor, çalışıyor veya sonlandırıldı olarak görebilirsiniz.You can log on to the Azure Databricks workspace, go to Clusters and you can see the Job status as pending execution, running, or terminated.

İş kümesini ve işi görüntüleme

İş adı’na tıklayıp gezinerek diğer ayrıntıları görebilirsiniz.You can click on the Job name and navigate to see further details. Çalıştırma başarılı olduğunda, geçirilen parametreleri ve Python not defterinin çıktısını doğrulayabilirsiniz.On successful run, you can validate the parameters passed and the output of the Python notebook.

Çalıştırma ayrıntılarını ve çıktıyı görüntüleme

Sonraki adımlarNext steps

Bu örnekteki işlem hattı bir Databricks Not Defteri etkinliğini tetikler ve Not Defteri’ne bir parametre geçirir.The pipeline in this sample triggers a Databricks Notebook activity and passes a parameter to it. Şunları öğrendiniz:You learned how to:

  • Veri fabrikası oluşturma.Create a data factory.

  • Databricks Not Defteri etkinliğini kullanan bir işlem hattı oluşturun.Create a pipeline that uses a Databricks Notebook activity.

  • İşlem hattı çalıştırması tetikleyin.Trigger a pipeline run.

  • İşlem hattı çalıştırmasını izleme.Monitor the pipeline run.