Hızlı Başlangıç: Azure portalını kullanarak Databricks üzerinde bir Spark işi çalıştırma

Bu hızlı başlangıçta, bir Apache Spark kümesiyle Azure Databricks çalışma alanı oluşturmak için Azure portal kullanırsınız. Bir işi kümede çalıştırır ve Boston güvenliği verilerinden gerçek zamanlı raporlar oluşturmak için özel grafikleri kullanabilirsiniz.

Önkoşullar

  • Azure aboneliği- ücretsiz olarak bir tane oluşturun. Bu öğretici Azure Ücretsiz deneme aboneliğikullanılarak gerçekleştirilemez. Ücretsiz hesabınız varsa, profilinize gidin ve aboneliğinizi Kullandıkça Ödeile değiştirin. Daha fazla bilgi için bkz. Ücretsiz Azure hesabı. Ardından, harcama limitini kaldırınve bölgenizdeki vCPU 'lar için bir kota artışı isteyin . Azure Databricks çalışma alanınızı oluşturduğunuzda, çalışma alanına 14 gün boyunca ücretsiz Premium Azure Databricks DBUs erişimi sağlamak için deneme (Premium-14 gün ücretsiz DBUs) fiyatlandırma katmanını seçebilirsiniz.

  • Azure portalında oturum açın.

Not

Azure ticari bulutunda Fedrampa yüksek gibi ABD devlet uyumluluk sertifikalarını tutan bir Azure Databricks çalışma alanı oluşturmak istiyorsanız bu deneyimle erişebilmek için lütfen Microsoft veya Databricks temsilcinize ulaşın.

Azure Databricks çalışma alanı oluşturma

Bu bölümde, Azure portal veya Azure CLı kullanarak bir Azure Databricks çalışma alanı oluşturursunuz.

  1. Azure Portal, kaynak > Analizioluştur > Azure Databricks' u seçin.

    Azure portal databricks

  2. Azure Databricks Hizmeti bölümünde, Databricks çalışma alanı oluşturmak için değerler sağlayın.

    Azure Databricks çalışma alanı oluşturma

    Aşağıdaki değerleri sağlayın:

    Özellik Açıklama
    Çalışma alanı adı Databricks çalışma alanınız için bir ad sağlayın
    Abonelik Açılan listeden Azure aboneliğinizi seçin.
    Kaynak grubu Yeni bir kaynak grubu oluşturmayı veya mevcut bir kaynak grubunu kullanmayı seçin. Kaynak grubu, bir Azure çözümüne ilişkin kaynakları tutan bir kapsayıcıdır. Daha fazla bilgi için bkz. Azure Kaynak Grubuna genel bakış.
    Konum Batı ABD 2'yi seçin. Kullanılabilir diğer bölgeler için bkz. Bölgeye göre kullanılabilir Azure hizmetleri.
    Fiyatlandırma Katmanı Standart, Premiumveya denemearasında seçim yapın. Bu katmanlar hakkında daha fazla bilgi için bkz. Databricks fiyatlandırma sayfası.
  3. Gözden geçir + oluştur' u ve ardından Oluştur' u seçin. Çalışma alanının oluşturulması birkaç dakika sürer. Çalışma alanı oluşturma sırasında, Bildirimler' de dağıtım durumunu görüntüleyebilirsiniz. Bu işlem tamamlandıktan sonra Kullanıcı hesabınız, çalışma alanına yönetici kullanıcı olarak otomatik olarak eklenir.

    Databricks dağıtım kutucuğu

    Bir çalışma alanı dağıtımı başarısız olduğunda, çalışma alanı hala hatalı durumda oluşturulur. Başarısız çalışma alanını silin ve dağıtım hatalarını çözen yeni bir çalışma alanı oluşturun. Başarısız çalışma alanını sildiğinizde, yönetilen kaynak grubu ve başarıyla dağıtılan tüm kaynaklar da silinir.

Databricks’te Spark kümesi oluşturma

Not

Azure Databricks kümesini oluşturmak için ücretsiz hesap oluşturmak istiyorsanız kümeyi oluşturmadan önce profilinize gidin ve aboneliğini kullandıkça öde modeline geçirin. Daha fazla bilgi için bkz. Ücretsiz Azure hesabı.

  1. Azure portalında, oluşturduğunuz Databricks çalışma alanına gidin ve sonra Çalışma Alanını Başlat’a tıklayın.

  2. Azure Databricks portalına yönlendirilirsiniz. Portalda Yeni küme' ya tıklayın.

    Azure 'da databricks

  3. Yeni küme sayfasında, bir küme oluşturmak için değerleri girin.

    Azure 'da Databricks Spark kümesi oluşturma

    Aşağıdakiler dışında diğer tüm varsayılan değerleri kabul edin:

    • Küme için bir ad girin.

    • Bu makalede, (5. x, 6. x, 7. x) çalışma zamanına sahip bir küme oluşturun.

    • Süre ** _ _ etkinlik süresi dolduktan sonra Sonlandır** onay kutusunu seçtiğinizden emin olun. Küme kullanılmazsa kümenin sonlandırılması için biz süre (dakika cinsinden) belirtin.

      Küme oluştur' u seçin. Küme çalışmaya başladıktan sonra kümeye not defterleri ekleyebilir ve Spark işleri çalıştırabilirsiniz.

Küme oluşturma hakkında daha fazla bilgi için bkz. Azure Databricks üzerinde Spark kümesi oluşturma.

Spark SQL işi çalıştırma

Databricks içinde bir not defteri oluşturmak, Not defterini Azure açık veri kümelerinden verileri okuyacak şekilde yapılandırmak ve sonra veriler üzerinde bir Spark SQL işi çalıştırmak için aşağıdaki görevleri gerçekleştirin.

  1. Sol bölmede Azure Databricks' yi seçin. Ortak görevlerden Yeni Not defteri' ni seçin.

    Databricks 'te Not defteri oluşturma

  2. Not Defteri Oluştur iletişim kutusuna bir ad girin, dil olarak Python ' ı seçin ve daha önce oluşturduğunuz Spark kümesini seçin.

    Databricks 'te Not defteri oluşturma

    Oluştur’u seçin.

  3. Bu adımda, Azure açık veri kümelerindeBoston Güvenlik verileriyle bir Spark dataframe oluşturun ve verileri sorgulamak için SQL kullanın.

    Aşağıdaki komut, Azure depolama erişim bilgilerini ayarlar. Bu PySpark kodunu ilk hücreye yapıştırın ve kodu çalıştırmak için SHIFT + enter tuşlarını kullanın.

    blob_account_name = "azureopendatastorage"
    blob_container_name = "citydatacontainer"
    blob_relative_path = "Safety/Release/city=Boston"
    blob_sas_token = r"?st=2019-02-26T02%3A34%3A32Z&se=2119-02-27T02%3A34%3A00Z&sp=rl&sv=2018-03-28&sr=c&sig=XlJVWA7fMXCSxCKqJm8psMOh0W4h7cSYO28coRqF2fs%3D"
    

    Aşağıdaki komut Spark 'ın blob depolamadan uzaktan okunmasını sağlar. Bu PySpark kodunu bir sonraki hücreye yapıştırın ve kodu çalıştırmak için SHIFT + enter tuşlarını kullanın.

    wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
    spark.conf.set('fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name), blob_sas_token)
    print('Remote blob path: ' + wasbs_path)
    

    Aşağıdaki komut bir DataFrame oluşturur. Bu PySpark kodunu bir sonraki hücreye yapıştırın ve kodu çalıştırmak için SHIFT + enter tuşlarını kullanın.

    df = spark.read.parquet(wasbs_path)
    print('Register the DataFrame as a SQL temporary view: source')
    df.createOrReplaceTempView('source')
    
  4. Bir SQL ifadesini çalıştırmak, kaynakadlı geçici görünümden ilk 10 veri satırı döndürür. Bu PySpark kodunu bir sonraki hücreye yapıştırın ve kodu çalıştırmak için SHIFT + enter tuşlarını kullanın.

    print('Displaying top 10 rows: ')
    display(spark.sql('SELECT * FROM source LIMIT 10'))
    
  5. Aşağıdaki ekran görüntüsünde gösterildiği gibi bir tablo çıktısı görürsünüz (yalnızca bazı sütunlar gösterilmiştir):

    Örnek veriler

  6. Artık bu verilerin görsel bir gösterimini oluşturarak, diğer kaynaklar yerine vatandaşları Connect app ve City çalışan uygulaması kullanılarak kaç tane güvenlik olayının raporlanacağı gösterilir. Tablo çıkışının alt kısmından çubuk grafik simgesini seçin ve ardından Çizim seçenekleri' ne tıklayın.

    Çubuk grafik oluştur

  7. Çizimi Özelleştir menüsünde, değerleri ekran görüntüsünde gösterilen şekilde sürükleyip bırakın.

    Pasta grafiğini özelleştirme

    • Anahtarları kaynağaayarlayın.

    • Değerleri **\ıd>< **olarak ayarlayın.

    • Toplama’yı SAYI olarak ayarlayın.

    • Görüntü türünü pasta grafikolarak ayarlayın.

      Uygula’ya tıklayın.

Kaynakları temizleme

Makaleyi tamamladıktan sonra kümeyi sonlandırabilirsiniz. Bunu yapmak için Azure Databricks çalışma alanında sol bölmedeki Kümeler’i seçin. Sonlandırmak istediğiniz küme için imleci Eylemler sütunu altındaki üç noktanın üzerine taşıyın ve Sonlandır simgesini seçin.

Databricks kümesini durdurma

Küme oluşturma sırasında ** _ _ işlem yapılmadan dakika sonra Sonlandır** onay kutusunu seçtiğiniz takdirde otomatik olarak durdurulur. Böyle bir durumda, belirtilen süre boyunca etkin olmaması durumunda küme otomatik olarak durdurulur.

Sonraki adımlar

Bu makalede, Azure Databricks 'de bir Spark kümesi oluşturdunuz ve Azure açık veri kümelerinden verileri kullanarak bir Spark işi çalıştırdınız. Diğer veri kaynaklarından Azure Databricks’e verileri aktarma hakkında bilgi almak için Spark veri kaynakları bölümüne de bakabilirsiniz. Azure Databricks kullanılarak bir ETL işleminin (verileri ayıklama, dönüştürme ve yükleme) nasıl gerçekleştirileceğini öğrenmek için sonraki makaleye ilerleyin.