Hızlı başlangıç: Azure Databricks ile yönetilen Apache Spark kümesi dağıtma

Apache Cassandra için Azure yönetilen örneği, yönetilen açık kaynaklı Apache Cassandra veri merkezleri için otomatik dağıtım ve ölçeklendirme işlemleri sağlar, karma senaryoları hızlandırarak sürekli bakımı azaltır.

Bu hızlı başlangıçta, Apache Cassandra kümesi için Azure yönetilen örneğinizin Azure sanal ağı içinde tam olarak yönetilen bir Apache Spark kümesi oluşturmak üzere Azure portal nasıl kullanılacağı gösterilmektedir. Spark kümesini Azure Databricks ' de oluşturacaksınız. Daha sonra kümeye Not defterleri oluşturabilir veya ekleyebilir, farklı veri kaynaklarından verileri okuyabilir ve öngörüleri çözümleyebilirsiniz.

Azure sanal ağınızda (sanal ağ ekleme) Azure Databricks dağıtmahakkında ayrıntılı yönergeler için de daha fazla bilgi edinebilirsiniz.

Azure Databricks kümesi oluşturma

Apache Cassandra için Azure yönetilen örneği olan bir sanal ağda Azure Databricks kümesi oluşturmak için aşağıdaki adımları izleyin:

  1. Azure Portal oturum açın.

  2. Sol gezinti bölmesinde kaynak gruplarını bulun ve yönetilen örneğinizin dağıtıldığı sanal ağı içeren kaynak grubunuza gidin.

  3. Sanal ağ kaynağını açın ve Adres alanını bir yere göz önünde oluşturun:

    Sanal ağınızın adres alanını alın.

  4. Kaynak grubundan, Ekle ' yi seçin ve arama alanında Azure Databricks ara ' yı seçin:

    Azure Databricks arayın.

  5. Azure Databricks hesap oluşturmak için Oluştur ' u seçin:

    Azure Databricks hesabı oluşturun.

  6. Aşağıdaki değerleri girin:

    • Çalışma alanı adı -Databricks çalışma alanınız için bir ad sağlayın.
    • Bölge -sanal ağınızla aynı bölgeyi seçtiğinizden emin olun.
    • fiyatlandırma katmanı -standart, Premium veya deneme arasında seçim yapın. Bu katmanlar hakkında daha fazla bilgi için bkz. Databricks fiyatlandırma sayfası.

    Databricks hesabı için çalışma alanı adı, bölge ve fiyatlandırma katmanını doldurun.

  7. Sonra, sekmesini seçin ve aşağıdaki ayrıntıları girin:

    • Sanal ağınızda (VNet) Azure Databricks çalışma alanı dağıtın - Evet' i seçin.
    • Sanal ağ -açılan listeden, yönetilen örneğinizin bulunduğu sanal ağı seçin.
    • Ortak alt ağ adı -genel alt ağ için bir ad girin.
    • Ortak alt ağ CIDR aralığı -genel alt ağ IÇIN bir IP aralığı girin.
    • Özel alt ağ adı -özel alt ağ için bir ad girin.
    • Özel alt ağ CIDR aralığı -özel alt ağ IÇIN bir IP aralığı girin.

    Aralık çakışmalarını önlemek için, daha yüksek aralıklar seçtiğinizden emin olun. Gerekirse, aralıkları bölmek için bir görsel alt ağ Hesaplayıcısı kullanın:

    Sanal ağ alt ağı hesaplayıcısını kullanın.

    Aşağıdaki ekran görüntüsünde ağ bölmesine ilişkin örnek Ayrıntılar gösterilmektedir:

    Ortak ve özel alt ağ adlarını belirtin.

  8. Gözden geçir ve oluştur ' u seçin ve sonra çalışma alanını dağıtmak için oluşturun .

  9. Oluşturulduktan sonra çalışma alanını başlatın .

  10. Azure Databricks portalına yönlendirilirsiniz. Portaldan Yeni küme' yi seçin.

  11. Yeni küme bölmesinde, aşağıdaki alanlardan farklı tüm alanlar için varsayılan değerleri kabul edin:

    • Küme adı -küme için bir ad girin.
    • Databricks Runtime sürüm -Spark 3. x desteği Için Databricks Runtime sürüm 7,5 veya üstünü seçmenizi öneririz.

    Databricks çalışma zamanı sürümünü ve Spark kümesini seçin.

  12. Gelişmiş Seçenekler ' i genişletin ve aşağıdaki yapılandırmayı ekleyin. Düğüm IP 'lerini ve kimlik bilgilerini değiştirdiğinizden emin olun:

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. hem yerel hem de Azure Cosmos DB cassandra uç noktalarına bağlanmak için Apache Spark cassandra bağlayıcı kitaplığını kümenize ekleyin. Kümenizde, Kitaplıklar > Yeni > Maven'i yükleyip Maven koordinatları ' nı seçin com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 .

Databricks içinde Maven paketleri aramasını gösteren ekran görüntüsü.

Kaynakları temizleme

Bu yönetilen örnek kümesini kullanmaya devam edemeyecekiyorsa, aşağıdaki adımlarla silin:

  1. Azure portal sol taraftaki menüden kaynak grupları' nı seçin.
  2. Listeden, bu hızlı başlangıç için oluşturduğunuz kaynak grubunu seçin.
  3. Kaynak grubuna genel bakış bölmesinde kaynak grubunu sil' i seçin.
  4. Sonraki pencerede, silinecek kaynak grubunun adını girin ve Sil' i seçin.

Sonraki adımlar

Bu hızlı başlangıçta, Apache Cassandra kümesi için Azure yönetilen örneğinizin sanal ağı içinde tam olarak yönetilen Apache Spark kümesi oluşturmayı öğrendiniz. Daha sonra, küme ve veri merkezi kaynaklarını yönetmeyi öğrenebilirsiniz: