Visual Studio için Data Lake Araçları'nı kullanarak Azure HDInsight'a bağlanma ve Apache Hive sorguları çalıştırma

Visual Studio için Microsoft Azure Data Lake ve Stream Analytics Araçları'nı (Data Lake Araçları) kullanmayı öğrenin. Azure HDInsight'ta Apache Hadoop kümelerine bağlanmak ve Hive sorguları göndermek için aracını kullanın.

HDInsight kullanma hakkında daha fazla bilgi için bkz . HDInsight'ı kullanmaya başlama.

Visual Studio için Data Lake Araçlarını hem Azure Data Lake Analytics’e hem de HDInsight’a erişmek için kullanabilirsiniz. Data Lake Araçları hakkında bilgi için bkz. Visual Studio için Data Lake Araçları'nı kullanarak U-SQL betikleri geliştirme.

Önkoşullar

Bu makaleyi tamamlamak ve Visual Studio için Data Lake Araçları'nı kullanmak için aşağıdaki öğelere ihtiyacınız vardır:

Visual Studio için Data Lake Araçları’nı yükleme

Visual Studio sürümünüz için Data Lake Araçları'nı yüklemek için uygun yönergeleri izleyin:

  • Visual Studio 2017 veya Visual Studio 2019 için:

    Visual Studio yüklemesi sırasında Azure geliştirme iş yükünü veya Veri depolama ve işleme iş yükünü eklediğinizden emin olun.

    Mevcut Visual Studio yüklemeleri için IDE menü çubuğuna gidin ve Araçlar Araçları>ve Özellikleri Al'ı seçerek Visual Studio Yükleyicisi açın. İş Yükleri sekmesinde en azından Azure geliştirme iş yükünü seçin (Web ve Bulut altında). Veya Veri depolama ve işleme iş yükünü seçin (Diğer Araç Kümeleri'nin altında).

    Workload selection, Visual Studio Installer.

  • Visual Studio 2015 için:

    Data Lake Araçları'nı indirin. Visual Studio sürümünüzle eşleşen Data Lake Araçları sürümünü seçin.

Visual Studio için Data Lake Araçlarını Güncelleştirme

Ardından Data Lake Araçları'nı en son sürüme güncelleştirdiğinizden emin olun.

  1. Visual Studio'yu açın.

  2. Başlangıç penceresinde Kod olmadan devam et'i seçin.

  3. Visual Studio IDE menü çubuğunda Uzantılar>Uzantıları Yönet'i seçin.

  4. Uzantıları Yönet iletişim kutusunda Güncelleştirmeler düğümünü genişletin.

  5. Kullanılabilir güncelleştirmeler listesinde Azure Data Lake ve Stream Analytic Tools varsa seçin. Ardından Güncelleştir düğmesini seçin. İndir ve Yükle iletişim kutusu görüntülenip kaybolduktan sonra, Visual Studio güncelleştirme zamanlamasına Azure Data Lake ve Stream Analytic Tools uzantısını ekler.

  6. Tüm Visual Studio pencerelerini kapatın. VSIX Yükleyicisi iletişim kutusu görüntülenir.

  7. Lisans koşullarını okumak için Lisans'ı seçin, ardından VSIX Yükleyicisi iletişim kutusuna dönmek için Kapat'ıseçin.

  8. Değiştir'i seçin. Uzantı güncelleştirmesinin yüklenmesi başlar. Bir süre sonra, iletişim kutusu değişiklik yapıldığını gösterecek şekilde değişir. Kapat'ı seçin ve yüklemeyi tamamlamak için Visual Studio'yu yeniden başlatın.

Not

Etkileşimli Sorgu kümelerine bağlanmak ve etkileşimli Hive sorguları çalıştırmak için yalnızca Data Lake Araçları sürüm 2.3.0.0 veya üzerini kullanabilirsiniz.

Azure aboneliklerine bağlanma

HDInsight kümelerinize bağlanmak, bazı temel yönetim işlemleri yapmak ve Hive sorguları çalıştırmak için Visual Studio için Data Lake Araçları'nı kullanabilirsiniz.

Not

Genel bir Hadoop kümesine bağlanma hakkında bilgi için bkz . Visual Studio kullanarak Hive sorguları yazma ve gönderme.

Bir Azure aboneliğine Bağlanma

Azure aboneliğinize bağlanmak için:

  1. Visual Studio'yu açın.

  2. Başlangıç penceresinde Kod olmadan devam et'i seçin.

  3. IDE menü çubuğunda Sunucu Gezginini Görüntüle'yi>seçin.

  4. Sunucu Gezgini'nde Azure'a sağ tıklayın, Microsoft Azure Aboneliği'ne Bağlan'ı seçin ve kimlik doğrulama işlemini tamamlayın. Mevcut HDInsight kümelerinin listesini görüntülemek için Sunucu Gezgini'nde Azure>HDInsight'ı genişletin.

  5. Kümeniz yoksa Azure portalını, Azure PowerShell'i veya HDInsight SDK'sını kullanarak bir küme oluşturun. Daha fazla bilgi için bkz . HDInsight'ta kümeleri ayarlama.

    HDInsight cluster list, Server Explorer, Visual Studio.

  6. HDInsight kümesini genişletin. Küme Hive Veritabanları için düğümler içerir. Ayrıca, varsayılan bir depolama hesabı, ek bağlantılı depolama hesapları ve Hadoop Hizmet Günlüğü. Varlıkları daha da genişletebilirsiniz.

Azure aboneliğinize bağlandıktan sonra aşağıdaki görevleri gerçekleştirebilirsiniz.

Visual Studio'dan Azure'a Bağlan

Visual Studio'dan Azure portalına bağlanmak için:

  1. Sunucu Gezgini'nde Azure>HDInsight'ı genişletin ve kümenizi seçin.

  2. HDInsight kümesine sağ tıklayın ve Azure portalında Kümeyi Yönet'i seçin.

Visual Studio'dan soru ve geri bildirim sunma

Visual Studio'dan soru sormak ve geri bildirim sağlamak için:

  1. Sunucu Gezgini'nden Azure>HDInsight'ı seçin.

  2. HDInsight'a sağ tıklayın ve soru sormak için MSDN Forumu'nuveya geri bildirimde bulunmak için Geri Bildirim Ver'i seçin.

Not

Şu anda bağlanabileceğiniz tek HDInsight kümesi türü hive türüdür.

HDInsight kümesini bağlamak için:

  1. HDInsight'a sağ tıklayın ve HDInsight Kümesini Bağla'yı seçerek HDInsight Kümesini Bağla iletişim kutusunu görüntüleyin.

  2. biçiminde bir Bağlan ion Url'sihttps://CLUSTERNAME.azurehdinsight.netgirin. Başka bir alana gittiğinizde Küme Adı, URL'nizin küme adı bölümüyle otomatik olarak doldurulur. Ardından bir Kullanıcı Adı ve Parola girin ve İleri'yi seçin.

    Link a cluster, HDInsight, Visual Studio.

  3. Bitir'i seçin. Küme bağlama başarılı olursa, küme HDInsight düğümü altında listelenir.

Bağlı bir kümeyi güncelleştirmek için kümeye sağ tıklayın ve Düzenle'yi seçin. Daha sonra küme bilgilerini güncelleştirebilirsiniz.

Edit a linked cluster, HDInsight, Visual Studio.

Bağlantılı kaynakları araştırma

Sunucu Gezgini'nde, varsayılan depolama hesabını ve bağlı tüm depolama hesaplarını görebilirsiniz. Varsayılan depolama hesabını genişletirseniz, depolama hesabında kapsayıcıları görebilirsiniz. Varsayılan depolama hesabı ve varsayılan kapsayıcı işaretlenmiştir.

Data Lake Tools for Visual Studio linked resources in Server Explorer.

Kapsayıcıya sağ tıklayın ve kapsayıcının içeriğini görüntülemek için Kapsayıcıyı Görüntüle'yi seçin. Kapsayıcıyı açtıktan sonra araç çubuğu düğmelerini kullanarak içerik listesini yenileyebilir, Blobu Karşıya Yükle, Seçili blobları sil, Blobu Aç ve seçili blobları indir (Farklı Kaydet) yapabilirsiniz.

Container list and blob operations, HDInsight cluster, Visual Studio.

Etkileşimli Apache Hive sorguları çalıştırma

Apache Hive, Hadoop üzerinde oluşturulmuş bir veri ambarı altyapısıdır. Hive veri özetleme, sorgular ve analiz için kullanılır. Visual Studio’dan Hive sorguları çalıştırmak üzere Visual Studio için Data Lake Araçları’nı kullanabilirsiniz. Hive hakkında daha fazla bilgi için bkz . Azure HDInsight'ta Apache Hive ve HiveQL nedir?.

Azure HDInsight'taki Interactive Query, Apache Hive 2.1'de LLAP üzerinde Hive kullanır. Etkileşimli Sorgu, büyük, depolanan veri kümelerindeki karmaşık, veri ambarı stili sorgulara etkileşim sağlar. Etkileşimli Sorguda Hive sorguları çalıştırmak, geleneksel Hive toplu işlerinden çok daha hızlıdır.

Not

Etkileşimli Hive sorgularını yalnızca bir HDInsight Etkileşimli Sorgu kümesine bağlandığınızda çalıştırabilirsiniz.

Hive işinin içinde neler olduğunu görmek için Visual Studio için Data Lake Araçları'nı da kullanabilirsiniz. Visual Studio için Data Lake Araçları bazı Hive işlerinin Yarn günlüklerini toplar ve yüzeye çıkarır.

Sunucu Gezgini'nden Azure>HDInsight'ı seçin ve kümenizi seçin. Bu düğüm, sunucu gezgininde izleyebileceğiniz bölümlerin başlangıç noktasıdır.

hivesampletable öğesini görüntüleme

Tüm HDInsight kümelerinin adlı hivesampletablevarsayılan örnek Hive tablosu vardır.

Kümenizden Hive Veritabanları varsayılan>hivesampletable'ı> seçin.

  • Şemayı hivesampletable görüntülemek için:

    Hivesampletable'i genişletin. Sütunların hivesampletable adları ve veri türleri gösterilir.

  • Verileri görüntülemek hivesampletable için:

    Hivesampletable'a sağ tıklayın ve İlk 100 Satırı Görüntüle'yi seçin. 100 sonuç listesi Hive Tablosu: hivesampletable penceresinde görüntülenir. Bu eylem, Hive ODBC sürücüsünü kullanarak aşağıdaki Hive sorgusunu çalıştırmaya eşdeğerdir:

    SELECT * FROM hivesampletable LIMIT 100

    Satır sayısını satır sayısını değiştirerek özelleştirebilirsiniz; açılan listeden 50, 100, 200 veya 1000 satır seçebilirsiniz.

Hive tabloları oluşturma

Bir Hive tablosu oluşturmak için GUI’yi ya da Hive sorgularını kullanabilirsiniz. Hive sorgularını kullanma hakkında bilgi için bkz . Hive sorguları oluşturma ve çalıştırma.

  1. Kümenizden Hive Veritabanları varsayılanı'nı> seçin.

  2. Varsayılana sağ tıklayın ve Tablo Oluştur'u seçin.

  3. Tabloyu yapılandırın.

  4. yeni Hive tablosunu oluşturan işi göndermek için Tablo Oluştur düğmesini seçin.

    Create Table window, Hive, HDInsight cluster, Visual Studio.

Hive sorguları oluşturma ve çalıştırma

Hive sorguları oluşturmak ve çalıştırmak için iki seçeneğiniz vardır:

  • Geçici sorgular oluşturma
  • Hive uygulaması oluşturma

Geçici sorgu oluşturma

Geçici sorgu oluşturmak ve çalıştırmak için:

  1. Sorguyu çalıştırmak istediğiniz kümeye sağ tıklayın ve Hive Sorgusu Yaz'ı seçin.

  2. Bir Hive sorgusu girin.

    Hive düzenleyicisi IntelliSense’i destekler. Visual Studio için Data Lake Araçları, Hive betiğinizi düzenlerken uzak meta verilerin yüklenmesini destekler. Örneğin, yazarsanız SELECT * FROMIntelliSense önerilen tüm tablo adlarını listeler. Bir tablo adı belirtildiğinde, IntelliSense sütun adlarını listeler. Araçlar çoğu Hive DML deyimlerini, alt sorguları ve yerleşik UDF'leri destekler.

    IntelliSense example 1, Hive ad-hoc query, HDInsight cluster, Visual Studio.

    IntelliSense example 2, Hive ad-hoc query, HDInsight cluster, Visual Studio.

    Not

    IntelliSense yalnızca HDInsight araç çubuğunda seçilen kümelerin meta verilerini önerir.

    Kullanabileceğiniz örnek bir sorgu aşağıda verilmiştir:

    SELECT devicemodel, COUNT(devicemodel) AS deviceCount
    FROM hivesampletable
    GROUP BY devicemodel
    ORDER BY devicemodel
    
  3. Yürütme modunu seçin:

    • Etkileşimli

      İlk açılan listede Etkileşimli'yi ve ardından Yürüt'i seçin.

      Interactive mode, Hive ad-hoc query, HDInsight cluster, Visual Studio.

    • Batch

      İlk açılan listede Batch'i ve ardından Gönder'i seçin. Alternatif olarak Gönder'in yanındaki açılan simgeyi seçip Gelişmiş'i de seçebilirsiniz.

      Batch mode, Hive ad-hoc query, HDInsight cluster, Visual Studio.

      Gelişmiş gönderme seçeneğini seçerseniz, Betik Gönder iletişim kutusu görüntülenir. Betik için İş Adı, Bağımsız Değişkenler, Ek Yapılandırmalar ve Durum Dizini'ni yapılandırın.

      Submit Script dialog box, Hive ad-hoc query, HDInsight cluster, Visual Studio.

      Not

      Toplu işlemleri Etkileşimli Sorgu kümelerine gönderemezsiniz. Etkileşimli modu kullanmanız gerekir.

Hive uygulaması oluşturma

Hive çözümü oluşturmak ve çalıştırmak için:

  1. Menü çubuğundan Dosya>Yeni Proje'yi> seçin.

  2. Yeni proje oluştur penceresinde arama kutusunu seçin ve Hive yazın. Ardından Hive Uygulaması'nı ve ardından İleri'yi seçin.

  3. Yeni projenizi yapılandırın penceresinde bir Proje adı girin, proje Konumunu seçin veya oluşturun ve ardından Oluştur'u seçin.

    New Hive application, Configure your new project window, HDInsight Visual Studio.

  4. Betiği açmak için Çözüm Gezgini’nde Script.hql öğesine çift tıklayın.

İş özetini ve çıktıyı görüntüleme

İş özeti Batch ve Etkileşimli mod arasında biraz değişiklik gösterir.

Hive job summary windows, batch and interactive mode, Visual Studio.

İş durumu Tamamlandı olarak değişene kadar durumu güncelleştirmek için Yenile simgesini kullanın.

  • Batch modundan iş ayrıntıları için, İş Sorgusu, İş Çıktısı veya İş Günlüğü'nü görmek veya Yarn Günlüklerini Görüntülemek için alttaki bağlantıları seçin.

  • Etkileşimli moddan iş ayrıntıları için Çıkış ve HiveServer2 Çıkış bölmelerine bakın.

    Hive interactive job output, HDInsight cluster, Visual Studio.

İş grafiğini görüntüleme

Şu anda iş grafikleri yalnızca Yürütme altyapısı olarak Tez kullanan Hive işleri için gösteriliyor. Tez'i etkinleştirme hakkında bilgi için bkz . Azure HDInsight'ta Apache Hive ve HiveQL nedir?. Ayrıca bkz. Harita Azaltma yerine Apache Tez kullanma.

Köşedeki tüm işleçleri görüntülemek için iş grafiğinin köşelerine çift tıklayın. Ayrıca, işleç hakkında daha fazla ayrıntı görmek için belirli bir işleci işaret edebilirsiniz.

Yürütme altyapısı olarak Tez belirtilse bile, hiçbir Tez uygulaması başlatılmamışsa iş grafiği görünmeyebilir. İş DML deyimleri içermediğinden bu durum oluşabilir. Veya DML deyimleri bir Tez uygulaması başlatmadan geri dönebileceği için. Örneğin, SELECT * FROM table1 Tez uygulamasını başlatmaz.

Apache Hive job graph, Visual Studio.

Görev yürütme ayrıntılarını görüntüleme

hive işleri için yapılandırılmış ve görselleştirilmiş bilgiler almak için iş grafiğinden Görev Yürütme Ayrıntısı'nı seçebilirsiniz. Ayrıca daha fazla iş ayrıntısı alabilirsiniz. Performans sorunları oluşursa, sorun hakkında daha fazla bilgi almak için bu görünümü kullanabilirsiniz. Örneğin, her görevin nasıl çalıştığı hakkındaki bilgileri ve her görev hakkında ayrıntılı bilgileri (veri okuma/yazma, zamanlama/başlangıç/bitiş saati ve daha fazlası) alabilirsiniz. İş yapılandırmalarını veya sistem mimarisini görselleştirilmiş bilgilere göre ayarlamak için bilgileri kullanın.

Task Execution View window, Data Lake Visual Studio Tools.

Hive İşlerini Görüntüleme

Hive işleri için iş sorguları, iş çıktısı, iş günlükleri ve Yarn günlüklerini görüntüleyebilirsiniz.

Araçların en son sürümünde, Yarn günlüklerini toplayarak ve gezinerek Hive işlerinizin içinde neler olduğunu görebilirsiniz. Yarn günlüğü, performans sorunlarını araştırmanıza yardımcı olabilir. HDInsight'ın Yarn günlüklerini nasıl topladığı hakkında daha fazla bilgi için bkz . Apache Hadoop YARN uygulama günlüklerine erişme.

Hive işlerini görüntülemek için:

  1. HDInsight kümesine sağ tıklayın ve İşleri Görüntüle'yi seçin.

    View Jobs, Apache Hive, HDInsight cluster, Visual Studio.

    Küme üzerinde çalıştırılan Hive işlerinin listesi görüntülenir.

  2. Bir iş seçin. Hive İşi Özeti penceresinde aşağıdaki bağlantılardan birini seçin:

    • İş Sorgusu
    • İş Çıktısı
    • İş Günlüğü
    • Yarn Günlüğü

Apache Pig betiklerini çalıştırma

  1. Menü çubuğundan Dosya>Yeni Proje'yi> seçin.

  2. Başlangıç penceresinde arama kutusunu seçin ve Pig yazın. Ardından Pig Uygulaması'nın ardından İleri'yi seçin.

  3. Yeni projenizi yapılandırın penceresinde bir Proje adı girin ve proje için bir Konum seçin veya oluşturun. Daha sonra, Oluştur'u seçin.

  4. IDE Çözüm Gezgini bölmesinde Script.pig dosyasına çift tıklayarak betiği açın.

Geri bildirim ve bilinen sorunlar

  • Null değerlerle başlatılan sonuçların gösterilmediği bir sorun düzeltilmiştir. Bu sorun sizi engelliyorsa destek ekibine başvurun.

  • Visual Studio'nun oluşturduğu HQL betiği, kullanıcının yerel bölge ayarına bağlı olarak kodlanır. Betiği bir kümeye ikili dosya olarak yüklerseniz betik doğru şekilde yürütülmez.

Sonraki adımlar

Bu makalede Visual Studio’dan HDInsight kümelerine bağlanmak üzere Visual Studio için Data Lake Araçları paketini kullanmayı öğrendiniz. Ayrıca bir Hive sorgusu çalıştırmayı öğrendiniz.