Hive sorgusuna aktar

Not

Uygulama hedefi: Machine Learning Studio (klasik)

Bu içerik yalnızca Studio (klasik) ile ilgilidir. Benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısına eklenmiştir. Bu makalede iki sürümü karşılaştırandaha fazla bilgi edinin.

Bu makalede, Azure Machine Learning Studio (klasik) içindeki verileri dışarı aktarma modülündeki verileri Hive 'a aktar seçeneğinin nasıl kullanılacağı açıklanır. Bu seçenek, çok büyük veri kümeleriyle çalışırken ve Machine Learning deneme verilerinizi bir Hadoop kümesine veya HDInsight dağıtılmış depolamaya kaydetmek istediğinizde faydalıdır. Ayrıca, bir MapReduce işi kullanarak işleyebilmeniz için, ara sonuçları veya diğer verileri Hadoop 'a dışarı aktarmak isteyebilirsiniz.

Verileri Hive 'e aktarma

  1. Veri dışa aktarma modülünü denemenize ekleyin. Bu modülü, veri girişi ve çıkış kategorisinde Azure Machine Learning Studio (klasik) bulabilirsiniz.

    Modülü dışarı aktarmak istediğiniz veri kümesine bağlayın.

  2. Veri kaynağı Için Hive sorgusu' nu seçin.

  3. Hive tablo adı için, veri kümesinin depolandığı Hive tablosunun adını yazın.

  4. Hcatalog sunucusu URI 'si metin kutusuna kümenizin tam adını yazın.

    Örneğin, adıyla bir küme oluşturduysanız mycluster001 Şu biçimi kullanın:

    https://mycluster001.azurehdinsight.net

  5. Hadoop Kullanıcı hesabı adı metin kutusunda, kümeyi sağladığınızda kullandığınız Hadoop Kullanıcı hesabını yapıştırın.

  6. Hadoop Kullanıcı hesabı parolası metin kutusuna kümeyi sağladığınızda kullandığınız kimlik bilgilerini yazın.

  7. Çıktı verilerinin konumu için, verilerin nerede depolanacağını belirten seçeneği seçin: bir veya Azure.

    Veriler Hadoop Dağıtılmış dosya sistemi (IBU) içinde ise, yeni girdiğiniz hesap ve parola aracılığıyla erişilebilir olmalıdır.

    Veriler Azure 'da ise depolama hesabının konumunu ve kimlik bilgilerini belirtin.

  8. \ Sunucu URI 'si için, bu seçeneği belirlediyseniz , ön ek olmadan HDInsight küme adını belirtin https:// .

  9. Azure seçeneğini seçtiyseniz, depolama hesabı adını ve modülün depolamaya bağlanmak için kullanabileceği kimlik bilgilerini girin.

    • Azure depolama hesabı adı: Azure hesabının adını yazın. Örneğin, depolama hesabının tam URL'si ise https://myshared.blob.core.windows.net myshared yazın.

    • Azure depolama anahtarı: Depolama hesabına erişmek için sağlanan anahtarı kopyalayıp yapıştırın.

    • Azure kapsayıcı adı: Küme için varsayılan kapsayıcıyı belirtin. İpuçları için, varsayılan kapsayıcıyı nasıl bula ilgili ipuçları için Teknik notlar bölümüne bakın.

  10. Önbelleğe alınmış sonuçları kullan: Denemeyi her çalıştırsanız Hive tablosu yeniden yazmaktan kaçınmak için bu seçeneği belirleyin. Modül parametrelerinde başka değişiklik yoksa deneme, hive tablosuna yalnızca modülün ilk çalıştırı veya verilerde değişiklik olduğunda yazar.

    Deneme her çalıştırıldığında Hive tablosu yazmak için Önbelleğe alınmış sonuçları kullan seçeneğinin seçimini kaldırın.

  11. Denemeyi çalıştırın.

Örnekler

Verileri Dışarı Aktarma modülünü kullanma örnekleri için bkz. Azure Yapay Zeka Galerisi.

  • Gelişmiş Analiz Süreci ve Teknoloji uygulamalı: HDInsight Hadoopkümelerini kullanma: Bu makale, Hive kullanarak küme oluşturma, verileri karşıya yükleme ve Studio'dan (klasik) verileri çağırma hakkında ayrıntılı bir kılavuz sağlar.

Teknik notlar

Bu bölümde uygulama ayrıntıları, ipuçları ve sık sorulan soruların yanıtları yer almaktadır.

Sık sorulan sorular

Büyük veri kümeleri yazarken yetersiz bellek sorunlarından kaçınma

Bazen Hadoop kümesi varsayılan yapılandırması MapReduce işini çalıştırmayı destekleyecek kadar sınırlıdır. Örneğin, bu HDInsight Sürüm Notları'da varsayılan ayarlar dört düğümlü bir küme olarak tanımlanır.

MapReduce işinin gereksinimleri kullanılabilir kapasiteyi aşarsa Hive sorguları Yetersiz Bellek hata iletisi döndürür ve bu da Verileri Dışarı Aktarma işlemi başarısız olur. Bu durumda, Hive sorguları için varsayılan bellek ayırmayı değiştirebilirsiniz.

Aynı verilerin gereksiz bir şekilde yeniden yüklenmesini önleme

Denemeyi her çalıştırarak Hive tablosu oluşturmak istemiyorsanız Önbelleğe alınmış sonuçları kullan seçeneğini TRUE olarak belirleyin. Bu seçenek TRUE olarak ayarlanırsa modül, denemenin daha önce çalıştırıp çalıştırma olmadığını ve önceki bir çalıştırmanın bulunıp buluna olmadığını kontrol eder, yazma işlemi gerçekleştirlanmaz.

Kullanım ipuçları

Küme için varsayılan kapsayıcıyı bulmak zor olabilir. İşte bazı ipuçları:

  • Kümenizi varsayılan ayarları kullanarak oluşturduysanız, kümenin oluşturularak aynı zamanda aynı adla bir kapsayıcı oluşturulur. Bu kapsayıcı, küme için varsayılan kapsayıcıdır.

  • Kümeyi ÖZEL OLUŞTUR seçeneğini kullanarak oluşturduysanız, varsayılan kapsayıcıyı seçmek için size iki seçenek verildi.

    Mevcut kapsayıcı: Mevcut bir kapsayıcıyı seçtiysanız, bu kapsayıcı küme için varsayılan depolama kapsayıcısıdır.

    Varsayılan kapsayıcı oluşturma: Bu seçeneği seçtiyseniz kümeyle aynı adı alan bir kapsayıcı oluşturulur ve bu kapsayıcı adını küme için varsayılan kapsayıcı olarak belirtmeniz gerekir.

Modül parametreleri

Name Aralık Tür Varsayılan Description
Veri kaynağı Liste Veri kaynağı veya havuz Azure Blob Depolama Veri kaynağı HTTP, FTP, anonim HTTPS veya FTPS, Azure BLOB depolamadaki bir dosya, Azure tablosu, Azure SQL Veritabanı, Hive tablosu veya OData uç noktası olabilir.
Hive tablo adı herhangi biri Dize yok Hive'daki tablonun adı
HCatalog sunucusu URI'sı herhangi biri Dize yok Templeton uç noktası
Hadoop kullanıcı hesabı adı herhangi biri Dize yok Hadoop HDFS/HDInsight kullanıcı adı
Hadoop kullanıcı hesabı parolası herhangi biri SecureString yok Hadoop./HDInsight parolası
Çıkış verilerinin konumu herhangi biri Özniteliğiyle HDFS OutputDir için bir veya Azure belirtin
Sunucu URI 'SI herhangi biri Dize yok Kalan REST uç noktası
Azure depolama hesabı adı herhangi biri Dize yok Azure depolama hesabı adı
Azure depolama anahtarı herhangi biri SecureString yok Azure depolama anahtarı
Azure kapsayıcı adı herhangi biri Dize yok Azure kapsayıcı adı
Önbelleğe alınmış sonuçları kullan DOĞRU/YANLıŞ Boole FALSE Modül yalnızca geçerli önbellek yoksa yürütülür; Aksi takdirde, önceki yürütmeden önbelleğe alınmış verileri kullanın.

Özel durumlar

Özel durum Description
Hata 0027 İki nesnenin aynı boyutta olması gerektiğinde bir özel durum oluşur, ancak bunlar değildir.
Hata 0003 Bir veya daha fazla giriş null veya boşsa bir özel durum oluşur.
Hata 0029 Geçersiz bir URI geçir geldiğinde özel durum oluşur.
Hata 0030 bir dosya indirilenemay olduğunda içinde bir özel durum oluşur.
Hata 0002 Bir veya daha fazla parametre ayrıştırılana veya belirtilen türden hedef yöntemin gerekli türüne dönüştürülememesi bir özel durum oluşur.
Hata 0009 Azure depolama hesabı adı veya kapsayıcı adı yanlış belirtilirse özel durum oluşur.
Hata 0048 Bir dosyanın açılması mümkün değilken bir özel durum oluşur.
Hata 0046 Belirtilen yolda dizin oluşturulamaysa özel durum oluşur.
Hata 0049 Bir dosyayı ayrıştırmak mümkün değilken bir özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning kodları.

API özel durumlarının listesi için bkz. Machine Learning REST API Kodları.

Ayrıca bkz.

Verileri İçeri Aktarma
Verileri Dışarı Aktarma
Dışarı aktarma Azure SQL Veritabanı
Dışarı aktarma Azure Blob Depolama
Azure Tablosuna Aktarma