Azure Data Factory ile Azure Data Lake Storage 1. Nesil 2. Nesil'e veri kopyalama

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

Bahşiş

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Azure Data Lake Storage 2. Nesil, yerleşik olarak büyük veri analizine ayrılmış bir özellik kümesidirAzure Blob depolama. Bu hizmet sayesinde hem dosya sistemi hem de nesne depolama alanı yaklaşımlarını kullanarak verilerinize arabirim oluşturabilirsiniz.

Şu anda Azure Data Lake Storage 1. Nesil kullanıyorsanız Azure Data Factory kullanarak verileri Data Lake Storage 1. Nesil'den 2. Nesil'e kopyalayarak Azure Data Lake Storage 2. Nesil değerlendirebilirsiniz.

Azure Data Factory, tam olarak yönetilen bir bulut tabanlı veri tümleştirme hizmetidir. Hizmeti kullanarak gölü zengin bir şirket içi ve bulut tabanlı veri depolarından alınan verilerle doldurabilir ve analiz çözümlerinizi oluştururken zaman kazanabilirsiniz. Desteklenen bağlayıcıların listesi için Desteklenen veri depoları tablosuna bakın.

Azure Data Factory ölçeği genişleten, yönetilen bir veri taşıma çözümü sunar. Data Factory'nin ölçeği genişletme mimarisi nedeniyle verileri yüksek aktarım hızıyla alabilir. Daha fazla bilgi için bkz. performans Kopyalama etkinliği.

Bu makalede, Verileri Azure Data Lake Storage 1. Nesil'dan Azure Data Lake Storage 2. Nesil'a kopyalamak için Data Factory veri kopyalama aracını nasıl kullanacağınız gösterilmektedir. Diğer veri depolarından veri kopyalamak için benzer adımları izleyebilirsiniz.

Önkoşullar

  • Azure aboneliği. Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun.
  • Azure Data Lake Storage 1. Nesil içinde veri bulunan hesap.
  • Data Lake Storage 2. Nesil etkin azure Depolama hesabı. Depolama hesabınız yoksa bir hesap oluşturun.

Veri fabrikası oluşturma

  1. Veri fabrikanızı henüz oluşturmadıysanız Hızlı Başlangıç: Azure portalını ve Azure Data Factory Studio'yu kullanarak veri fabrikası oluşturma bölümünde yer alan adımları izleyin. Oluşturduktan sonra Azure portalında veri fabrikasına göz atın.

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

  2. Veri Entegrasyonu uygulamasını ayrı bir sekmede başlatmak için Azure Data Factory Studio'yu Aç kutucuğunda Aç'ı seçin.

Azure Data Lake Storage 2. Nesil'e verileri yükleme

  1. Veri kopyalama aracını başlatmak için giriş sayfasında Alma kutucuğunu seçin.

    Screenshot that shows the ADF home page.

  2. Özellikler sayfasında, Görev türü altında Yerleşik kopyalama görevi'ni seçin ve Görev temposu veya görev zamanlaması altında Şimdi çalıştır'ı ve ardından İleri'yi seçin.

  3. Kaynak veri deposu sayfasında + Yeni bağlantı'yı seçin.

  4. Bağlayıcı galerisinden Azure Data Lake Storage 1. Nesil'i seçin ve sonra da Devam'ı seçin.

    Screenshot showing the page of selecting the Azure Data Lake Storage Gen1 connection.

  5. Yeni bağlantı (Azure Data Lake Storage 1. Nesil) sayfasında şu adımları izleyin:

    1. Hesap adı için Data Lake Storage 1. Nesil seçin ve Kiracı'yı belirtin veya doğrulayın.
    2. Ayarları doğrulamak için Bağlantıyı test et'i seçin. Daha sonra, Oluştur'u seçin.

    Önemli

    Bu kılavuzda, Azure Data Lake Storage 1. Nesil kimliğinizi doğrulamak için Azure kaynakları için yönetilen kimlik kullanacaksınız. Yönetilen kimliğe Azure Data Lake Storage 1. Nesil'de uygun izinleri vermek için bu yönergeleri izleyin.

    Screenshot showing the configuration of the Azure Data Lake Storage Gen1 connection.

  6. Kaynak veri deposu sayfasında aşağıdaki adımları tamamlayın.

    1. Bağlan ion bölümünde yeni oluşturulan bağlantıyı seçin.
    2. Dosya veya klasör altında, üzerine kopyalamak istediğiniz klasöre ve dosyaya göz atın. Klasörü veya dosyayı seçin ve Tamam'ı seçin.
    3. Özyinelemeli ve İkili kopyalama seçeneklerini belirleyerek kopyalama davranışını belirtin. İleri'yi seçin.

    Screenshot showing the source data store page.

  7. Hedef veri deposu sayfasında + Yeni bağlantı> Azure Data Lake Storage 2. Nesil> Koşul' seçeneğini belirleyin.

    Screenshot showing the page of selecting the Azure Data Lake Storage Gen2 connection.

  8. Yeni bağlantı (Azure Data Lake Storage 2. Nesil) sayfasında şu adımları izleyin:

    1. Depolama hesap adı açılan listesinden Data Lake Storage 2. Nesil özellikli hesabınızı seçin.
    2. Bağlantıyı oluşturmak için Oluştur'u seçin.

    Screenshot showing the configuration of the Azure Data Lake Storage Gen2 connection.

  9. Hedef veri deposu sayfasında aşağıdaki adımları tamamlayın.

    1. Bağlan bloğunda yeni oluşturulan bağlantıyı seçin.
    2. Klasör yolu'na çıkış klasörü adı olarak copyfromadlsgen1 yazın ve İleri'yi seçin. Data Factory, mevcut değilse, kopyalama sırasında ilgili Azure Data Lake Storage 2. Nesil dosya sistemini ve alt klasörleri oluşturur.

    Screenshot showing the destination data store page.

  10. Ayarlar sayfasında, Görev adı alanı için CopyFromADLSGen1ToGen2'yi belirtin ve ardından varsayılan ayarları kullanmak için İleri'yi seçin.

  11. Özet sayfasında ayarları gözden geçirin ve İleri'yi seçin.

    Screenshot showing the Summary page.

  12. Dağıtım sayfasında, işlem hattını izlemek için İzleyici'yi seçin.

    Screenshot showing the Deployment page.

  13. Soldaki İzleyici sekmesinin otomatik olarak seçildiğine dikkat edin. İşlem hattı adı sütunu, etkinlik çalıştırması ayrıntılarını görüntülemeye ve işlem hattını yeniden çalıştırmaya yönelik bağlantılar içerir.

    Screenshot showing the page of monitoring pipeline runs.

  14. İşlem hattı çalıştırmasıyla ilişkili etkinlik çalıştırmalarını görüntülemek için İşlem hattı adı sütunundaki bağlantıyı seçin. İşlem hattında yalnızca bir etkinlik (kopyalama etkinliği) olduğundan tek bir girdi görürsünüz. İşlem hattı çalıştırmaları görünümüne geri dönmek için üstteki içerik haritası menüsünde Tüm işlem hattı çalıştırmaları bağlantısını seçin. Listeyi yenilemek için Yenile’yi seçin.

    Screenshot showing the page of monitoring activity runs.

  15. Her kopyalama etkinliğinin yürütme ayrıntılarını izlemek için etkinlik izleme görünümündeki Etkinlik adı sütununun altındaki Ayrıntılar bağlantısını (gözlük resmi) seçin. Kaynaktan havuza kopyalanan veri hacmi, veri aktarım hızı, ilgili süreye sahip yürütme adımları ve kullanılan yapılandırmalar gibi ayrıntıları izleyebilirsiniz.

    Screenshot showing the activity run details.

  16. Verilerin Azure Data Lake Storage 2. Nesil hesabınıza kopyalandığını doğrulayın.

En iyi yöntemler

Azure Data Lake Storage 1. Nesil'den genel olarak Azure Data Lake Storage 2. Nesil yükseltmeyi değerlendirmek için bkz. Büyük veri analizi çözümlerinizi Azure Data Lake Storage 1. Nesil'den Azure Data Lake Storage 2. Nesil. Aşağıdaki bölümlerde, Data Lake Storage 1. Nesil'den Data Lake Storage 2. Nesil'a veri yükseltmesi için Data Factory'yi kullanmaya yönelik en iyi yöntemler tanıtabilirsiniz.

İlk anlık görüntü veri geçişi

Performans

ADF, farklı düzeylerde paralelliğe olanak tanıyan sunucusuz bir mimari sunar ve geliştiricilerin ortamınız için veri taşıma aktarım hızını en üst düzeye çıkarmak için ağ bant genişliğinizi ve depolama IOPS'sini ve bant genişliğini tam olarak kullanmak üzere işlem hatları oluşturmasına olanak tanır.

Müşteriler, yüzlerce milyonlarca dosyadan oluşan petabaytlarca veriyi Data Lake Storage 1. Nesil'den 2. Nesil'e başarıyla geçirerek 2 GBps ve üzeri bir sürekli aktarım hızına sahip oldu.

Farklı paralellik düzeyleri uygulayarak daha yüksek veri taşıma hızları elde edebilirsiniz:

  • Tek kopyalama etkinliği ölçeklenebilir işlem kaynaklarından yararlanabilir: Azure Integration Runtime kullanırken, her kopyalama etkinliği için sunucusuz bir şekilde en fazla 256 veri tümleştirme birimi (DIU) belirtebilirsiniz; şirket içinde barındırılan Integration Runtime'ı kullanırken, makinenin ölçeğini el ile artırabilir veya birden çok makineye (en fazla 4 düğüm), ve tek bir kopyalama etkinliği, dosya kümesini tüm düğümler arasında bölümler.
  • Tek bir kopyalama etkinliği birden çok iş parçacığı kullanarak veri deposundan okur ve veri deposuna yazar.
  • ADF denetim akışı, birden çok kopyalama etkinliğini paralel olarak başlatabilir; örneğin, For Each döngüsünü kullanabilir.

Veri bölümleri

Data Lake Storage 1. Nesil'daki toplam veri boyutunuz 10 TB'tan küçükse ve dosya sayısı 1 milyondan azsa, tek bir kopyalama etkinliği çalıştırmasında tüm verileri kopyalayabilirsiniz. Kopyalanacak daha fazla veriniz varsa veya veri geçişini toplu olarak yönetme esnekliğini istiyorsanız ve bunların her birinin belirli bir zaman dilimi içinde tamamlanmasını istiyorsanız, verileri bölümleyin. Bölümleme, beklenmeyen sorun riskini de azaltır.

Dosyaları bölümlemenin yolu, kopyalama etkinliği özelliğinde name range- listAfter/listBefore kullanmaktır. Her kopyalama etkinliği, birden çok kopyalama etkinliğinin tek bir Data Lake Storage 1. Nesil hesaptan eşzamanlı olarak veri kopyalayabilmesi için bir kerede bir bölümü kopyalanacak şekilde yapılandırılabilir.

Hız sınırlaması

En iyi uygulama olarak, uygun bölüm boyutunu belirleyebilmeniz için temsili bir örnek veri kümesiyle performans POC'sini yürütebilirsiniz.

  1. Tek bir bölümle ve varsayılan DIU ayarıyla tek bir kopyalama etkinliğiyle başlayın. Paralel kopyanın her zaman boş (varsayılan) olarak ayarlanması önerilir. Kopyalama aktarım hızı sizin için uygun değilse performans ayarlama adımlarını izleyerek performans sorunlarını belirleyin ve çözün.

  2. Ağınızın bant genişliği sınırına veya veri depolarının IOPS/bant genişliği sınırına ulaşana veya tek bir kopyalama etkinliğinde izin verilen maksimum 256 DIU'ya ulaşana kadar DIU ayarını kademeli olarak artırın.

  3. Tek bir kopyalama etkinliğinin performansını en üst düzeye çıkardıysanız ancak ortamınızın aktarım hızı üst sınırlarına ulaşmadıysanız, birden çok kopyalama etkinliğini paralel olarak çalıştırabilirsiniz.

Kopyalama etkinliği izlemeden önemli sayıda azaltma hatası gördüğünüzde, depolama hesabınızın kapasite sınırına ulaştığınızı gösterir. ADF, veri kaybı olmadığından emin olmak için her azaltma hatasının üstesinden gelmek için otomatik olarak yeniden dener, ancak çok fazla yeniden deneme kopya aktarım hızınızı da düşürebilir. Böyle bir durumda, önemli miktarda azaltma hatasını önlemek için birlikte çalışan kopyalama etkinliklerinin sayısını azaltmanız tavsiye edilir. Verileri kopyalamak için tek kopyalama etkinliği kullandıysanız DIU'ları azaltmanız tavsiye edilir.

Delta veri geçişi

Data Lake Storage 1. Nesil yalnızca yeni veya güncelleştirilmiş dosyaları yüklemek için birkaç yaklaşım kullanabilirsiniz:

  • Bölümlenmiş zamana veya dosya adına göre yeni veya güncelleştirilmiş dosyaları yükleyin. Örnek: /2019/05/13/*.
  • LastModifiedDate tarafından yeni veya güncelleştirilmiş dosyaları yükleyin. Büyük miktarlarda dosya kopyalanıyorsa, tek kopyalama etkinliğinin yeni dosyaları tanımlamak için tüm Data Lake Storage 1. Nesil hesabınızın taranmasından kaynaklanan düşük kopyalama aktarım hızını önlemek için önce bölümleri yapın.
  • Herhangi bir üçüncü taraf aracı veya çözümüyle yeni veya güncelleştirilmiş dosyaları tanımlayın. Ardından dosya veya klasör adını parametre veya tablo ya da dosya aracılığıyla Data Factory işlem hattına geçirin.

Artımlı yük için uygun sıklık, Azure Data Lake Storage 1. Nesil'daki toplam dosya sayısına ve her seferinde yüklenecek yeni veya güncelleştirilmiş dosyaların hacmine bağlıdır.

Ağ güvenliği

Varsayılan olarak ADF, HTTPS protokolü üzerinden şifrelenmiş bağlantı kullanarak Azure Data Lake Storage 1. Nesil'dan 2. Nesil'e veri aktarır. HTTPS aktarım sırasında veri şifrelemesi sağlar ve gizlice dinleme ve ortadaki adam saldırılarını önler.

Alternatif olarak, verilerin genel İnternet üzerinden aktarılmasını istemiyorsanız, verileri özel bir ağ üzerinden aktararak daha yüksek güvenlik elde edebilirsiniz.

ACL'leri koru

Data Lake Storage 1. Nesil'den Data Lake Storage 2. Nesil'a yükseltirken ACL'leri veri dosyalarıyla birlikte çoğaltmak istiyorsanız bkz. Data Lake Storage 1. Nesil ACL'leri koruma.

Dayanıklılık

Tek bir kopyalama etkinliği çalıştırması içinde, ADF'nin veri depolarındaki veya temel alınan ağdaki belirli bir geçici hata düzeyini işleyebilmesi için yerleşik yeniden deneme mekanizması vardır. 10 TB'tan fazla veri geçirirseniz, beklenmeyen sorun riskini azaltmak için verileri bölümlemeniz tavsiye edilir.

Önceden tanımlanmış hataları atlamak için kopyalama etkinliğinde hataya dayanıklılık özelliğini de etkinleştirebilirsiniz. Kopyalama etkinliğindeki veri tutarlılığı doğrulaması , verilerin yalnızca kaynaktan hedef depoya başarıyla kopyalanmasını sağlamak için ek doğrulama yapmak için etkinleştirilebilir, aynı zamanda kaynak ve hedef depo arasında tutarlı olduğu da doğrulanabilir.

İzinler

Data Factory'de Data Lake Storage 1. Nesil bağlayıcısı, Azure kaynak kimlik doğrulamaları için hizmet sorumlusunu ve yönetilen kimliği destekler. Data Lake Storage 2. Nesil bağlayıcısı Azure kaynak kimlik doğrulamaları için hesap anahtarını, hizmet sorumlusunu ve yönetilen kimliği destekler. Data Factory'nin tüm dosyalarda veya erişim denetim listelerinde (ACL) gezinebilmesini ve kopyalayabilmesini sağlamak için, hesaba tüm dosyalara erişmek, bunları okumak veya yazmak için yeterince yüksek izinler vermeniz ve isterseniz ACL'leri ayarlamanız gerekir. Geçiş döneminde hesaba süper kullanıcı veya sahip rolü vermeli ve geçiş tamamlandıktan sonra yükseltilmiş izinleri kaldırmalısınız.