Azure Data Factory ile Azure Data Lake Depolama 1. Nesil'den 2. Nesil'e veri Azure Data Factory

Uygulama hedefi: Azure SYNAPSE Analytics 'i Azure Data Factory

Azure Data Lake Depolama 2. Nesil, Azure Blob depolamada yerleşik olarak yer alan büyük veri analizine ayrılmış bir özellik kümesidir. Bu hizmet sayesinde hem dosya sistemi hem de nesne depolama alanı yaklaşımlarını kullanarak verilerinize arabirim oluşturabilirsiniz.

Şu anda Azure Data Lake Depolama 1. Nesil kullanıyorsanız, Azure Data Factory kullanarak Data Lake Depolama 1. Nesil'den 2. Nesil'e veri kopyalayıp Azure Data Lake Depolama 2. Nesil'i değerlendirebilirsiniz.

Azure Data Factory, tam olarak yönetilen bir bulut tabanlı veri tümleştirme hizmetidir. Hizmeti kullanarak gölü zengin bir şirket içi ve bulut tabanlı veri depolarından gelen verilerle doldurmak ve analiz çözümlerinizi derlemek için zaman kazanmak için kullanabilirsiniz. Desteklenen bağlayıcıların listesi için Desteklenen veri depoları tablosuna bakın.

Azure Data Factory, ölçek ölçeğini ölçeklendiren, yönetilen bir veri taşıma çözümü sunar. Veri depolamanın ölçeğini Data Factory, yüksek aktarım hızıyla veri alamamaktadır. Daha fazla bilgi için bkz. Kopyalama etkinliği.

Bu makalede, Data Factory veri kopyalama aracını kullanarak Azure Data Lake Depolama 1. Nesil'den Azure Data Lake Depolama 2. Nesil'e veri kopyalama işlemleri açıklanmıştır. Diğer veri depoları türlerinden veri kopyalamak için benzer adımları takip edin.

Önkoşullar

  • Azure aboneliği. Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun.
  • Azure Data Lake Depolama 1. Nesil hesabını içerir.
  • Data Lake Depolama 2. Nesil etkin Depolama Azure depolama hesabı. Depolama hesabınız yoksa bir hesap oluşturun.

Veri fabrikası oluşturma

  1. Sol menüde Kaynak oluştur'Veri ve Analiz > > Data Factory.

    Yeni bölmesinde Data Factory seçimini gösteren ekran görüntüsü.

  2. Yeni veri fabrikası sayfasında, aşağıdaki görüntüde gösterilen alanların değerlerini girin:

    Yeni Veri fabrikası sayfasını gösteren ekran görüntüsü.

    • Ad: Azure veri fabrikanız için genel olarak benzersiz bir ad girin. "LoadADLSDemo veri fabrikası adı kullanılamıyor" hatasını alırsanız veri fabrikası " için farklı bir ad " girin. Örneğin, adınızADFTutorialDataFactory adını kullanın. Veri fabrikasını yeniden oluşturun. Data Factory yapıtlarını adlandırma kuralları için bkz. Data Factory adlandırma kuralları.
    • Abonelik: Veri fabrikasının oluşturularak Azure aboneliğinizi seçin.
    • Kaynak Grubu: Açılan listeden mevcut bir kaynak grubunu seçin. Ayrıca Yeni oluştur seçeneğini belirleyin ve bir kaynak grubunun adını girin. Kaynak grupları hakkında daha fazla bilgi için bkz. Azure kaynaklarınızı yönetmek için kaynak gruplarını kullanma.
    • Sürüm: V2'yi seçin.
    • Konum: Veri fabrikasının konumunu seçin. Açılan listede yalnızca desteklenen konumlar görüntülenir. Veri fabrikası tarafından kullanılan veri depoları başka konumlarda ve bölgelerde olabilir.
  3. Oluştur’u seçin.

  4. Oluşturma işlemi tamam olduktan sonra veri fabrikanıza gidin. Aşağıdaki görüntüde Data Factory giriş sayfasını görebilirsiniz:

    Azure Data Factory Studio kutucuğunun yer Azure Data Factory giriş sayfası.

  5. Veri Tümleştirme uygulamasını ayrı bir sekmede başlatmak için Open Azure Data Factory Studio kutucuğunu aç'ı seçin.

Azure Data Lake Storage 2. Nesil'e verileri yükleme

  1. Giriş sayfasında, veri kopyalama aracını başlatmak için Ingest kutucuğunu seçin.

    ADF giriş sayfasını gösteren ekran görüntüsü.

  2. Özellikler sayfasında, Görev türü altında Yerleşik kopyalama görevi'ne tıklayın ve Görev temposuz veya görev zamanlaması altında Şimdi bir kez çalıştır'ı ve ardından Sonraki'yi seçin.

  3. Kaynak veri deposu sayfasında + Yeni bağlantı'ya tıklayın.

  4. Bağlayıcı galerisinden Azure Data Lake Storage 1. Nesil'i seçin ve sonra da Devam'ı seçin.

    Azure Data Lake 1. Nesil bağlantısını seçme Depolama ekran görüntüsü.

  5. Yeni bağlantı (Azure Data Lake Depolama 1. Nesil) sayfasında şu adımları izleyin:

    1. Hesap adı olarak Data Lake Depolama 1. Nesil'i seçin ve Kiracı'nızı belirtin veya doğrular.
    2. Ayarları doğrulamak için Bağlantıyı sına'ya tıklayın. Ardından Oluştur’u seçin.

    Önemli

    Bu adım adım adım, Azure Data Lake hizmetinizin kimliğini 1. Nesil'de doğrulamak için Azure kaynakları için Depolama kullanacağız. Yönetilen kimliğe Azure Data Lake Depolama 1. Nesil'de uygun izinleri vermek için bu yönergeleri izleyin.

    Azure Data Lake Depolama 1. Nesil bağlantısının yapılandırmasını gösteren ekran görüntüsü.

  6. Kaynak veri deposu sayfasında aşağıdaki adımları tamamlayın.

    1. Bağlantı bölümünde yeni oluşturulan bağlantıyı seçin.
    2. Dosya veya klasör altında, üzerine kopyalamak istediğiniz klasöre ve dosyaya göz atabilirsiniz. Klasörü veya dosyayı seçin ve Tamam'ı seçin.
    3. Recursively ve İkili kopyalama seçeneklerini seçerek kopyalama davranışını belirtin. İleri’yi seçin.

    Kaynak veri deposu sayfasını gösteren ekran görüntüsü.

  7. Hedef veri deposu sayfasında + Yeni bağlantı Azure Data Lake veri Depolama > 2. Nesil Devam'ı > seçin.

    Azure Data Lake 2. Nesil bağlantısını seçme Depolama ekran görüntüsü.

  8. Yeni bağlantı (Azure Data Lake Depolama 2. Nesil) sayfasında aşağıdaki adımları izleyin:

    1. Data Lake Depolama 2. Nesil özellikli Depolama açılan listesinden seçin.
    2. Bağlantıyı oluşturmak için Oluştur'a seçin.

    Azure Data Lake Depolama 2. Nesil bağlantısının yapılandırmasını gösteren ekran görüntüsü.

  9. Hedef veri deposu sayfasında aşağıdaki adımları tamamlayın.

    1. Bağlantı bloğunda yeni oluşturulan bağlantıyı seçin.
    2. Klasör yolu altında, çıktı klasörü adı olarak copyfromadlsgen1 girin ve Sonraki'yi seçin. Data Factory, yoksa kopyalama sırasında ilgili Azure Data Lake Depolama 2. Nesil dosya sistemini ve alt klasörleri oluşturur.

    Hedef veri deposu sayfasını gösteren ekran görüntüsü.

  10. Görev Ayarlar alanı olarak CopyFromADLSGen1ToGen2'yi belirtin ve ardından varsayılan ayarları kullanmak için Sonraki'yi seçin.

  11. Özet sayfasında, ayarları gözden geçirerek Sonraki'yi seçin.

    Özet sayfasını gösteren ekran görüntüsü.

  12. Dağıtım sayfasında, işlem hattını izlemek için İzleyici'yi seçin.

    Dağıtım sayfasını gösteren ekran görüntüsü.

  13. Soldaki İzleyici sekmesinin otomatik olarak seçildiğine dikkat edin. İşlem hattı adı sütunu, etkinlik çalıştırması ayrıntılarını görüntüleme ve işlem hattını yeniden çalıştırma bağlantılarını içerir.

    İşlem hattı çalıştırmalarını izleme sayfasını gösteren ekran görüntüsü.

  14. İşlem hattı çalıştırması ile ilişkili etkinlik çalıştırmalarını görüntülemek için İşlem hattı adı sütunundaki bağlantıyı seçin. İşlem hattında yalnızca bir etkinlik (kopyalama etkinliği) olduğundan tek bir girdi görürsünüz. İşlem hattı çalıştırmaları görünümüne geri dönmek için üst kısmında yer alan breadcrumb menüsünden Tüm işlem hattı çalıştırmaları bağlantısını seçin. Listeyi yenilemek için Yenile’yi seçin.

    İzleme etkinliği çalıştırmalarının sayfasını gösteren ekran görüntüsü.

  15. Her kopyalama etkinliğinin yürütme ayrıntılarını izlemek için etkinlik izleme görünümündeki Etkinlik adı sütununun altındaki Ayrıntılar bağlantısını (gözlük resmi) seçin. Kaynaktan havuza kopyalanan veri hacmi, veri aktarım hızı, karşılık gelen süreye sahip yürütme adımları ve kullanılan yapılandırmalar gibi ayrıntıları izleyebilirsiniz.

    Etkinlik çalıştırması ayrıntılarını gösteren ekran görüntüsü.

  16. Verilerin Azure Data Lake Depolama 2. Nesil hesabınıza kopyalanmış olduğunu doğrulayın.

En iyi uygulamalar

Azure Data Lake Depolama 1. Nesil'den Azure Data Lake Depolama 2. Nesil'e yükseltmeyi değerlendirmek için bkz. Büyük veri analizi çözümlerinizi Azure Data Lake Depolama 1.Nesil'den Azure Data Lake Depolama 2. Nesil'e yükseltme. Aşağıdaki bölümlerde, Data Lake Depolama 1. Nesil'den Data Lake Data Factory 2. Nesil'e veri yükseltmesi için Depolama yöntemleri açıklanmaktadır.

İlk anlık görüntü veri geçişi

Performans

ADF, geliştiricilerin ağ bant genişliğinizi ve depolama IOPS ve bant genişliğinizi kullanarak ortamınız için veri taşıma aktarım hızını en üst düzeye çıkarmak üzere işlem hatları oluşturmalarını sağlayan farklı düzeylerde paralellik sağlayan sunucusuz bir mimari sunar.

Müşteriler Data Lake Depolama 1. Nesil'den 2 MB/sn ve daha yüksek aktarım hızına sahip yüz milyonlarca dosyadan oluşan petabaytlarca veriyi başarıyla geçirmektedir.

farklı paralellik düzeylerinde harika veri taşıma hızları elde edersiniz:

  • Tek bir kopyalama etkinliği ölçeklenebilir işlem kaynaklarından yararlanabilir: Azure Integration Runtime kullanırken, her bir kopyalama etkinliği için sunucusuz bir şekilde en fazla 256 veri tümleştirme birimi (DIUs) belirtebilirsiniz; Şirket içinde barındırılan Integration Runtime kullanılırken, makineyi el ile ölçeklendirebilir veya birden fazla makineye (4 düğüme kadar) ölçeklendirebilirsiniz ve tek bir kopyalama etkinliği dosya kümesini tüm düğümlerde bölümleyebilir.
  • Tek bir kopyalama etkinliği, birden çok iş parçacığı kullanarak veri deposundan okur ve yazar.
  • ADF denetim akışı, örneğin her döngü Için kullanarak birden çok kopyalama etkinliğini paralel olarak başlatabilir.

Veri bölümleri

Data Lake Storage 1. toplam veri boyutunuz 10 TB 'den küçükse ve dosya sayısı 1.000.000 ' den küçükse, tüm verileri tek bir kopyalama etkinliği çalıştırmasında kopyalayabilirsiniz. Kopyalanacak daha büyük bir veriniz varsa veya veri geçişini toplu işlerle yönetme esnekliği ve bunların her birinin belirli bir zaman çerçevesinde tamamlanmasını sağlamak istiyorsanız, verileri bölümleyin. Bölümlendirme, beklenmedik bir sorunun riskini de azaltır.

Dosyaları bölümetmenin yolu, Copy Activity özelliğinden önce Name Range-listafter/listkullanmaktır . her kopyalama etkinliği tek seferde tek bir bölüm kopyalamak üzere yapılandırılabilir, böylece birden çok kopyalama etkinliği verileri tek bir Data Lake Storage 1. hesabı ile kopyalayabilirler.

Hız sınırlaması

En iyi uygulama olarak, uygun bölüm boyutunu belirleyebilmeniz için temsili örnek veri kümesiyle bir performans POC 'si gerçekleştirin.

  1. Varsayılan DIU ayarıyla tek bir bölüm ve tek bir kopyalama etkinliği ile başlayın. Paralel kopyanın her zaman boş (varsayılan) olarak ayarlanması önerilir. Kopyalama üretilen işi sizin için uygun değilse, performans sorunlarını belirleyip çözümleyin, performans ayarlama adımlarını izleyin.

  2. Ağınızın veya veri depolarının ıOPS/bant genişliği limitinin bant genişliği sınırına ulaşana kadar DIU ayarını kademeli olarak artırın veya tek bir kopyalama etkinliğinde izin verilen en fazla 256 DIU 'ya ulaştınız.

  3. Tek bir kopyalama etkinliğinin performansını zaten kapladıysanız ancak ortamınızın işleme üst limitlerine henüz ulaşılamadıysanız, birden çok kopyalama etkinliğini paralel olarak çalıştırabilirsiniz.

Kopyalama etkinliği izlenirkenönemli sayıda azaltma hatası gördüğünüzde, depolama hesabınızın kapasite sınırına ulaştığınızı gösterir. ADF, hiçbir veri kaybolmadığından emin olmak için her bir daraltma hatasını aşmak üzere otomatik olarak yeniden dener, ancak çok sayıda yeniden deneme kopya aktarım hızını da etkilediğinden emin olur. Bu durumda, önemli miktarda azaltma hatalarından kaçınmak için birlikte çalışan kopyalama etkinliği sayısını azaltmanız önerilir. Verileri kopyalamak için tek bir kopyalama etkinliği kullanıyorsanız, DIU 'yı azaltmanız önerilir.

Delta verileri geçişi

yalnızca yeni veya güncelleştirilmiş dosyaları Data Lake Storage 1. yüklemek için birkaç yaklaşımdan yararlanabilirsiniz:

  • Yeni veya güncelleştirilmiş dosyaları zamana göre bölümlenmiş klasöre veya dosya adına göre yükleyin. Bir örnek/2019/05/13/* olur.
  • Yeni veya güncelleştirilmiş dosyaları LastModifiedDate göre yükleyin. büyük miktarlarda dosya kopyalıyorsanız, tek kopyalama etkinlikten, yeni dosyaları belirlemek için tüm Data Lake Storage 1. hesabınızı taramaktan düşük kopya üretilen iş verimini önlemek için önce bölümler yapın.
  • Herhangi bir üçüncü taraf araç veya çözüme göre yeni veya güncelleştirilmiş dosyaları belirler. Sonra, dosya veya klasör adını parametre veya tablo ya da dosya aracılığıyla Data Factory işlem hattına geçirin.

artımlı yükleme yapmak için uygun sıklık, Azure Data Lake Storage 1. içindeki toplam dosya sayısına ve her seferinde yüklenecek yeni veya güncelleştirilmiş dosya hacmine bağlıdır.

Ağ güvenliği

varsayılan olarak, ADF, HTTPS protokolü üzerinden şifreli bağlantı kullanarak Azure Data Lake Storage 1. verilerini Gen2 'e aktarır. HTTPS, aktarım sırasında veri şifrelemesi sağlar ve gizlice dinleme ve ortadaki adam saldırıları önler.

Alternatif olarak, verilerin genel Internet üzerinden aktarılmasını istemiyorsanız, verileri özel bir ağ üzerinden aktararak daha yüksek güvenlik elde edebilirsiniz.

ACL 'Leri koruma

Data Lake Storage 1. ' den Data Lake Storage 2. sürümüne yükselttiğinizde acl 'leri veri dosyalarıyla birlikte çoğaltmak istiyorsanız bkz. Data Lake Storage 1. acl 'leri koruma.

Esnekliği

Tek bir kopyalama etkinliği çalıştırmasında, ADF 'nin, veri depolarında veya temel ağdaki belirli bir geçici başarısızlık düzeyini işleyebilmesi için yerleşik yeniden deneme mekanizması vardır. 10 TB 'den fazla veri geçirirseniz, beklenmeyen sorunların riskini azaltmak için verileri bölümleymeniz önerilir.

Önceden tanımlanmış hataları atlamak için kopyalama etkinliğinde hata toleransını de etkinleştirebilirsiniz. Kopyalama etkinliğinde veri tutarlılığı doğrulaması Ayrıca, verilerin kaynaktan hedef depoya yalnızca başarıyla kopyalanmadığından ve ayrıca kaynak ve hedef depo arasında tutarlı olduğundan emin olmak için ek doğrulama yapmak üzere etkinleştirilebilir.

İzinler

Data Factory, Data Lake Storage 1. bağlayıcısı Azure kaynak kimlik doğrulamaları için hizmet sorumlusu ve yönetilen kimliği destekler. Data Lake Storage 2. bağlayıcısı , Azure kaynak kimlik doğrulamaları için hesap anahtarını, hizmet sorumlusunu ve yönetilen kimliği destekler. Data Factory, ihtiyacınız olan tüm dosyaları veya erişim denetim listelerini (ACL 'Ler) geziniyor ve kopyalayabilmesini sağlamak için, tüm dosyaları erişmek, okumak veya yazmak ve tercih ediyorsanız ACL 'Leri ayarlamak için sağladığınız hesap için yüksek sayıda izin verin. Geçiş dönemi boyunca buna bir süper kullanıcı veya sahip rolü verin.

Sonraki adımlar