Eşleme veri akışını kullanarak verileri güvenli bir şekilde dönüştürme

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

Bahşiş

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Azure Data Factory kullanmaya yeni başlıyorsanız bkz. Azure Data Factory'ye giriş.

Bu öğreticide, Data Factory Yönetilen'de eşleme veri akışını kullanarak verileri Azure Data Lake Storage 2. Nesil bir kaynaktan Data Lake Storage 2. Nesil havuzuna kopyalayıp dönüştüren (her ikisi de yalnızca seçili ağlara erişime izin veren) bir işlem hattı oluşturmak için Data Factory kullanıcı arabirimini (UI) kullanacaksınız Sanal Ağ. Eşleme veri akışını kullanarak verileri dönüştürürken bu öğreticideki yapılandırma desenini genişletebilirsiniz.

Bu öğreticide, aşağıdaki adımları gerçekleştireceksiniz:

  • Veri fabrikası oluşturma.
  • Veri akışı etkinliğiyle işlem hattı oluşturma.
  • Dört dönüştürme ile bir eşleme veri akışı oluşturun.
  • İşlem hattında test çalıştırması yapma.
  • Veri akışı etkinliğini izleme.

Önkoşullar

  • Azure aboneliği. Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir Azure hesabı oluşturun.
  • Azure depolama hesabı. Data Lake Depolama kaynak ve havuz veri depoları olarak kullanırsınız. Depolama hesabınız yoksa, oluşturma adımları için bkz. Azure depolama hesabı oluşturma. Depolama hesabının yalnızca seçili ağlardan erişime izin verdiğinden emin olun.

Bu öğreticide dönüştüreceğimiz dosya, bu GitHub içerik sitesinde bulunabilen moviesDB.csv dosyasıdır. GitHub'dan dosyayı almak için içeriği istediğiniz bir metin düzenleyicisine kopyalayarak yerel olarak .csv dosyası olarak kaydedin. Dosyayı depolama hesabınıza yüklemek için bkz . Azure portalı ile blobları karşıya yükleme. Örnekler sample-data adlı bir kapsayıcıya başvurur.

Veri fabrikası oluşturma

Bu adımda bir veri fabrikası oluşturacak ve Data Factory kullanıcı arabirimini açarak veri fabrikasında işlem hattı oluşturacaksınız.

  1. Microsoft Edge veya Google Chrome'u açın. Şu anda Data Factory kullanıcı arabirimini yalnızca Microsoft Edge ve Google Chrome web tarayıcıları desteklemektedir.

  2. Soldaki menüde Kaynak>oluştur Analytics>Data Factory'yi seçin.

  3. Yeni veri fabrikası sayfasında Ad bölümüne ADFTutorialDataFactory girin.

    Veri fabrikasının adı genel olarak benzersiz olmalıdır. Ad değeri hakkında bir hata iletisi alırsanız, veri fabrikası için farklı bir ad girin (örneğin, adınızADFTutorialDataFactory). Data Factory yapıtlarının adlandırma kuralları için bkz.Data Factory adlandırma kuralları.

  4. Veri fabrikasını oluşturmak istediğiniz Azure aboneliğinizi seçin.

  5. Kaynak Grubu için aşağıdaki adımlardan birini uygulayın:

    • Var olanı kullan’ı seçin ve ardından açılır listeden var olan bir kaynak grubu belirleyin.
    • Yeni oluştur’u seçin ve bir kaynak grubunun adını girin.

    Kaynak grupları hakkında daha fazla bilgi için bkz. Azure kaynaklarınızı yönetmek için kaynak gruplarını kullanma.

  6. Sürüm bölümünde V2'yi seçin.

  7. Konum bölümünden veri fabrikası için bir konum seçin. Açılan listede yalnızca desteklenen konumlar görüntülenir. Veri fabrikası tarafından kullanılan veri depoları (örneğin, Azure Depolama ve Azure SQL Veritabanı) ve hesaplamalar (örneğin, Azure HDInsight) başka bölgelerde olabilir.

  8. Oluştur’u seçin.

  9. Oluşturma işlemi tamamlandıktan sonra Bildirim merkezinde bildirimi görürsünüz. Data Factory sayfasına gitmek için Kaynağa git'i seçin.

  10. Data Factory kullanıcı arabirimini ayrı bir sekmede başlatmak için Azure Data Factory Studio'yu Aç'ı seçin.

Data Factory Yönetilen Sanal Ağ'nde Azure IR oluşturma

Bu adımda bir Azure IR oluşturacak ve Data Factory Yönetilen Sanal Ağ etkinleştirebilirsiniz.

  1. Data Factory portalında Yönet'e gidin ve Yeni'yi seçerek yeni bir Azure IR oluşturun.

    Screenshot that shows creating a new Azure IR.

  2. Tümleştirme çalışma zamanı kurulumu sayfasında, gerekli özelliklere göre hangi tümleştirme çalışma zamanının oluşturulacağını seçin. Bu öğreticide Azure, Şirket İçinde Barındırılan seçeneğini belirleyip Devam'a tıklayın.

  3. Azure'ı seçin ve ardından Devam'a tıklayarak azure tümleştirme çalışma zamanı oluşturun.

    Screenshot that shows a new Azure IR.

  4. Sanal ağ yapılandırması (Önizleme) altında Etkinleştir'i seçin.

    Screenshot that shows enabling a new Azure IR.

  5. Oluştur’u seçin.

Veri akışı etkinliğiyle işlem hattı oluşturma

Bu adımda, veri akışı etkinliği içeren bir işlem hattı oluşturacaksınız.

  1. Azure Data Factory'nin giriş sayfasında Düzenle'yi seçin.

    Screenshot that shows the data factory home page with the Orchestrate button highlighted.

  2. İşlem hattının özellikler bölmesinde, işlem hattı adı için TransformMovies girin.

  3. Etkinlikler bölmesinde Taşı ve Dönüştür'ü genişletin. bölmeden Veri Akışı etkinliğini işlem hattı tuvaline sürükleyin.

  4. Veri akışı ekleme açılır penceresinde Yeni veri akışı oluştur'u ve ardından Eşleme Veri Akışı'ni seçin. İşiniz bittiğinde Tamam'ı seçin.

    Screenshot that shows Mapping Data Flow.

  5. Özellikler bölmesinde veri akışınızı TransformMovies olarak adlandırın.

  6. İşlem hattı tuvalinin üst çubuğunda hata ayıklama kaydırıcısını Veri Akışı kaydırın. Hata ayıklama modu, dinamik bir Spark kümesinde dönüştürme mantığının etkileşimli olarak test edilmesini sağlar. Veri Akışı kümelerin ısınması 5-7 dakika sürer ve kullanıcıların Veri Akışı geliştirme yapmayı planlıyorlarsa önce hata ayıklamayı açmaları önerilir. Daha fazla bilgi için bkz . Hata Ayıklama Modu.

    Screenshot that shows the Data flow debug slider.

Veri akışı tuvalinde dönüştürme mantığı oluşturma

Veri akışınızı oluşturduktan sonra otomatik olarak veri akışı tuvaline gönderilirsiniz. Bu adımda, Data Lake Depolama'daki moviesDB.csv dosyasını alan ve 1910 ile 2000 arasında komedilerin ortalama derecelendirmesini toplayan bir veri akışı oluşturacaksınız. Ardından bu dosyayı Data Lake Depolama'a geri yazacaksınız.

Kaynak dönüştürmeyi ekleme

Bu adımda, Data Lake Storage 2. Nesil kaynak olarak ayarlarsınız.

  1. Veri akışı tuvalinde Kaynak Ekle kutusunu seçerek bir kaynak ekleyin.

  2. Kaynağınıza MoviesDB adını verin. Yeni bir kaynak veri kümesi oluşturmak için Yeni'yi seçin.

  3. Azure Data Lake Storage 2. Nesil'ı ve ardından Devam'ı seçin.

  4. Sınırlandırılmış Metin'i ve ardından Devam'ı seçin.

  5. Veri kümenize MoviesDB adını verin. Bağlı hizmet açılan listesinde Yeni'yi seçin.

  6. Bağlı hizmet oluşturma ekranında, Data Lake Storage 2. Nesil bağlı hizmetinizi ADLSGen2 olarak adlandırın ve kimlik doğrulama yönteminizi belirtin. Ardından bağlantı kimlik bilgilerinizi girin. Bu öğreticide, depolama hesabımıza bağlanmak için Hesap anahtarını kullanıyoruz.

  7. Etkileşimli yazma özelliğini etkinleştirdiğinizden emin olun. Etkinleştirilmesi bir dakika sürebilir.

    Screenshot that shows Interactive authoring.

  8. Bağlantıyı sına’yı seçin. Depolama hesabı özel uç nokta oluşturmadan ve onaylamadan erişime izin vermediğinden başarısız olmalıdır. Hata iletisinde, yönetilen özel uç nokta oluşturmak için izleyebileceğiniz bir özel uç nokta oluşturma bağlantısını görmeniz gerekir. Alternatif olarak doğrudan Yönet sekmesine gidin ve yönetilen özel uç nokta oluşturmak için bu bölümdeki yönergeleri izleyin.

  9. İletişim kutusunu açık tutun ve depolama hesabınıza gidin.

  10. Özel bağlantıyı onaylamak için bu bölümdeki yönergeleri izleyin.

  11. İletişim kutusuna geri dönün. Bağlantıyı yeniden test et'i ve bağlı hizmeti dağıtmak için Oluştur'u seçin.

  12. Veri kümesi oluşturma ekranında Dosya yolu alanının altında dosyanızın bulunduğu yeri girin. Bu öğreticide, moviesDB.csv dosyası sample-data kapsayıcısında bulunur. Dosyada üst bilgiler olduğundan, İlk satır üst bilgi olarak onay kutusunu seçin. Üst bilgi şemasını doğrudan depolamadaki dosyadan içeri aktarmak için Bağlantıdan/depodan'ı seçin. İşiniz bittiğinde Tamam'ı seçin.

    Screenshot that shows the source path.

  13. Hata ayıklama kümeniz başlatıldıysa, kaynak dönüştürmenin Veri Önizleme sekmesine gidin ve verilerin anlık görüntüsünü almak için Yenile'yi seçin. Dönüştürmenizin doğru yapılandırıldığını doğrulamak için veri önizlemesini kullanabilirsiniz.

    Screenshot that shows the Data Preview tab.

Yönetilen özel uç nokta oluşturma

Önceki bağlantıyı test ederken köprüyü kullanmadıysanız yolu izleyin. Şimdi, oluşturduğunuz bağlı hizmete bağlanacağınız yönetilen bir özel uç nokta oluşturmanız gerekir.

  1. Yönet sekmesine gidin.

    Dekont

    Yönet sekmesi tüm Data Factory örnekleri için kullanılamayabilir. Bunu görmüyorsanız, Yazar> Bağlan ions>Özel Uç Nokta'yı seçerek özel uç noktalara erişebilirsiniz.

  2. Yönetilen özel uç noktalar bölümüne gidin.

  3. Yönetilen özel uç noktalar altında + Yeni'yi seçin.

    Screenshot that shows the Managed private endpoints New button.

  4. Listeden Azure Data Lake Storage 2. Nesil kutucuğunu seçin ve Devam'ı seçin.

  5. Oluşturduğunuz depolama hesabının adını girin.

  6. Oluştur’u seçin.

  7. Birkaç saniye sonra, oluşturulan özel bağlantının bir onay gerektiğini görmeniz gerekir.

  8. Oluşturduğunuz özel uç noktayı seçin. Depolama hesabı düzeyinde özel uç noktayı onaylamanıza yol açacak bir köprü görebilirsiniz.

    Screenshot that shows the Manage private endpoint pane.

  1. Depolama hesabında, Ayarlar bölümünün altındaki Özel uç nokta bağlantıları'na gidin.

  2. Oluşturduğunuz özel uç noktanın onay kutusunu işaretleyin ve Onayla'yı seçin.

    Screenshot that shows the private endpoint Approve button.

  3. Açıklama ekleyin ve evet'i seçin.

  4. Data Factory'de Yönet sekmesinin Yönetilen özel uç noktalar bölümüne geri dönün.

  5. Yaklaşık bir dakika sonra özel uç noktanız için onayın göründüğünü görmeniz gerekir.

Filtre dönüştürmesini ekleme

  1. Veri akışı tuvalinde kaynak düğümünüzün yanındaki artı simgesini seçerek yeni bir dönüşüm ekleyin. Ekleyeceğiniz ilk dönüştürme bir Filtre'dir.

    Screenshot that shows adding a filter.

  2. Filtre dönüştürmenize FilterYears adını verin. İfade oluşturucusunu açmak için Filtre uygula'nın yanındaki ifade kutusunu seçin. Burada filtreleme koşulunuzu belirteceksiniz.

    Screenshot that shows FilterYears.

  3. Veri akışı ifade oluşturucusu, çeşitli dönüşümlerde kullanmak üzere etkileşimli olarak ifadeler oluşturmanıza olanak tanır. İfadeler yerleşik işlevleri, giriş şemasındaki sütunları ve kullanıcı tanımlı parametreleri içerebilir. İfade oluşturma hakkında daha fazla bilgi için bkz . Veri akışı ifade oluşturucusu.

    • Bu öğreticide, 1910 ile 2000 yılları arasında çıkan komedi türünde filmleri filtrelemek istiyorsunuz. Yıl şu anda bir dize olduğundan, işlevini kullanarak bir tamsayıya toInteger() dönüştürmeniz gerekir. 1910 ve 2000 değişmez yıl değerleriyle karşılaştırmak için büyüktür veya> eşittir (=) ve küçük veya eşittir (<=) işleçlerini kullanın. Bu ifadeleri ve (&) işleciyle birleştirin. İfade şu şekilde ortaya çıkar:

      toInteger(year) >= 1910 && toInteger(year) <= 2000

    • Hangi filmlerin rlike() komedi olduğunu bulmak için işlevini kullanarak sütun türlerindeki 'Comedy' desenini bulabilirsiniz. İfadeyi rlike , elde etmek için yıl karşılaştırmasıyla ilişkilendirin:

      toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    • Etkin bir hata ayıklama kümeniz varsa, kullanılan girişlerle karşılaştırıldığında ifade çıkışını görmek için Yenile'yi seçerek mantığınızı doğrulayabilirsiniz. Veri akışı ifade dilini kullanarak bu mantığı nasıl gerçekleştirebileceğinize ilişkin birden fazla doğru yanıt vardır.

      Screenshot that shows the filter expression.

    • Kaydet'i seçin ve ifadenizi tamamladıktan sonra bitirin .

  4. Filtrenin düzgün çalıştığını doğrulamak için bir Veri Önizlemesi getirin.

    Screenshot that shows the filtered Data Preview.

Toplam dönüştürmeyi ekleme

  1. Ekleyeceğiniz bir sonraki dönüşüm, Şema değiştiricisi altında bir Toplama dönüşümüdür.

    Screenshot that shows adding the aggregate.

  2. Toplama dönüştürmenize AggregateComedyRating adını verin. Gruplandırma ölçütü sekmesinde, aşağı açılan kutudan yıl'ı seçerek toplamaları filmin çıktığı yıla göre gruplandırın.

    Screenshot that shows the aggregate group.

  3. Toplamalar sekmesine gidin. Sol metin kutusunda AverageComedyRating toplama sütununu adlandırın. İfade oluşturucusu aracılığıyla toplama ifadesini girmek için doğru ifade kutusunu seçin.

    Screenshot that shows the aggregate column name.

  4. Derecelendirme sütununun ortalamasını almak için toplama işlevini kullanınavg(). Derecelendirme bir dize olduğundan ve avg() sayısal bir giriş aldığından, işlevi aracılığıyla değeri sayıya toInteger() dönüştürmemiz gerekir. Bu ifade şöyle görünür:

    avg(toInteger(Rating))

  5. Kaydet'i seçin ve bitirdikten sonra bitirin .

    Screenshot that shows saving the aggregate.

  6. Dönüştürme çıkışını görüntülemek için Veri Önizleme sekmesine gidin. yalnızca iki sütun olduğuna dikkat edin: year ve AverageComedyRating.

Havuz dönüştürmesini ekleme

  1. Ardından, Hedef'in altına havuz dönüşümü eklemek istiyorsunuz.

    Screenshot that shows adding a sink.

  2. Havuza Havuz adını verin. Havuz veri kümenizi oluşturmak için Yeni'yi seçin.

    Screenshot that shows creating a sink.

  3. Yeni veri kümesi sayfasında Azure Data Lake Storage 2. Nesil'ı ve ardından Devam'ı seçin.

  4. Biçim seçin sayfasında Sınırlanmış Metin'ive ardından Devam'ı seçin.

  5. Havuz veri kümenize MoviesSink adını verin. Bağlı hizmet için kaynak dönüştürme için oluşturduğunuz ADLSGen2 bağlı hizmetini seçin. Verilerinizi yazmak için bir çıkış klasörü girin. Bu öğreticide, kapsayıcı örnek verilerindeki klasör çıkışına yazıyoruz. Klasörün önceden var olması gerekmez ve dinamik olarak oluşturulabilir. İlk satır üst bilgi olarak onay kutusunu seçin ve Şemayı içeri aktarma için Yok'a tıklayın. Tamam seçeneğini işaretleyin.

    Screenshot that shows the sink path.

Artık veri akışınızı derlemeyi tamamladınız. İşlem hattınızda çalıştırmaya hazırsınız.

Veri akışını çalıştırma ve izleme

Bir işlem hattını yayımlamadan önce hata ayıklayabilirsiniz. Bu adımda, veri akışı işlem hattının hata ayıklama çalıştırmasını tetiklersiniz. Veri önizlemesi veri yazmasa da hata ayıklama çalıştırması havuz hedefinize veri yazar.

  1. İşlem hattı tuvaline gidin. Hata ayıklama çalıştırmasını tetikleme için Hata Ayıkla'ya tıklayın.

  2. Veri akışı etkinliklerinde işlem hattı hata ayıklaması etkin hata ayıklama kümesini kullanır ancak başlatılması en az bir dakika sürer. İlerleme durumunu Çıkış sekmesi aracılığıyla izleyebilirsiniz. Çalıştırma başarılı olduktan sonra çalıştırma ayrıntıları için gözlük simgesini seçin.

  3. Ayrıntılar sayfasında, satır sayısını ve her dönüştürme adımında harcanan zamanı görebilirsiniz.

    Screenshot that shows a monitoring run.

  4. Sütunlar ve verilerin bölümlenmesi hakkında ayrıntılı bilgi almak için bir dönüştürme seçin.

Bu öğreticiyi doğru bir şekilde izlediyseniz havuz klasörünüzde 83 satır ve 2 sütun yazmış olmanız gerekir. Blob depolama alanınızı denetleyerek verilerin doğru olduğunu doğrulayabilirsiniz.

Özet

Bu öğreticide Data Factory yönetilen Sanal Ağ eşleme veri akışını kullanarak verileri bir Data Lake Storage 2. Nesil kaynağından Data Lake Storage 2. Nesil havuzuna kopyalayan ve dönüştüren (her ikisi de yalnızca seçili ağlara erişime izin veren) bir işlem hattı oluşturmak için Data Factory kullanıcı arabirimini kullandınız.