Eşleme veri akışını kullanarak verileri güvenli bir şekilde dönüştürme

Makale
08/10/2023

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

Bahşiş

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Azure Data Factory kullanmaya yeni başlıyorsanız bkz. Azure Data Factory'ye giriş.

Bu öğreticide, Data Factory Yönetilen'de eşleme veri akışını kullanarak verileri Azure Data Lake Storage 2. Nesil bir kaynaktan Data Lake Storage 2. Nesil havuzuna kopyalayıp dönüştüren (her ikisi de yalnızca seçili ağlara erişime izin veren) bir işlem hattı oluşturmak için Data Factory kullanıcı arabirimini (UI) kullanacaksınız Sanal Ağ. Eşleme veri akışını kullanarak verileri dönüştürürken bu öğreticideki yapılandırma desenini genişletebilirsiniz.

Bu öğreticide, aşağıdaki adımları gerçekleştireceksiniz:

Veri fabrikası oluşturma.
Veri akışı etkinliğiyle işlem hattı oluşturma.
Dört dönüştürme ile bir eşleme veri akışı oluşturun.
İşlem hattında test çalıştırması yapma.
Veri akışı etkinliğini izleme.

Önkoşullar

Azure aboneliği. Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir Azure hesabı oluşturun.
Azure depolama hesabı. Data Lake Depolama kaynak ve havuz veri depoları olarak kullanırsınız. Depolama hesabınız yoksa, oluşturma adımları için bkz. Azure depolama hesabı oluşturma. Depolama hesabının yalnızca seçili ağlardan erişime izin verdiğinden emin olun.

Bu öğreticide dönüştüreceğimiz dosya, bu GitHub içerik sitesinde bulunabilen moviesDB.csv dosyasıdır. GitHub'dan dosyayı almak için içeriği istediğiniz bir metin düzenleyicisine kopyalayarak yerel olarak .csv dosyası olarak kaydedin. Dosyayı depolama hesabınıza yüklemek için bkz . Azure portalı ile blobları karşıya yükleme. Örnekler sample-data adlı bir kapsayıcıya başvurur.

Veri fabrikası oluşturma

Bu adımda bir veri fabrikası oluşturacak ve Data Factory kullanıcı arabirimini açarak veri fabrikasında işlem hattı oluşturacaksınız.

Microsoft Edge veya Google Chrome'u açın. Şu anda Data Factory kullanıcı arabirimini yalnızca Microsoft Edge ve Google Chrome web tarayıcıları desteklemektedir.
Soldaki menüde Kaynak>oluştur Analytics>Data Factory'yi seçin.
Yeni veri fabrikası sayfasında Ad bölümüne ADFTutorialDataFactory girin.

Veri fabrikasının adı genel olarak benzersiz olmalıdır. Ad değeri hakkında bir hata iletisi alırsanız, veri fabrikası için farklı bir ad girin (örneğin, adınızADFTutorialDataFactory). Data Factory yapıtlarının adlandırma kuralları için bkz.Data Factory adlandırma kuralları.
Veri fabrikasını oluşturmak istediğiniz Azure aboneliğinizi seçin.
Kaynak Grubu için aşağıdaki adımlardan birini uygulayın:
- Var olanı kullan’ı seçin ve ardından açılır listeden var olan bir kaynak grubu belirleyin.
- Yeni oluştur’u seçin ve bir kaynak grubunun adını girin.
Kaynak grupları hakkında daha fazla bilgi için bkz. Azure kaynaklarınızı yönetmek için kaynak gruplarını kullanma.
Sürüm bölümünde V2'yi seçin.
Konum bölümünden veri fabrikası için bir konum seçin. Açılan listede yalnızca desteklenen konumlar görüntülenir. Veri fabrikası tarafından kullanılan veri depoları (örneğin, Azure Depolama ve Azure SQL Veritabanı) ve hesaplamalar (örneğin, Azure HDInsight) başka bölgelerde olabilir.
Oluştur’u seçin.
Oluşturma işlemi tamamlandıktan sonra Bildirim merkezinde bildirimi görürsünüz. Data Factory sayfasına gitmek için Kaynağa git'i seçin.
Data Factory kullanıcı arabirimini ayrı bir sekmede başlatmak için Azure Data Factory Studio'yu Aç'ı seçin.

Data Factory Yönetilen Sanal Ağ'nde Azure IR oluşturma

Bu adımda bir Azure IR oluşturacak ve Data Factory Yönetilen Sanal Ağ etkinleştirebilirsiniz.

Data Factory portalında Yönet'e gidin ve Yeni'yi seçerek yeni bir Azure IR oluşturun.
Tümleştirme çalışma zamanı kurulumu sayfasında, gerekli özelliklere göre hangi tümleştirme çalışma zamanının oluşturulacağını seçin. Bu öğreticide Azure, Şirket İçinde Barındırılan seçeneğini belirleyip Devam'a tıklayın.
Azure'ı seçin ve ardından Devam'a tıklayarak azure tümleştirme çalışma zamanı oluşturun.
Sanal ağ yapılandırması (Önizleme) altında Etkinleştir'i seçin.
Oluştur’u seçin.

Veri akışı etkinliğiyle işlem hattı oluşturma

Bu adımda, veri akışı etkinliği içeren bir işlem hattı oluşturacaksınız.

Azure Data Factory'nin giriş sayfasında Düzenle'yi seçin.
İşlem hattının özellikler bölmesinde, işlem hattı adı için TransformMovies girin.
Etkinlikler bölmesinde Taşı ve Dönüştür'ü genişletin. bölmeden Veri Akışı etkinliğini işlem hattı tuvaline sürükleyin.
Veri akışı ekleme açılır penceresinde Yeni veri akışı oluştur'u ve ardından Eşleme Veri Akışı'ni seçin. İşiniz bittiğinde Tamam'ı seçin.
Özellikler bölmesinde veri akışınızı TransformMovies olarak adlandırın.
İşlem hattı tuvalinin üst çubuğunda hata ayıklama kaydırıcısını Veri Akışı kaydırın. Hata ayıklama modu, dinamik bir Spark kümesinde dönüştürme mantığının etkileşimli olarak test edilmesini sağlar. Veri Akışı kümelerin ısınması 5-7 dakika sürer ve kullanıcıların Veri Akışı geliştirme yapmayı planlıyorlarsa önce hata ayıklamayı açmaları önerilir. Daha fazla bilgi için bkz . Hata Ayıklama Modu.

Veri akışı tuvalinde dönüştürme mantığı oluşturma

Veri akışınızı oluşturduktan sonra otomatik olarak veri akışı tuvaline gönderilirsiniz. Bu adımda, Data Lake Depolama'daki moviesDB.csv dosyasını alan ve 1910 ile 2000 arasında komedilerin ortalama derecelendirmesini toplayan bir veri akışı oluşturacaksınız. Ardından bu dosyayı Data Lake Depolama'a geri yazacaksınız.

Kaynak dönüştürmeyi ekleme

Bu adımda, Data Lake Storage 2. Nesil kaynak olarak ayarlarsınız.

Veri akışı tuvalinde Kaynak Ekle kutusunu seçerek bir kaynak ekleyin.
Kaynağınıza MoviesDB adını verin. Yeni bir kaynak veri kümesi oluşturmak için Yeni'yi seçin.
Azure Data Lake Storage 2. Nesil'ı ve ardından Devam'ı seçin.
Sınırlandırılmış Metin'i ve ardından Devam'ı seçin.
Veri kümenize MoviesDB adını verin. Bağlı hizmet açılan listesinde Yeni'yi seçin.
Bağlı hizmet oluşturma ekranında, Data Lake Storage 2. Nesil bağlı hizmetinizi ADLSGen2 olarak adlandırın ve kimlik doğrulama yönteminizi belirtin. Ardından bağlantı kimlik bilgilerinizi girin. Bu öğreticide, depolama hesabımıza bağlanmak için Hesap anahtarını kullanıyoruz.
Etkileşimli yazma özelliğini etkinleştirdiğinizden emin olun. Etkinleştirilmesi bir dakika sürebilir.
Bağlantıyı sına’yı seçin. Depolama hesabı özel uç nokta oluşturmadan ve onaylamadan erişime izin vermediğinden başarısız olmalıdır. Hata iletisinde, yönetilen özel uç nokta oluşturmak için izleyebileceğiniz bir özel uç nokta oluşturma bağlantısını görmeniz gerekir. Alternatif olarak doğrudan Yönet sekmesine gidin ve yönetilen özel uç nokta oluşturmak için bu bölümdeki yönergeleri izleyin.
İletişim kutusunu açık tutun ve depolama hesabınıza gidin.
Özel bağlantıyı onaylamak için bu bölümdeki yönergeleri izleyin.
İletişim kutusuna geri dönün. Bağlantıyı yeniden test et'i ve bağlı hizmeti dağıtmak için Oluştur'u seçin.
Veri kümesi oluşturma ekranında Dosya yolu alanının altında dosyanızın bulunduğu yeri girin. Bu öğreticide, moviesDB.csv dosyası sample-data kapsayıcısında bulunur. Dosyada üst bilgiler olduğundan, İlk satır üst bilgi olarak onay kutusunu seçin. Üst bilgi şemasını doğrudan depolamadaki dosyadan içeri aktarmak için Bağlantıdan/depodan'ı seçin. İşiniz bittiğinde Tamam'ı seçin.
Hata ayıklama kümeniz başlatıldıysa, kaynak dönüştürmenin Veri Önizleme sekmesine gidin ve verilerin anlık görüntüsünü almak için Yenile'yi seçin. Dönüştürmenizin doğru yapılandırıldığını doğrulamak için veri önizlemesini kullanabilirsiniz.

Yönetilen özel uç nokta oluşturma

Önceki bağlantıyı test ederken köprüyü kullanmadıysanız yolu izleyin. Şimdi, oluşturduğunuz bağlı hizmete bağlanacağınız yönetilen bir özel uç nokta oluşturmanız gerekir.

Yönet sekmesine gidin.

Dekont

Yönet sekmesi tüm Data Factory örnekleri için kullanılamayabilir. Bunu görmüyorsanız, Yazar> Bağlan ions>Özel Uç Nokta'yı seçerek özel uç noktalara erişebilirsiniz.
Yönetilen özel uç noktalar bölümüne gidin.
Yönetilen özel uç noktalar altında + Yeni'yi seçin.
Listeden Azure Data Lake Storage 2. Nesil kutucuğunu seçin ve Devam'ı seçin.
Oluşturduğunuz depolama hesabının adını girin.
Oluştur’u seçin.
Birkaç saniye sonra, oluşturulan özel bağlantının bir onay gerektiğini görmeniz gerekir.
Oluşturduğunuz özel uç noktayı seçin. Depolama hesabı düzeyinde özel uç noktayı onaylamanıza yol açacak bir köprü görebilirsiniz.

Depolama hesabında özel bağlantı onayı

Depolama hesabında, Ayarlar bölümünün altındaki Özel uç nokta bağlantıları'na gidin.
Oluşturduğunuz özel uç noktanın onay kutusunu işaretleyin ve Onayla'yı seçin.
Açıklama ekleyin ve evet'i seçin.
Data Factory'de Yönet sekmesinin Yönetilen özel uç noktalar bölümüne geri dönün.
Yaklaşık bir dakika sonra özel uç noktanız için onayın göründüğünü görmeniz gerekir.

Filtre dönüştürmesini ekleme

Veri akışı tuvalinde kaynak düğümünüzün yanındaki artı simgesini seçerek yeni bir dönüşüm ekleyin. Ekleyeceğiniz ilk dönüştürme bir Filtre'dir.
Filtre dönüştürmenize FilterYears adını verin. İfade oluşturucusunu açmak için Filtre uygula'nın yanındaki ifade kutusunu seçin. Burada filtreleme koşulunuzu belirteceksiniz.
Veri akışı ifade oluşturucusu, çeşitli dönüşümlerde kullanmak üzere etkileşimli olarak ifadeler oluşturmanıza olanak tanır. İfadeler yerleşik işlevleri, giriş şemasındaki sütunları ve kullanıcı tanımlı parametreleri içerebilir. İfade oluşturma hakkında daha fazla bilgi için bkz . Veri akışı ifade oluşturucusu.
- Bu öğreticide, 1910 ile 2000 yılları arasında çıkan komedi türünde filmleri filtrelemek istiyorsunuz. Yıl şu anda bir dize olduğundan, işlevini kullanarak bir tamsayıya toInteger() dönüştürmeniz gerekir. 1910 ve 2000 değişmez yıl değerleriyle karşılaştırmak için büyüktür veya> eşittir (=) ve küçük veya eşittir (<=) işleçlerini kullanın. Bu ifadeleri ve (&) işleciyle birleştirin. İfade şu şekilde ortaya çıkar:
  
  toInteger(year) >= 1910 && toInteger(year) <= 2000
- Hangi filmlerin rlike() komedi olduğunu bulmak için işlevini kullanarak sütun türlerindeki 'Comedy' desenini bulabilirsiniz. İfadeyi rlike , elde etmek için yıl karşılaştırmasıyla ilişkilendirin:
  
  toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')
- Etkin bir hata ayıklama kümeniz varsa, kullanılan girişlerle karşılaştırıldığında ifade çıkışını görmek için Yenile'yi seçerek mantığınızı doğrulayabilirsiniz. Veri akışı ifade dilini kullanarak bu mantığı nasıl gerçekleştirebileceğinize ilişkin birden fazla doğru yanıt vardır.
- Kaydet'i seçin ve ifadenizi tamamladıktan sonra bitirin .
Filtrenin düzgün çalıştığını doğrulamak için bir Veri Önizlemesi getirin.

Toplam dönüştürmeyi ekleme

Ekleyeceğiniz bir sonraki dönüşüm, Şema değiştiricisi altında bir Toplama dönüşümüdür.
Toplama dönüştürmenize AggregateComedyRating adını verin. Gruplandırma ölçütü sekmesinde, aşağı açılan kutudan yıl'ı seçerek toplamaları filmin çıktığı yıla göre gruplandırın.
Toplamalar sekmesine gidin. Sol metin kutusunda AverageComedyRating toplama sütununu adlandırın. İfade oluşturucusu aracılığıyla toplama ifadesini girmek için doğru ifade kutusunu seçin.
Derecelendirme sütununun ortalamasını almak için toplama işlevini kullanınavg(). Derecelendirme bir dize olduğundan ve avg() sayısal bir giriş aldığından, işlevi aracılığıyla değeri sayıya toInteger() dönüştürmemiz gerekir. Bu ifade şöyle görünür:

avg(toInteger(Rating))
Kaydet'i seçin ve bitirdikten sonra bitirin .
Dönüştürme çıkışını görüntülemek için Veri Önizleme sekmesine gidin. yalnızca iki sütun olduğuna dikkat edin: year ve AverageComedyRating.

Havuz dönüştürmesini ekleme

Ardından, Hedef'in altına havuz dönüşümü eklemek istiyorsunuz.
Havuza Havuz adını verin. Havuz veri kümenizi oluşturmak için Yeni'yi seçin.
Yeni veri kümesi sayfasında Azure Data Lake Storage 2. Nesil'ı ve ardından Devam'ı seçin.
Biçim seçin sayfasında Sınırlanmış Metin'ive ardından Devam'ı seçin.
Havuz veri kümenize MoviesSink adını verin. Bağlı hizmet için kaynak dönüştürme için oluşturduğunuz ADLSGen2 bağlı hizmetini seçin. Verilerinizi yazmak için bir çıkış klasörü girin. Bu öğreticide, kapsayıcı örnek verilerindeki klasör çıkışına yazıyoruz. Klasörün önceden var olması gerekmez ve dinamik olarak oluşturulabilir. İlk satır üst bilgi olarak onay kutusunu seçin ve Şemayı içeri aktarma için Yok'a tıklayın. Tamam seçeneğini işaretleyin.

Artık veri akışınızı derlemeyi tamamladınız. İşlem hattınızda çalıştırmaya hazırsınız.

Veri akışını çalıştırma ve izleme

Bir işlem hattını yayımlamadan önce hata ayıklayabilirsiniz. Bu adımda, veri akışı işlem hattının hata ayıklama çalıştırmasını tetiklersiniz. Veri önizlemesi veri yazmasa da hata ayıklama çalıştırması havuz hedefinize veri yazar.

İşlem hattı tuvaline gidin. Hata ayıklama çalıştırmasını tetikleme için Hata Ayıkla'ya tıklayın.
Veri akışı etkinliklerinde işlem hattı hata ayıklaması etkin hata ayıklama kümesini kullanır ancak başlatılması en az bir dakika sürer. İlerleme durumunu Çıkış sekmesi aracılığıyla izleyebilirsiniz. Çalıştırma başarılı olduktan sonra çalıştırma ayrıntıları için gözlük simgesini seçin.
Ayrıntılar sayfasında, satır sayısını ve her dönüştürme adımında harcanan zamanı görebilirsiniz.
Sütunlar ve verilerin bölümlenmesi hakkında ayrıntılı bilgi almak için bir dönüştürme seçin.

Bu öğreticiyi doğru bir şekilde izlediyseniz havuz klasörünüzde 83 satır ve 2 sütun yazmış olmanız gerekir. Blob depolama alanınızı denetleyerek verilerin doğru olduğunu doğrulayabilirsiniz.

Özet

Bu öğreticide Data Factory yönetilen Sanal Ağ eşleme veri akışını kullanarak verileri bir Data Lake Storage 2. Nesil kaynağından Data Lake Storage 2. Nesil havuzuna kopyalayan ve dönüştüren (her ikisi de yalnızca seçili ağlara erişime izin veren) bir işlem hattı oluşturmak için Data Factory kullanıcı arabirimini kullandınız.