Azure Veri Gezgini ile Azure Data Factory

Kopyalama etkinliği Sorgudan alma
.set-or-append / .set-or-replace / .set / .replace
Depolamadan alma
.ingest
Flow açıklaması ADF verileri kaynak veri deposuna alır, tablo biçimine dönüştürür ve gerekli şema eşleme değişikliklerini yapar. ADF daha sonra verileri Azure bloblarına yükler, öbeklere böler ve ardından blobları indirerek verileri Azure Veri Gezgini alır.
(Kaynak veri deposu ADF Azure >> blobları ADX)
Bu komutlar bir sorguyu veya komutu yürüterek sorgunun sonuçlarını bir tabloya .show.show) alır. Bu komut, bir veya daha fazla bulut depolama yapıtlarından verileri "çekerek" bir tabloya veri alır.
Desteklenen kaynak veri depoları çeşitli seçenekler ADLS 2. Nesil, Azure Blob, SQL (sql_request()eklentisini kullanarak), Cosmos (cosmosdb_sql_requesteklentisini kullanarak) ve HTTP veya Python API'leri sağlayan diğer tüm veri depoları. Dosya sistemi, Azure Blob Depolama, ADLS 1. Nesil, ADLS 2. Nesil
Performans Ingestions kuyruğa alınanlar kuyruğa ek olarak yönetilir ve bu sayede küçük boyutlu alınanlar güvence altına alır ve yük dengeleme, yeniden denemeler ve hata işleme sağlayarak yüksek kullanılabilirlik sağlar.
  • Bu komutlar yüksek hacimli verileri içeri aktarma için tasarlanmadı.
  • Beklendiği gibi çalışır ve daha ucuzdur. Ancak üretim senaryoları ve trafik oranlarının ve veri boyutlarının büyük olduğu senaryolar için Kopyalama etkinliği.
Sunucu Sınırları
  • Boyut sınırı yok.
  • Maksimum zaman aşımı sınırı: Blob başına 1 saat.
  • Sorgu bölümünde yalnızca bir boyut sınırı vardır ve bu sınır belirterek noTruncation=true atlanabilir.
  • Maksimum zaman aşımı sınırı: 1 saat.
  • Boyut sınırı yok.
  • Maksimum zaman aşımı sınırı: 1 saat.

İpucu

  • Verileri ADF'den Azure Veri Gezgini komutlarını ingest from query kullanın.
  • Büyük veri kümeleri > (1 GB) için Kopyalama etkinliği.

Gerekli izinler

Aşağıdaki tabloda, uygulama tümleştirmesinde çeşitli adımlar için gerekli izinler Azure Data Factory.

Adım İşlem En düşük izin düzeyi Notlar
Bağlı Hizmet Oluşturma Veritabanı gezintisi veritabanı görüntüleyicisi
ADF kullanan oturum açan kullanıcının veritabanı meta verilerini okuma yetkisine sahip olması gerekir.
Kullanıcı veritabanı adını el ile silebilir.
Bağlantıyı Sına veritabanı izleyicisiveya tablo vericisi
Hizmet sorumlusu, veritabanı düzeyi komutlarını veya .show tablo düzeyi alımını yürütme yetkisine sahip olmalıdır.
  • TestConnection veritabanına değil küme bağlantısını doğrular. Veritabanı mevcut olsa bile başarılı olabilir.
  • Tablo yöneticisi izinleri yeterli değildir.
Veri Kümesi Oluşturma Tablo gezintisi veritabanı izleyicisi
ADF kullanarak oturum açan kullanıcının, veritabanı düzeyinde komutları yürütme yetkisine sahip olması .show gerekir.
Kullanıcı tablo adını el ile silebilir.
Veri Kümesi veya KopyalamaEtkinliği Oluşturma Önizleme verileri veritabanı görüntüleyicisi
Hizmet sorumlusu, veritabanı meta verilerini okumak için yetkilendirilmiş olmalıdır.
Şemayı içeri aktarma veritabanı görüntüleyicisi
Hizmet sorumlusu, veritabanı meta verilerini okumak için yetkilendirilmiş olmalıdır.
Bu Azure Veri Gezgini tablosal kopyanın kaynağı olduğunda, kullanıcı şemayı açıkça içeri aktarmasa bile ADF şemayı otomatik olarak içeri aktaracaktır.
Havuz olarak ADX Ad sütunu eşlemesi oluşturma veritabanı izleyicisi
Hizmet sorumlusu, veritabanı düzeyinde komutları yürütme yetkisine sahip .show olmalıdır.
  • Tüm zorunlu işlemler tablo vericisi ile çalışır.
  • Bazı isteğe bağlı işlemler başarısız olabilir.
  • Tabloda CSV eşlemesi oluşturma
  • Eşlemeyi bırakma
tablo veri alımı veyaveritabanı yöneticisi
Hizmet sorumlusu, bir tabloda değişiklik yapmak için yetkilendiril yetkilidir.
Veriyi çekme tablo veri alımı veyaveritabanı yöneticisi
Hizmet sorumlusu, bir tabloda değişiklik yapmak için yetkilendiril yetkilidir.
Kaynak olarak ADX Sorguyu yürütme veritabanı görüntüleyicisi
Hizmet sorumlusu, veritabanı meta verilerini okumak için yetkilendirilmiş olmalıdır.
Kusto komutu Her komutun izin düzeyine göre.

Performans

Kaynak Azure Veri Gezgini ve sorgu içeren Arama, kopyalama veya komut etkinliğini kullanıyorsanız, performans bilgileri için en iyi sorgu yöntemlerine ve kopyalama etkinliği için ADF belgelerine bakın.

Bu bölüm, havuzun havuz olduğu Azure Veri Gezgini etkinliğinin kullanımını adresler. Havuz için tahmini aktarım Azure Veri Gezgini 11-13 MBps'dir. Aşağıdaki tabloda, Azure Veri Gezgini havuzu performansını etkileyen Azure Veri Gezgini ve açık almaktadır.

Parametre Notlar
Bileşenlerin coğrafi yakınlığı Tüm bileşenleri aynı bölgeye yer:
  • kaynak ve havuz veri depoları.
  • ADF tümleştirme çalışma zamanı.
  • Azure Veri Gezgini kümeniz.
Tümleştirme çalışma zamanının en azından kümeniz ile aynı bölgede olduğundan Azure Veri Gezgini olun.
DIUS sayısı ADF tarafından kullanılan her 4 DIUS için 1 VM.
DDE'leri artırmak yalnızca kaynağınız birden çok dosyaya sahip dosya tabanlı bir depo ise yardımcı olur. Daha sonra her VM farklı bir dosyayı paralel olarak işler. Bu nedenle, tek bir büyük dosyayı kopyalamak, birden çok küçük dosyayı kopyalamaktan daha yüksek gecikme süresine sahip olur.
ADX kümenizin miktarı ve SKU'su Yüksek sayıda Azure Veri Gezgini, alımın işlem süresinde artış gösterir. Dev SKU 'Larının kullanımı, performansı ciddi ölçüde sınırlar
Paralellik Bir veritabanından çok büyük miktarda veri kopyalamak için verilerinizi bölümleyip her bölümü paralel olarak kopyalayan bir ForEach Döngüsü kullanın veya veritabanından Azure Veri Gezgini şablonu ' na toplu kopyalamakullanın. Note: kopyalama etkinliğindeparalellik derecesi Ayarlar Azure Veri Gezgini ilgili değildir.
Veri işleme karmaşıklığı Gecikme, kaynak dosya biçimine, sütun eşlemesine ve sıkıştırmaya göre farklılık gösterir.
Tümleştirme çalışma zamanı 'nı çalıştıran VM
  • Azure kopyası için, ADF VM 'Ler ve makine SKU 'Ları değiştirilemez.
  • Şirket içi Azure kopyalama için, şirket içinde barındırılan IR 'yi barındıran VM 'nin yeterince güçlü olduğunu saptayın.

İpuçları ve ortak

Etkinlik ilerlemesini izleme

  • Etkinlik ilerlemesini izlerken, okunan veriler ikili dosya boyutuna göre hesaplandığı için veriokuma özelliğinden çok daha büyük olabilir, çünkü yazılan veriler, veri serileştirilip sıkıştırması açıldıktan sonra bellek içi boyuta göre hesaplanır.

  • Etkinlik ilerlemesini izlerken, verilerin Azure Veri Gezgini havuzuna yazıldığını görebilirsiniz. Azure Veri Gezgini tablosunu sorgularken verilerin ulaştığını görürsünüz. Bunun nedeni, Azure Veri Gezgini kopyalanırken iki aşamada oluşur.

    • İlk aşama kaynak verileri okur, 900 MB parçalara ayırır ve her bir öbeği bir Azure Blobuna yükler. İlk aşama ADF etkinlik ilerleme görünümü tarafından görülür.
    • İkinci aşama, tüm veriler Azure Bloblarına yüklendiğinde başlar. Azure Veri Gezgini altyapısı düğümleri blob 'ları indirir ve verilerin havuz tablosuna alınması. Veriler daha sonra Azure Veri Gezgini tablonuzda görülür.

Hatalı kaçış nedeniyle CSV dosyalarını alma hatası

Azure Veri Gezgini, CSV dosyalarının RFC 4180ile hizalanmasını bekler. Bekliyor:

  • Kaçış gerektiren karakterler ("ve yeni satırlar) içeren alanlar, boşluk olmadan bir " karakteriyle başlamalı ve bitmelidir. " Bir Double " karakteri ("") kullanılarak alan içindeki tüm karakterler kaçışdır. Örneğin, "Merhaba" "" Dünya "" ", tek bir kayıt Içeren ve Hello," World "içerikli tek bir sütuna veya alana sahıp olan geçerli bir CSV dosyasıdır.
  • Dosyadaki tüm kayıtlar aynı sayıda sütun ve alan içermelidir.

Azure Data Factory ters eğik çizgi (kaçış) karakterine izin verir. Azure Data Factory kullanarak bir ters eğik çizgi karakteri içeren bir CSV dosyası oluşturursanız, dosyanın Azure Veri Gezgini alımı başarısız olur.

Örnek

Şu metin değerleri: Merhaba, "Dünya"
ABC DEF
"ABC\D" EF
"ABC DEF

Uygun bir CSV dosyasında şu şekilde görünmelidir: "Merhaba," "Dünya" ""
"ABC DEF"
"" "ABC DEF"
"" "ABC\D" "EF"

Varsayılan kaçış karakterini (ters eğik çizgi) kullanarak, aşağıdaki CSV Azure Veri Gezgini ile çalışmaz: "Hello," World ""
"ABC DEF"
"" ABC DEF "
"" ABC\D "EF"

İç içe JSON nesneleri

Bir JSON dosyasını Azure Veri Gezgini kopyalanırken şunları unutmayın:

  • Diziler desteklenmiyor.
  • JSON yapınız nesne veri türleri içeriyorsa, Azure Data Factory nesnenin alt öğelerini düzleştirebilir ve her bir alt öğeyi Azure Veri Gezgini tablonuzda farklı bir sütuna eşlemeye çalışır. Tüm nesne öğesinin Azure Veri Gezgini tek bir sütunla eşleştirilmesini istiyorsanız:
    • Tüm JSON satırını Azure Veri Gezgini tek bir dinamik sütuna alma.
    • Azure Data Factory JSON düzenleyicisini kullanarak işlem hattı tanımını el ile düzenleyin. Eşlemelerde
      • Her bir alt öğe için oluşturulmuş birden çok eşlemeyi kaldırın ve nesne türünü tablo sütununuza eşleyen tek bir eşleme ekleyin.
      • Kapanış köşeli ayracından sonra bir virgül ekleyin ve ardından şunu ekleyin:
        "mapComplexValuesToString": true.

Azure 'a kopyalarken AdditionalProperties 'i belirtin Veri Gezgini

Not

Bu özellik şu anda JSON yükünü el ile düzenleyerek kullanılabilir.

Kopyalama etkinliğinin "havuz" bölümünün altına şu şekilde tek bir satır ekleyin:

"sink": {
    "type": "AzureDataExplorerSink",
    "additionalProperties": "{\"tags\":\"[\\\"drop-by:account_FiscalYearID_2020\\\"]\"}"
},

Değerin kaçışı karmaşık olabilir. Aşağıdaki kod parçacığını başvuru olarak kullanın:

static void Main(string[] args)
{
       Dictionary<string, string> additionalProperties = new Dictionary<string, string>();
       additionalProperties.Add("ignoreFirstRecord", "false");
       additionalProperties.Add("csvMappingReference", "Table1_mapping_1");
       IEnumerable<string> ingestIfNotExists = new List<string> { "Part0001" };
       additionalProperties.Add("ingestIfNotExists", JsonConvert.SerializeObject(ingestIfNotExists));
       IEnumerable<string> tags = new List<string> { "ingest-by:Part0001", "ingest-by:IngestedByTest" };
       additionalProperties.Add("tags", JsonConvert.SerializeObject(tags));
       var additionalPropertiesForPayload = JsonConvert.SerializeObject(additionalProperties);
       Console.WriteLine(additionalPropertiesForPayload);
       Console.ReadLine();
}

Yazdırılan değer:

{"ignoreFirstRecord":"false","csvMappingReference":"Table1_mapping_1","ingestIfNotExists":"[\"Part0001\"]","tags":"[\"ingest-by:Part0001\",\"ingest-by:IngestedByTest\"]"}

Sonraki adımlar

Azure Data Factory (ADF), farklı veri depolarını tümleştirmenize ve veriler üzerinde etkinlikler gerçekleştirmenize olanak tanıyan bulut tabanlı bir veri tümleştirme hizmetidir. ADF, veri taşıma ve veri dönüştürmeyi düzenlemek ve otomatikleştirmek için veri odaklı iş akışları oluşturmanıza olanak tanır. Azure Veri Gezgini, Azure Data Factory desteklenen veri depolarından biridir.

Azure Veri Gezgini Azure Data Factory etkinlikleri

Azure Veri Gezgini kullanıcıları için Azure Data Factory ile çeşitli tümleştirmeler sunulmaktadır:

Kopyalama etkinliği

Veri depoları arasında veri aktarmak için kopyalama etkinliği Azure Data Factory kullanılır. Azure Veri Gezgini, verilerin Azure Veri Gezgini desteklenen herhangi bir veri deposuna kopyalandığı bir kaynak olarak desteklenir ve verilerin desteklenen herhangi bir veri deposundan Azure Veri Gezgini 'e kopyalandığı bir havuz olur. Daha fazla bilgi için bkz. Azure Data Factory kullanarak Azure Veri Gezgini veri kopyalama. ayrıntılı bir adım adım için bkz. Azure Data Factory verileri Azure Veri Gezgini 'a yükleme. Azure Veri Gezgini Azure IR (Integration Runtime) tarafından desteklenir, veriler Azure 'da kopyalanırken ve şirket içinde ya da bir Azure sanal ağı gibi erişim denetimi olan bir ağda veri depolarından veri kopyalarken kullanılan, şirket içinde barındırılan IR. Daha fazla bilgi için bkz. kullanılacak IR

İpucu

Kopyalama etkinliğini kullanırken ve bağlı hizmet ya da veri kümesioluştururken, eski veri deposu kustodeğil, veri deposu Azure Veri Gezgini (kusto) öğesini seçin.

Arama etkinliği

Arama etkinliği, Azure Veri Gezgini sorguları yürütmek için kullanılır. Sorgunun sonucu, arama etkinliğinin çıktısı olarak döndürülür ve ADF arama belgelerindeaçıklandığı şekilde işlem hattının bir sonraki etkinliğinde kullanılabilir.

5.000 satırı ve 2 MB yanıt boyutu sınırına ek olarak, etkinliğin ayrıca 1 saatlik bir sorgu zaman aşımı sınırı vardır.

Komut etkinliği

Komut etkinliği, Azure Veri Gezgini Denetim komutlarınınyürütülmesine izin verir. Sorguların aksine, denetim komutları büyük olasılıkla verileri veya meta verileri değiştirebilir. Bazı denetim komutlarından bazıları, veya gibi komutları kullanarak Azure Veri Gezgini veri alma .ingest.set-or-append veya Azure Veri Gezgini ' den dış veri depolarına veri kopyalama hedeflenmiştir .export . Komut etkinliğine ilişkin ayrıntılı bir yol için bkz. Azure Veri Gezgini denetim komutlarını çalıştırmak için Azure Data Factory komut etkinliğini kullanma. Verileri kopyalamak için bir denetim komutu kullanmak, kopyalama etkinliğinden daha hızlı ve ucuz seçeneği de olabilir. Komut etkinliğinin kopyalama etkinliğine göre ne zaman kullanılacağını belirlemek için, bkz. veri kopyalanırken kopyalama ve komut etkinlikleri arasında seçimyapın.

Veritabanı şablonundan toplu olarak Kopyala

Bir veritabanından Azure Veri Gezgini Azure Data Factory şablonu kullanılarak toplu kopyalama , önceden tanımlanmış bir Azure Data Factory işlem hattı olur. Şablon, daha hızlı veri kopyalama için veritabanı başına veya tablo başına çok sayıda işlem hattı oluşturmak için kullanılır.

Veri akışlarını eşleme

Azure Data Factory eşleme veri akışları , veri mühendislerinin kod yazmadan grafik veri dönüştürme mantığı geliştirmesini sağlayan görsel olarak tasarlanan veri dönüştürmelerdir. Veri akışı oluşturmak ve Azure Veri Gezgini 'a veri almak için aşağıdaki yöntemi kullanın:

  1. Eşleme veri akışıoluşturun.
  2. Verileri Azure Blob 'A aktarın.
  3. Verileri Azure Veri Gezgini almak için Event Grid veya ADF kopyalama etkinliği tanımlayın.

Veri kopyalama sırasında Kopyala ve Azure Veri Gezgini komut etkinlikleri arasında seçim yapın

Bu bölüm, veri kopyalama gereksinimleriniz için doğru etkinliği seçerken size yardımcı olur.

Veya Azure Veri Gezgini veri kopyalarken, Azure Data Factory iki kullanılabilir seçenek vardır:

  • Kopyalama etkinliği.
  • Azure Veri Gezgini 'da veri aktarımı yapan denetim komutlarından birini çalıştıran Azure Veri Gezgini komut etkinliği.

Azure Veri Gezgini veri kopyalama

Kopyalama etkinliğini veya komutunu kullanarak Azure Veri Gezgini veri kopyalayabilirsiniz .export . .exportKomutu bir sorgu yürütür ve sonra sorgunun sonuçlarını dışarı aktarır.

Kopyalama etkinliğinin ve .export Azure Veri Gezgini 'tan veri kopyalama komutunun karşılaştırması için aşağıdaki tabloya bakın.

Kopyalama etkinliği . export komutu
Flow açıklaması ADF kusto üzerinde bir sorgu yürütür, sonucu işler ve hedef veri deposuna gönderir.
(ADX ADF > Havuz veri deposu)
ADF, .export komutu yürüten ve verileri doğrudan hedef veri deposuna gönderen Azure Veri Gezgini 'ye bir denetim komutu gönderir.
(ADX Havuz veri deposu)
Desteklenen hedef veri depoları Desteklenen çok çeşitli veri depoları ADLSv2, Azure Blob, SQL Veritabanı
Performans Merkez
  • Dağıtılmış (varsayılan), birden çok düğümden eşzamanlı olarak veri dışarı aktarılıyor
  • Daha hızlı ve SMM (satılan malların maliyeti) verimli.
Sunucu limitleri Sorgu sınırları Genişletilebilir/devre dışı olabilir. Varsayılan olarak, ADF sorguları şunları içerir:
  • 500.000 kayıt veya 64 MB boyut limiti.
  • 10 dakikalık zaman sınırı.
  • noTruncation false olarak ayarlayın.
Varsayılan olarak, sorgu sınırlarını genişletir veya devre dışı bırakır:
  • Boyut sınırları devre dışı bırakıldı.
  • Sunucu zaman aşımı, 1 saate genişletilir.
  • MaxMemoryConsumptionPerIterator ve MaxMemoryConsumptionPerQueryPerNode en fazla (5 GB, TotalPhysicalMemory/2) genişletilmiş.

İpucu

Kopyalama hedefi, komutu tarafından desteklenen veri depolarından biri ise .export ve kopyalama etkinliği özelliklerinin hiçbiri gereksinimlerinize göre önemli değilse, .export komutunu seçin.

Azure Veri Gezgini veri kopyalama

Veri alma (,,, .set-or-replace.set.replace) ve .set-or-replace () .ingest sorgusundan al gibi kopyalama etkinliği veya alma komutlarını kullanarak verileri Azure Veri Gezgini kopyalayabilirsiniz.

Kopyalama etkinliğinin karşılaştırması için aşağıdaki tabloya ve Azure Veri Gezgini veri kopyalamaya yönelik giriş komutlarına bakın.