Azure Veri Gezgini veri alımı genel bakış

Veri alımı, bir veya daha fazla kaynaktan Azure Veri Gezgini bir tabloya veri kayıtları yüklemek için kullanılan işlemdir. Giriş yapıldıktan sonra veriler sorgu için kullanılabilir hale gelir.

Aşağıdaki diyagramda Azure Veri Gezgini 'de çalışmaya yönelik uçtan uca akış gösterilmektedir ve farklı alma yöntemleri gösterilmektedir.

Veri alımı ve yönetiminin genel bakış şeması.

Veri alma işleminden sorumlu Azure Veri Gezgini veri yönetimi hizmeti aşağıdaki işlemi uygular:

Azure Veri Gezgini, bir dış kaynaktan veri çeker ve bekleyen bir Azure kuyruğundan istekleri okur. Veriler toplanmış veya Veri Yöneticisi akışa kaydedilir. Aynı veritabanına ve tabloya akan toplu iş verileri, Alım performansı için iyileştirilmiştir. Azure Veri Gezgini, ilk verileri doğrular ve gerektiğinde veri biçimlerini dönüştürür. Veri işleme ile eşleşen şema, düzenleme, dizin oluşturma, kodlama ve verileri sıkıştırma dahildir. Veriler depolama sırasında ayarlanan bekletme ilkesine göre kalıcıdır. Veri Yöneticisi daha sonra verileri, sorgu için kullanılabilir olduğu altyapıya kaydeder.

Desteklenen veri biçimleri, Özellikler ve izinler

  • Desteklenen veri biçimleri

  • Alım özellikleri: verilerin nasıl alınacağını etkileyen Özellikler (örneğin etiketleme, eşleme, oluşturma saati).

  • İzinler: veri almak için, işlem veritabanı alma düzeyi izinlerigerektirir. Sorgu gibi diğer eylemler veritabanı yöneticisi, veritabanı kullanıcısı veya tablo Yöneticisi izinleri gerektirebilir.

Toplu işleme vs akış alımı

  • Toplu işleme alımı, verilerin toplu işleme ve yüksek alım performansı için iyileştirilmiştir. Bu yöntem, tercih edilen ve en iyi performansı alma türüdür. Veriler, alma özelliklerine göre toplu olarak oluşturulur. Daha sonra küçük toplu veri kümeleri birleştirilir ve hızlı sorgu sonuçları için iyileştirilmiştir. Alma işlemi toplu oluşturma ilkesi veritabanlarında veya tablolarda ayarlanabilir. Varsayılan olarak, en fazla toplu işlem değeri 5 dakika, 1000 öğe veya toplam 1 GB boyutudur. Bir Batch alma komutu için veri boyutu sınırı 4 GB 'tır.

  • Akış alımı, akış kaynağından devam eden veri alma işlemi olur. Akış alımı, tablo başına küçük veri kümelerinde neredeyse gerçek zamanlı gecikme süresine izin verir. Veriler başlangıçta satır deposuna alınır ve ardından sütun deposu uzantılarına taşınır. Akış alımı, bir Azure Veri Gezgini istemci kitaplığı veya desteklenen veri ardışık düzenlerinden biri kullanılarak yapılabilir.

Alma yöntemleri ve araçları

Azure Veri Gezgini, her biri kendi hedef senaryolarıyla birlikte birkaç alma yöntemini destekler. Bu yöntemler, farklı hizmetlere yönelik bağlayıcılar ve eklentileri, yönetilen işlem hatlarını, SDK 'Ları kullanarak programlı alımı ve alma için doğrudan erişimi içerir.

Yönetilen işlem hatlarını kullanarak alma

Bir dış hizmet tarafından gerçekleştirilen yönetimi (kısıtlama, yeniden denemeler, izleyiciler, uyarılar ve daha fazlası) isteyen kuruluşlar için, bağlayıcı kullanmak muhtemelen en uygun çözümdür. Sıraya alınan Alım, büyük veri birimlerine uygundur. Azure Veri Gezgini aşağıdaki Azure Pipelines destekler:

Bağlayıcılar ve eklentiler kullanılarak alma

SDK 'Ları kullanarak programlı alma

Azure Veri Gezgini, sorgu ve veri alımı için kullanılabilecek SDK 'lar sağlar. Programlı alma, Alım maliyetlerini (SMM) azaltmak için en iyi duruma getirilir ve bu işlem sırasında ve sonrasında depolama işlemlerini en aza indirir.

Kullanılabilir SDK 'lar ve açık kaynaklı projeler

Araçlar

  • Bir tıklamaalma: çok sayıda kaynak türünden tablo oluşturup ayarlayarak verileri hızlı bir şekilde almanıza olanak sağlar. Bir tıklama alma işlemi otomatik olarak tabloları ve eşleme yapılarını Azure Veri Gezgini 'daki veri kaynağına göre otomatik olarak önerir. Bir tıklama alımı, tek seferlik alma için veya verilerin alındığı kapsayıcıda Event Grid aracılığıyla sürekli alma tanımlamak için kullanılabilir.

  • Lightınest: Azure Veri Gezgini 'de geçici veri alımı için bir komut satırı yardımcı programı. Yardımcı program, kaynak verilerini yerel bir klasörden veya bir Azure Blob depolama kapsayıcısından alabilir.

Alma denetim komutları

Doğrudan altyapıya veri almak için komutları kullanın. Bu yöntem Veri Yönetimi hizmetlerini atlar ve bu nedenle yalnızca araştırma ve prototipleme için kullanılmalıdır. Üretim veya yüksek hacimli senaryolarda bu yöntemi kullanmayın.

  • Satır içiAlım: bir denetim komutu . ınest satır içi , komut metninin bir parçası olacak verilerle birlikte motoruna gönderilir. Bu yöntem, improvised test amacıyla tasarlanmıştır.

  • Sorgudanalma: bir denetim komutu . set,. Append,. set-veya-Append veya. set-or-Replace , bir sorgunun veya bir komutun sonuçları olarak dolaylı olarak belirtilen verilerle altyapısına gönderilir.

  • depolama 'dan alma (çekme): bir denetim komutu . ınest , altyapıya bir dış depolamada (örneğin, Azure Blob Depolama) depolanan ve komut tarafından işaret edilen verilerle birlikte altyapısına gönderilir.

Alma yöntemlerini ve araçlarını karşılaştırma

Giriş adı Veri türü En büyük dosya boyutu Akış, toplu işlem, doğrudan En yaygın senaryolar Dikkat edilmesi gerekenler
Bir tıklama alımı * SV, JSON 1 GB sıkıştırılmamış (nota bakın) Doğrudan alma sırasında kapsayıcıya, yerel dosyaya ve bloba toplu işleme Tek kapalı, tablo şeması oluşturma, olay kılavuzuyla sürekli alma alma, kapsayıma (5.000 blob 'a kadar) toplu alma, geçmiş alma kullanılırken sınır yok)
LightIngest Desteklenen tüm biçimler 1 GB sıkıştırılmamış (nota bakın) Altyapıya DM veya Direct alımı aracılığıyla toplu işleme Veri geçişi, ayarlanan alma zaman damgalarına sahip geçmiş verileri, toplu alma (boyut kısıtlaması yok) Büyük/küçük harfe duyarlı, boşlukla duyarlı
ADX Kafka Avro, ApacheAvro, JSON, CSV, Parquet ve ORC Sayısız. Java kısıtlamalarını devralır. Toplu işleme, akış Kaynaktaki mevcut işlem hattı, yüksek hacimli tüketim. Tercih, "birden çok üretici/tüketici" hizmetinin zaten kullanıldığı veya bir hizmetin yönetilme biçimini tespit edebilir.
ADX Apache Spark Spark ortamı tarafından desteklenen her biçim Sınırsız Toplu İşleme Mevcut işlem hattı, Spark ortamının desteklediği çeşitli kaynaklardan güvenli (Spark) akış işlem hattı oluşturmak için hızlı bir şekilde Spark 'da ön işleme. Spark kümesinin maliyetini göz önünde bulundurun. Toplu yazma için, Event Grid için Azure Veri Gezgini veri bağlantısı ile karşılaştırın. Spark akışı için, Olay Hub 'ı için veri bağlantısıyla karşılaştırın.
LogStash JSON Sayısız. Java kısıtlamalarını devralır. Bağlayıcının girişleri Logstash olaylardır ve bağlayıcı, toplu işlem alımı kullanarak kusto 'e çıktı verir. Mevcut işlem hattı, çok büyük hacimlerden yararlanın ve girişte yüksek hacimli tüketim için günlük açık kaynak doğası. Tercih, "birden çok üretici/tüketici" hizmetinin zaten kullanıldığı veya bir hizmetin yönetilme biçimini tespit edebilir.
Azure Data Factory (ADF) Desteklenen veri biçimleri Sınırsız * (ADF kısıtlaması başına) Toplu işleme veya ADF tetikleyicisi başına Genellikle desteklenmeyen, büyük dosyalar olan biçimleri, 90 kaynaktan, izin kaynağından buluta kopyalayabilir şekilde destekler Bu yöntem, veriler alınana kadar daha fazla zaman alır. ADF tüm verileri belleğe yükler ve ardından alımı başlatır.
Power Automate Desteklenen tüm biçimler 1 GB sıkıştırılmamış (nota bakın) Toplu İşleme Akışın parçası olarak giriş komutları. İşlem hatlarını otomatikleştirmek için kullanılır.
Logic Apps Desteklenen tüm biçimler 1 GB sıkıştırılmamış (nota bakın) Toplu İşleme İşlem hatlarını otomatikleştirmek için kullanılır
IoT Hub Desteklenen veri biçimleri Yok Toplu işleme, akış IoT iletileri, IoT olayları, IoT özellikleri
Olay Hub'ı Desteklenen veri biçimleri Yok Toplu işleme, akış İletiler, olaylar
Event Grid Desteklenen veri biçimleri 1 GB sıkıştırılmamış Toplu İşleme Azure depolama 'dan sürekli alma, Azure depolama 'daki dış veriler Alma işlemi, blob yeniden adlandırma veya blob oluşturma eylemleri tarafından tetiklenebilir
.NET SDK Desteklenen tüm biçimler 1 GB sıkıştırılmamış (nota bakın) Toplu işleme, akış, doğrudan Kuruluş ihtiyaçlarına göre kendi kodunuzu yazın
Python Desteklenen tüm biçimler 1 GB sıkıştırılmamış (nota bakın) Toplu işleme, akış, doğrudan Kuruluş ihtiyaçlarına göre kendi kodunuzu yazın
Node.js Desteklenen tüm biçimler 1 GB sıkıştırılmamış (bkz. nota Toplu işleme, akış, doğrudan Kuruluş ihtiyaçlarına göre kendi kodunuzu yazın
Java Desteklenen tüm biçimler 1 GB sıkıştırılmamış (nota bakın) Toplu işleme, akış, doğrudan Kuruluş ihtiyaçlarına göre kendi kodunuzu yazın
REST Desteklenen tüm biçimler 1 GB sıkıştırılmamış (nota bakın) Toplu işleme, akış, doğrudan Kuruluş ihtiyaçlarına göre kendi kodunuzu yazın
Go Desteklenen tüm biçimler 1 GB sıkıştırılmamış (nota bakın) Toplu işleme, akış, doğrudan Kuruluş ihtiyaçlarına göre kendi kodunuzu yazın

Not

Yukarıdaki tabloda başvuruluyorsa, alım, en fazla 4 GB dosya boyutunu destekler. Öneri, 100 MB ile 1 GB arasında dosya alma.

Alma işlemi

Gereksinimleriniz için en uygun alma yöntemini seçtikten sonra, aşağıdaki adımları uygulayın:

  1. Toplu işleme Ilkesini ayarlama (isteğe bağlı)

    Toplu işleme oluşturma ilkesinegöre verileri toplu işleme alma. Alımı yapmadan önce bir toplu işlem ilkesi tanımlayın. Bkz. Alım en iyi uygulamaları-üretilen iş için iyileştiriliyor. İlke değişikliklerinin toplu işlemesi, en fazla 5 dakika sürebilir. İlke, toplu sınırları üç etkene göre ayarlar: Toplu oluşturma işleminden sonra geçen süre, birikmiş öğe sayısı (blob) veya toplam toplu iş boyutu. Varsayılan olarak, ayarlar 5 dakika/1000 blobu/1 GB olur; bu sınır, ilk olarak geçerlilik kazanmıştır. Bu nedenle, alma için örnek verileri sıraya alırken genellikle 5 dakikalık bir gecikme vardır.

  2. Bekletme ilkesi ayarlama

    Azure Veri Gezgini bir tabloya alınan veriler tablonun etkili bekletme ilkesine tabidir. Tabloda açıkça ayarlanmadığı sürece geçerli saklama ilkesi veritabanının saklama ilkesinden türetilir. Sık saklama, küme boyutu ve bekletme ilkenizin işlevsidir. Kullanılabilir alandan daha fazla veri almak, ilk verileri soğuk bekletmeye zorlayacaktır.

    Veritabanının saklama ilkesinin gereksinimlerinize uygun olduğundan emin olun. Değilse, bunu tablo düzeyinde açıkça geçersiz kılın. Daha fazla bilgi için bkz. bekletme ilkesi.

  3. Tablo oluşturma

    Verileri almak için, önceden bir tablo oluşturulması gerekir. Aşağıdaki seçeneklerden birini kullanın:

    Not

    Bir kayıt tamamlanmamışsa veya bir alan gerekli veri türü olarak ayrıştırılamıyorsa, karşılık gelen tablo sütunları null değerlerle doldurulur.

  4. Şema eşlemesi oluştur

    Şema eşleme , kaynak veri alanlarını hedef tablo sütunlarına bağlamaya yardımcı olur. Eşleme, farklı kaynaklardaki verileri, tanımlanan özniteliklere göre aynı tabloya almanıza olanak sağlar. Farklı eşleme türleri desteklenir, hem satır odaklı (CSV, JSON ve AVRO) hem de sütun yönelimli (Parquet). Çoğu yöntemde, eşlemeler tablo üzerinde önceden oluşturulabilir ve içe alma komut parametresinden başvuru yapılabilir.

  5. Güncelleştirme Ilkesini ayarlama (isteğe bağlı)

    Bazı veri biçimi eşlemeleri (Parquet, JSON ve avro) basit ve yararlı alma zamanı dönüştürmelerini destekler. Senaryo alma sırasında daha karmaşık işleme gerektiriyorsa, sorgu komutlarını kullanarak hafif işlemeyi destekleyen güncelleştirme ilkesiniayarlayın. Güncelleştirme ilkesi, özgün tablodaki verileri alınan verilerle otomatik olarak çalıştırır ve sonuçta elde edilen verileri bir veya daha fazla hedef tabloya dönüştürür.

Sonraki adımlar