Azure Veri Gezgini veri alımı genel bakış
Veri alımı, bir veya daha fazla kaynaktan Azure Veri Gezgini bir tabloya veri kayıtları yüklemek için kullanılan işlemdir. Giriş yapıldıktan sonra veriler sorgu için kullanılabilir hale gelir.
Aşağıdaki diyagramda Azure Veri Gezgini 'de çalışmaya yönelik uçtan uca akış gösterilmektedir ve farklı alma yöntemleri gösterilmektedir.
Veri alma işleminden sorumlu Azure Veri Gezgini veri yönetimi hizmeti aşağıdaki işlemi uygular:
Azure Veri Gezgini, bir dış kaynaktan veri çeker ve bekleyen bir Azure kuyruğundan istekleri okur. Veriler toplanmış veya Veri Yöneticisi akışa kaydedilir. Aynı veritabanına ve tabloya akan toplu iş verileri, Alım performansı için iyileştirilmiştir. Azure Veri Gezgini, ilk verileri doğrular ve gerektiğinde veri biçimlerini dönüştürür. Veri işleme ile eşleşen şema, düzenleme, dizin oluşturma, kodlama ve verileri sıkıştırma dahildir. Veriler depolama sırasında ayarlanan bekletme ilkesine göre kalıcıdır. Veri Yöneticisi daha sonra verileri, sorgu için kullanılabilir olduğu altyapıya kaydeder.
Desteklenen veri biçimleri, Özellikler ve izinler
Alım özellikleri: verilerin nasıl alınacağını etkileyen Özellikler (örneğin etiketleme, eşleme, oluşturma saati).
İzinler: veri almak için, işlem veritabanı alma düzeyi izinlerigerektirir. Sorgu gibi diğer eylemler veritabanı yöneticisi, veritabanı kullanıcısı veya tablo Yöneticisi izinleri gerektirebilir.
Toplu işleme vs akış alımı
Toplu işleme alımı, verilerin toplu işleme ve yüksek alım performansı için iyileştirilmiştir. Bu yöntem, tercih edilen ve en iyi performansı alma türüdür. Veriler, alma özelliklerine göre toplu olarak oluşturulur. Daha sonra küçük toplu veri kümeleri birleştirilir ve hızlı sorgu sonuçları için iyileştirilmiştir. Alma işlemi toplu oluşturma ilkesi veritabanlarında veya tablolarda ayarlanabilir. Varsayılan olarak, en fazla toplu işlem değeri 5 dakika, 1000 öğe veya toplam 1 GB boyutudur. Bir Batch alma komutu için veri boyutu sınırı 4 GB 'tır.
Akış alımı, akış kaynağından devam eden veri alma işlemi olur. Akış alımı, tablo başına küçük veri kümelerinde neredeyse gerçek zamanlı gecikme süresine izin verir. Veriler başlangıçta satır deposuna alınır ve ardından sütun deposu uzantılarına taşınır. Akış alımı, bir Azure Veri Gezgini istemci kitaplığı veya desteklenen veri ardışık düzenlerinden biri kullanılarak yapılabilir.
Alma yöntemleri ve araçları
Azure Veri Gezgini, her biri kendi hedef senaryolarıyla birlikte birkaç alma yöntemini destekler. Bu yöntemler, farklı hizmetlere yönelik bağlayıcılar ve eklentileri, yönetilen işlem hatlarını, SDK 'Ları kullanarak programlı alımı ve alma için doğrudan erişimi içerir.
Yönetilen işlem hatlarını kullanarak alma
Bir dış hizmet tarafından gerçekleştirilen yönetimi (kısıtlama, yeniden denemeler, izleyiciler, uyarılar ve daha fazlası) isteyen kuruluşlar için, bağlayıcı kullanmak muhtemelen en uygun çözümdür. Sıraya alınan Alım, büyük veri birimlerine uygundur. Azure Veri Gezgini aşağıdaki Azure Pipelines destekler:
Event Grid: Azure Storage 'ı dinleyen ve abone olunan olaylar gerçekleştiğinde Azure Veri Gezgini güncelleştiren bir işlem hattı. Daha fazla bilgi için bkz. Azure Bloblarını azure Veri Gezgini 'aalma.
Olay Hub'ı: olayları hizmetlerden Azure Veri Gezgini aktaran bir işlem hattı. Daha fazla bilgi için bkz. Olay Hub 'ından Azure Veri Gezgini 'a verialma.
IoT Hub: desteklenen IoT cihazlarından Azure Veri Gezgini veri aktarımı için kullanılan bir işlem hattı. Daha fazla bilgi için bkz. IoT Hubalma.
Azure Data Factory (ADF): Azure 'daki analitik iş yükleri için tam olarak yönetilen bir veri tümleştirme hizmetidir. Azure Data Factory, verimli ve dayanıklı veri aktarımı sağlamak için desteklenen 90 ' den fazla kaynağa bağlanır. ADF, farklı yollarla izlenebilecek Öngörüler sağlamak için verileri hazırlar, dönüştürür ve zenginleştirir. Bu hizmet tek seferlik bir çözüm olarak, düzenli aralıklarla bir zaman çizelgesinde veya belirli olaylar tarafından tetiklenerek kullanılabilir.
- Azure Veri Gezgini Azure Data Factory Ile tümleştirin.
- Desteklenen kaynaklardaki verileri Azure Veri Gezgini kopyalamak için Azure Data Factory kullanın.
- Azure Data Factory şablonunu kullanarak bir veritabanından Azure Veri Gezgini toplu olarak kopyalayın.
- Azure Veri Gezgini denetim komutlarını çalıştırmak için Azure Data Factory komut etkinliğini kullanın.
Bağlayıcılar ve eklentiler kullanılarak alma
Logstash eklentisi, bkz. logstash 'ten Azure 'a veri alma veri Gezgini.
Kafka Bağlayıcısı, bkz. Kafka 'dan Azure Veri Gezgini 'a verialma.
Power Automate: Azure Veri Gezgini otomatik bir iş akışı ardışık düzeni. Power Automate sorgu yürütmek ve sorgu sonuçlarını tetikleyici olarak kullanarak önceden ayarlanmış eylemler yapmak için kullanılabilir. Bkz. Azure Data Explorer connector to Power Automate (Preview).
Apache Spark Bağlayıcısı: herhangi bir Spark kümesinde çalışabilen açık kaynaklı bir proje. Verileri Azure Veri Gezgini ve Spark kümeleri arasında taşımak için veri kaynağını ve veri havuzunu uygular. Veri odaklı senaryoları hedefleyen hızlı ve ölçeklenebilir uygulamalar oluşturabilirsiniz. Apache Spark için bkz. Azure Veri Gezgini Bağlayıcısı.
SDK 'Ları kullanarak programlı alma
Azure Veri Gezgini, sorgu ve veri alımı için kullanılabilecek SDK 'lar sağlar. Programlı alma, Alım maliyetlerini (SMM) azaltmak için en iyi duruma getirilir ve bu işlem sırasında ve sonrasında depolama işlemlerini en aza indirir.
Kullanılabilir SDK 'lar ve açık kaynaklı projeler
Araçlar
Bir tıklamaalma: çok sayıda kaynak türünden tablo oluşturup ayarlayarak verileri hızlı bir şekilde almanıza olanak sağlar. Bir tıklama alma işlemi otomatik olarak tabloları ve eşleme yapılarını Azure Veri Gezgini 'daki veri kaynağına göre otomatik olarak önerir. Bir tıklama alımı, tek seferlik alma için veya verilerin alındığı kapsayıcıda Event Grid aracılığıyla sürekli alma tanımlamak için kullanılabilir.
Lightınest: Azure Veri Gezgini 'de geçici veri alımı için bir komut satırı yardımcı programı. Yardımcı program, kaynak verilerini yerel bir klasörden veya bir Azure Blob depolama kapsayıcısından alabilir.
Alma denetim komutları
Doğrudan altyapıya veri almak için komutları kullanın. Bu yöntem Veri Yönetimi hizmetlerini atlar ve bu nedenle yalnızca araştırma ve prototipleme için kullanılmalıdır. Üretim veya yüksek hacimli senaryolarda bu yöntemi kullanmayın.
Satır içiAlım: bir denetim komutu . ınest satır içi , komut metninin bir parçası olacak verilerle birlikte motoruna gönderilir. Bu yöntem, improvised test amacıyla tasarlanmıştır.
Sorgudanalma: bir denetim komutu . set,. Append,. set-veya-Append veya. set-or-Replace , bir sorgunun veya bir komutun sonuçları olarak dolaylı olarak belirtilen verilerle altyapısına gönderilir.
depolama 'dan alma (çekme): bir denetim komutu . ınest , altyapıya bir dış depolamada (örneğin, Azure Blob Depolama) depolanan ve komut tarafından işaret edilen verilerle birlikte altyapısına gönderilir.
Alma yöntemlerini ve araçlarını karşılaştırma
| Giriş adı | Veri türü | En büyük dosya boyutu | Akış, toplu işlem, doğrudan | En yaygın senaryolar | Dikkat edilmesi gerekenler |
|---|---|---|---|---|---|
| Bir tıklama alımı | * SV, JSON | 1 GB sıkıştırılmamış (nota bakın) | Doğrudan alma sırasında kapsayıcıya, yerel dosyaya ve bloba toplu işleme | Tek kapalı, tablo şeması oluşturma, olay kılavuzuyla sürekli alma alma, kapsayıma (5.000 blob 'a kadar) toplu alma, geçmiş alma kullanılırken sınır yok) | |
| LightIngest | Desteklenen tüm biçimler | 1 GB sıkıştırılmamış (nota bakın) | Altyapıya DM veya Direct alımı aracılığıyla toplu işleme | Veri geçişi, ayarlanan alma zaman damgalarına sahip geçmiş verileri, toplu alma (boyut kısıtlaması yok) | Büyük/küçük harfe duyarlı, boşlukla duyarlı |
| ADX Kafka | Avro, ApacheAvro, JSON, CSV, Parquet ve ORC | Sayısız. Java kısıtlamalarını devralır. | Toplu işleme, akış | Kaynaktaki mevcut işlem hattı, yüksek hacimli tüketim. | Tercih, "birden çok üretici/tüketici" hizmetinin zaten kullanıldığı veya bir hizmetin yönetilme biçimini tespit edebilir. |
| ADX Apache Spark | Spark ortamı tarafından desteklenen her biçim | Sınırsız | Toplu İşleme | Mevcut işlem hattı, Spark ortamının desteklediği çeşitli kaynaklardan güvenli (Spark) akış işlem hattı oluşturmak için hızlı bir şekilde Spark 'da ön işleme. | Spark kümesinin maliyetini göz önünde bulundurun. Toplu yazma için, Event Grid için Azure Veri Gezgini veri bağlantısı ile karşılaştırın. Spark akışı için, Olay Hub 'ı için veri bağlantısıyla karşılaştırın. |
| LogStash | JSON | Sayısız. Java kısıtlamalarını devralır. | Bağlayıcının girişleri Logstash olaylardır ve bağlayıcı, toplu işlem alımı kullanarak kusto 'e çıktı verir. | Mevcut işlem hattı, çok büyük hacimlerden yararlanın ve girişte yüksek hacimli tüketim için günlük açık kaynak doğası. | Tercih, "birden çok üretici/tüketici" hizmetinin zaten kullanıldığı veya bir hizmetin yönetilme biçimini tespit edebilir. |
| Azure Data Factory (ADF) | Desteklenen veri biçimleri | Sınırsız * (ADF kısıtlaması başına) | Toplu işleme veya ADF tetikleyicisi başına | Genellikle desteklenmeyen, büyük dosyalar olan biçimleri, 90 kaynaktan, izin kaynağından buluta kopyalayabilir şekilde destekler | Bu yöntem, veriler alınana kadar daha fazla zaman alır. ADF tüm verileri belleğe yükler ve ardından alımı başlatır. |
| Power Automate | Desteklenen tüm biçimler | 1 GB sıkıştırılmamış (nota bakın) | Toplu İşleme | Akışın parçası olarak giriş komutları. İşlem hatlarını otomatikleştirmek için kullanılır. | |
| Logic Apps | Desteklenen tüm biçimler | 1 GB sıkıştırılmamış (nota bakın) | Toplu İşleme | İşlem hatlarını otomatikleştirmek için kullanılır | |
| IoT Hub | Desteklenen veri biçimleri | Yok | Toplu işleme, akış | IoT iletileri, IoT olayları, IoT özellikleri | |
| Olay Hub'ı | Desteklenen veri biçimleri | Yok | Toplu işleme, akış | İletiler, olaylar | |
| Event Grid | Desteklenen veri biçimleri | 1 GB sıkıştırılmamış | Toplu İşleme | Azure depolama 'dan sürekli alma, Azure depolama 'daki dış veriler | Alma işlemi, blob yeniden adlandırma veya blob oluşturma eylemleri tarafından tetiklenebilir |
| .NET SDK | Desteklenen tüm biçimler | 1 GB sıkıştırılmamış (nota bakın) | Toplu işleme, akış, doğrudan | Kuruluş ihtiyaçlarına göre kendi kodunuzu yazın | |
| Python | Desteklenen tüm biçimler | 1 GB sıkıştırılmamış (nota bakın) | Toplu işleme, akış, doğrudan | Kuruluş ihtiyaçlarına göre kendi kodunuzu yazın | |
| Node.js | Desteklenen tüm biçimler | 1 GB sıkıştırılmamış (bkz. nota | Toplu işleme, akış, doğrudan | Kuruluş ihtiyaçlarına göre kendi kodunuzu yazın | |
| Java | Desteklenen tüm biçimler | 1 GB sıkıştırılmamış (nota bakın) | Toplu işleme, akış, doğrudan | Kuruluş ihtiyaçlarına göre kendi kodunuzu yazın | |
| REST | Desteklenen tüm biçimler | 1 GB sıkıştırılmamış (nota bakın) | Toplu işleme, akış, doğrudan | Kuruluş ihtiyaçlarına göre kendi kodunuzu yazın | |
| Go | Desteklenen tüm biçimler | 1 GB sıkıştırılmamış (nota bakın) | Toplu işleme, akış, doğrudan | Kuruluş ihtiyaçlarına göre kendi kodunuzu yazın |
Not
Yukarıdaki tabloda başvuruluyorsa, alım, en fazla 4 GB dosya boyutunu destekler. Öneri, 100 MB ile 1 GB arasında dosya alma.
Alma işlemi
Gereksinimleriniz için en uygun alma yöntemini seçtikten sonra, aşağıdaki adımları uygulayın:
Toplu işleme Ilkesini ayarlama (isteğe bağlı)
Toplu işleme oluşturma ilkesinegöre verileri toplu işleme alma. Alımı yapmadan önce bir toplu işlem ilkesi tanımlayın. Bkz. Alım en iyi uygulamaları-üretilen iş için iyileştiriliyor. İlke değişikliklerinin toplu işlemesi, en fazla 5 dakika sürebilir. İlke, toplu sınırları üç etkene göre ayarlar: Toplu oluşturma işleminden sonra geçen süre, birikmiş öğe sayısı (blob) veya toplam toplu iş boyutu. Varsayılan olarak, ayarlar 5 dakika/1000 blobu/1 GB olur; bu sınır, ilk olarak geçerlilik kazanmıştır. Bu nedenle, alma için örnek verileri sıraya alırken genellikle 5 dakikalık bir gecikme vardır.
Bekletme ilkesi ayarlama
Azure Veri Gezgini bir tabloya alınan veriler tablonun etkili bekletme ilkesine tabidir. Tabloda açıkça ayarlanmadığı sürece geçerli saklama ilkesi veritabanının saklama ilkesinden türetilir. Sık saklama, küme boyutu ve bekletme ilkenizin işlevsidir. Kullanılabilir alandan daha fazla veri almak, ilk verileri soğuk bekletmeye zorlayacaktır.
Veritabanının saklama ilkesinin gereksinimlerinize uygun olduğundan emin olun. Değilse, bunu tablo düzeyinde açıkça geçersiz kılın. Daha fazla bilgi için bkz. bekletme ilkesi.
Tablo oluşturma
Verileri almak için, önceden bir tablo oluşturulması gerekir. Aşağıdaki seçeneklerden birini kullanın:
- Komutuylabir tablo oluşturun.
- Bir tıklamaalımı kullanarak tablo oluşturun.
Not
Bir kayıt tamamlanmamışsa veya bir alan gerekli veri türü olarak ayrıştırılamıyorsa, karşılık gelen tablo sütunları null değerlerle doldurulur.
Şema eşlemesi oluştur
Şema eşleme , kaynak veri alanlarını hedef tablo sütunlarına bağlamaya yardımcı olur. Eşleme, farklı kaynaklardaki verileri, tanımlanan özniteliklere göre aynı tabloya almanıza olanak sağlar. Farklı eşleme türleri desteklenir, hem satır odaklı (CSV, JSON ve AVRO) hem de sütun yönelimli (Parquet). Çoğu yöntemde, eşlemeler tablo üzerinde önceden oluşturulabilir ve içe alma komut parametresinden başvuru yapılabilir.
Güncelleştirme Ilkesini ayarlama (isteğe bağlı)
Bazı veri biçimi eşlemeleri (Parquet, JSON ve avro) basit ve yararlı alma zamanı dönüştürmelerini destekler. Senaryo alma sırasında daha karmaşık işleme gerektiriyorsa, sorgu komutlarını kullanarak hafif işlemeyi destekleyen güncelleştirme ilkesiniayarlayın. Güncelleştirme ilkesi, özgün tablodaki verileri alınan verilerle otomatik olarak çalıştırır ve sonuçta elde edilen verileri bir veya daha fazla hedef tabloya dönüştürür.