Azure Veri Gezgini verileri almak için Lightınest kullanın

Lightınest, Azure Veri Gezgini 'ye geçici veri alımı için bir komut satırı yardımcı programıdır. Yardımcı program, kaynak verilerini yerel bir klasörden veya bir Azure Blob depolama kapsayıcısından alabilir. Alma süresinde zaman kısıtlaması olmadığından, açık bir miktarda veri almak istediğinizde, en çok yararlı olur. Daha sonra kayıtları oluşturuldukları zamana göre sorgulamak istediğinizde ve bu süre içinde oluşturulduklarında da yararlıdır.

Bir Lightınest komutunu otomatik olarak oluşturmak için, bkz. ınestion alma Sihirbazı 'Nı açık alma ile geçmiş verilerin tek seferlik alımı Için kullanma.

Önkoşullar

Lightınest 'yi yükler

  1. Bilgisayarınızda Lightınest 'yi indirdiğiniz konuma gidin.
  2. WinRAR kullanarak, Araçlar dizinini bilgisayarınıza ayıklayın.

Lightınest çalıştırma

  1. Bilgisayarınızda ayıklanan Araçlar dizinine gidin.

  2. Mevcut konum bilgilerini konum çubuğundan silin.

    Azure Veri Gezgini 'de açık alma için mevcut konum bilgilerini silin.

  3. Yazın cmd ve ENTER cmdtuşuna basın.

  4. Komut isteminde, LightIngest.exe ardından ilgili komut satırı bağımsız değişkenini yazın.

    İpucu

    Desteklenen komut satırı bağımsız değişkenlerinin listesi için, girin LightIngest.exe /help .

    Açık alma için komut satırı yardımı.

  5. Alımı ingest- yönetecek Azure Veri Gezgini kümesine bağlantı dizesi tarafından izlenen girin. Bağlantı dizesini çift tırnak içine alın ve kusto bağlantı dizeleri belirtiminiizleyin.

    Örnek:

    ingest-{Cluster name and region}.kusto.windows.net;AAD Federated Security=True -db:{Database} -table:Trips -source:"https://{Account}.blob.core.windows.net/{ROOT_CONTAINER};{StorageAccountKey}" -pattern:"*.csv.gz" -format:csv -limit:2 -ignoreFirst:true -cr:10.0 -dontWait:true
    

Öneriler

  • Önerilen yöntem, ' deki alma uç noktasıyla birlikte çalışmak için açık bir yöntemdir https://ingest-{yourClusterNameAndRegion}.kusto.windows.net . Bu şekilde, Azure Veri Gezgini hizmeti alma yükünü yönetebilir ve geçici hatalardan kolayca kurtarma yapabilirsiniz. Bununla birlikte, doğrudan motor uç noktası () ile çalışmak üzere açık alma 'yı da yapılandırabilirsiniz https://{yourClusterNameAndRegion}.kusto.windows.net .

    Not

    Doğrudan motor uç noktasıyla karşılaşırsanız, dahil etmeniz gerekmez ingest- . Ancak, altyapıyı korumak için bir DM özelliği olmayacaktır ve alma başarı oranını iyileştirmez.

  • En iyi alım performansı için, ham veri boyutu gereklidir, bu nedenle açık alma yerel dosyaların sıkıştırılmamış boyutunu tahmin edebilir. Ancak, Lightınest, sıkıştırılmış Blobların ham boyutunu önce indirmeden doğru şekilde tahmin edemeyebilir. Bu nedenle, sıkıştırılmış blob 'ları alırken rawSizeBytes BLOB meta verilerindeki özelliği, bayt olarak sıkıştırılmamış veri boyutu olarak ayarlayın.

Komut satırı bağımsız değişkenleri

Bağımsız değişken adı Tür Description Zorunlu/Isteğe bağlı
string Alma işlemi işleyecek kusto uç noktasını belirten Azure Veri Gezgini bağlantı dizesi . Çift tırnak içine alınmalıdır Zorunlu
-veritabanı,-DB string Hedef Azure Veri Gezgini veritabanı adı İsteğe Bağlı
-Tablo string Hedef Azure Veri Gezgini tablo adı Zorunlu
-sourcePath,-kaynak string Kaynak dosyaların yolu veya blob kapsayıcısının kök URI 'SI. Veriler bloblarda ise, depolama hesabı anahtarı veya SAS içermesi gerekir. Çift tırnak içine almanız önerilir Zorunlu
-önek string Alınacak kaynak veriler blob depolamada bulunduğunda, bu URL öneki kapsayıcı adı hariç tüm Bloblar tarafından paylaşılır.
Örneğin, veriler ' de ise MyContainer/Dir1/Dir2 , ön ek olmalıdır Dir1/Dir2 . Çift tırnak içinde çevreleme önerilir
İsteğe Bağlı
-desenli string Kaynak dosyalarının/Blobların çekildiği örüntü. Joker karakterleri destekler. Örneğin, "*.csv". Çift tırnak içine almanız önerilir İsteğe Bağlı
-Zipmodel string Bir ZIP içindeki hangi dosyaların içe alınması için kullanılan normal ifade.
Arşivdeki diğer tüm dosyalar yoksayılacaktır. Örneğin, "*.csv". Çift tırnak içinde çevrelemek önerilir
İsteğe Bağlı
-biçim,-f string Kaynak veri biçimi. Desteklenen biçimlerden biri olmalıdır İsteğe Bağlı
-ingestionMappingPath,-mappingPath string Alma sütunu eşleme için yerel dosyanın yolu. JSON ve avro biçimleri için zorunlu. Bkz. veri eşlemeleri İsteğe Bağlı
-ingestionMappingRef,-mappingRef string Tabloda daha önce oluşturulmuş bir alım sütunu eşlemesinin adı. JSON ve avro biçimleri için zorunlu. Bkz. veri eşlemeleri İsteğe Bağlı
-Creationtimemodel string Ayarlandığında, dosya veya blob yolundan CreationTime özelliğini ayıklamak için kullanılır. Bkz. Kullanarak veri toplama İsteğe Bağlı
-ignoreFirstRow, -ignoreFirst bool Ayarlanırsa, her dosyanın/blob'un ilk kaydı yoksayılır (örneğin, kaynak verilerde üst bilgiler varsa) İsteğe Bağlı
-tag string Verilerle ilişkilendirilen etiketler. Birden çok oluşuma izin verilir İsteğe Bağlı
-dontWait bool 'true' olarak ayarlanırsa, alımın tamamlanmasını beklemez. Büyük miktarlardaki dosyaları/blobları alan faydalıdır İsteğe Bağlı
-compression, -cr double Sıkıştırma oranı ipucu. Ham veri boyutunu değerlendirmeye yardımcı olmak için sıkıştırılmış dosyaları/blobları Azure Veri Gezgini yararlı olur. Özgün boyut olarak hesaplanan ve sıkıştırılmış boyuta bölünen İsteğe Bağlı
-limit , -l tamsayı Ayarlanırsa, alımı ilk N dosyayla sınırlar İsteğe Bağlı
-listOnly, -list bool Ayarlanırsa, yalnızca alımı için seçilmiş olan öğeleri görüntüler İsteğe Bağlı
-ingestTimeout tamsayı Tüm alma işlemlerinin tamamlanması için dakikalar içinde zaman aşımı. Varsayılan değer: 60 İsteğe Bağlı
-forceSync bool Ayarlanırsa, zaman uyumlu alımı güçler. Varsayılan değer: false İsteğe Bağlı
-dataBatchSize tamsayı Her bir işlem için toplam boyut sınırını (MB, sıkıştırılmamış) ayarlar İsteğe Bağlı
-filesInBatch tamsayı Her bir veri işlemi için dosya/blob sayısı sınırını ayarlar İsteğe Bağlı
-devTracing, -trace string Ayarlanırsa, tanılama günlükleri yerel bir dizine yazılır (varsayılan olarak geçerli dizinde veya anahtar RollingLogs değeri ayararak değiştirilebilir) İsteğe Bağlı

Azure bloba özgü özellikler

LightIngest, Azure blobları ile birlikte kullanılırken, veri alımı işlemini artırmak için belirli blob meta veri özelliklerini kullanır.

Meta veri özelliği Kullanım
rawSizeBytes, kustoUncompressedSizeBytes Ayarlanırsa, sıkıştırılmamış veri boyutu olarak yorumlanır
kustoCreationTime, kustoCreationTimeUtc UTC zaman damgası olarak yorumlanır. Ayarlanırsa Kusto'da oluşturma zamanlarını geçersiz kılmak için kullanılır. Geri doldurma senaryoları için yararlıdır

Kullanım örnekleri

CreationTime kullanarak veri toplama

Geçmiş verileri mevcut sistemden bir Azure Veri Gezgini, tüm kayıtlar aynı alma tarihini alır. Verilerinizi veri alımı zamanını değil oluşturma zamanını kullanarak bölümlemesi için bağımsız değişkenini -creationTimePattern kullanabilirsiniz. bağımsız -creationTimePattern değişkeni, özelliği CreationTime dosyadan veya blob yolundan ayıklar. Desenin öğe yolunun tamamını yansıtması değil, yalnızca kullanmak istediğiniz zaman damgasını kapsayan bölümü yansıtması gerekir.

Bağımsız değişken değerleri şunları içermeli:

Önemli

Oluşturma zamanının geçersiz kılınacak olduğunu belirtirken, hedef tablonun etkili Kapsamlar birleştirme ilkesinde özelliğin dosya veya blob yollarınızı değerleriyle hizalı olduğundan Lookback emin olun. Lookback

Örnekler

  • Datetime'ı içeren blob adı: (zaman damgası yıl için dört basamak, ay için iki basamak ve ayın günü için iki historicalvalues19840101.parquet basamaktır)

    bağımsız değişkeninin -creationTimePattern değeri dosya adını içerir: -creationTimePattern

    ingest-{Cluster name and region}.kusto.windows.net;AAD Federated Security=True -db:{Database} -table:Trips -source:"https://{Account}.blob.core.windows.net/{ROOT_CONTAINER};{StorageAccountKey}" -creationTimePattern:"'historicalvalues'yyyyMMdd'.parquet'"
     -pattern:"*.parquet" -format:parquet -limit:2 -cr:10.0 -dontWait:true
    
  • gibi hiyerarşik klasör yapısına başvuran bir blob URI'sı için https://storageaccount/container/folder/2002/12/01/blobname.extension

    bağımsız değişkeninin -creationTimePattern değeri klasör yapısının bir bölümüdür: -creationTimePattern

      ingest-{Cluster name and region}.kusto.windows.net;AAD Federated Security=True -db:{Database} -table:Trips -source:"https://{Account}.blob.core.windows.net/{ROOT_CONTAINER};{StorageAccountKey}" -creationTimePattern:"'folder/'yyyy/MM/dd'/blob'"
       -pattern:"*.csv.gz" -format:csv -limit:2 -ignoreFirst:true -cr:10.0 -dontWait:true
    

Depolama hesabı anahtarı veya SAS belirteci kullanarak blobları almak

  • Belirtilen depolama hesabı altında, klasöründe, kapsayıcının altında ve desenle eşleşen 10 ACCOUNTDIRCONT blobu *.csv.gz
  • Hedef DB veritabanı, tablosu TABLE ve veri alımı MAPPING eşlemesi hedefte önceden oluştur
  • Araç, işlem tamamlanana kadar bekler
  • Hedef veritabanını ve depolama hesabı anahtarını ve SAS belirteci ile belirtmeye yönelik farklı seçenekleri not alın
LightIngest.exe "https://ingest-{ClusterAndRegion}.kusto.windows.net;Fed=True"
  -database:DB
  -table:TABLE
  -source:"https://ACCOUNT.blob.core.windows.net/{ROOT_CONTAINER};{StorageAccountKey}"
  -prefix:"DIR"
  -pattern:*.csv.gz
  -format:csv
  -mappingRef:MAPPING
  -limit:10

LightIngest.exe "https://ingest-{ClusterAndRegion}.kusto.windows.net;Fed=True;Initial Catalog=DB"
  -table:TABLE
  -source:"https://ACCOUNT.blob.core.windows.net/{ROOT_CONTAINER}?{SAS token}"
  -prefix:"DIR"
  -pattern:*.csv.gz
  -format:csv
  -mappingRef:MAPPING
  -limit:10

Üst bilgi satırları dahil değil kapsayıcıdaki tüm blobları alır

  • Belirtilen depolama hesabı altındaki tüm blobları , ACCOUNT klasöründe, DIR1/DIR2 kapsayıcının altında ve CONT desenle eşleşen tüm blobları *.csv.gz
  • Hedef DB veritabanı, tablosu TABLE ve veri alımı MAPPING eşlemesi hedefte önceden oluştur
  • Kaynak bloblar üst bilgi satırı içerdiği için aracın her blob için ilk kaydı bırakması istildi
  • Araç verileri veri alımı için yayınlar ve veri alımı işlemlerinin tamamlandıktan sonra beklemez
LightIngest.exe "https://ingest-{ClusterAndRegion}.kusto.windows.net;Fed=True"
  -database:DB
  -table:TABLE
  -source:"https://ACCOUNT.blob.core.windows.net/{ROOT_CONTAINER}?{SAS token}"
  -prefix:"DIR1/DIR2"
  -pattern:*.csv.gz
  -format:csv
  -mappingRef:MAPPING
  -ignoreFirstRow:true

Bir yoldan tüm JSON dosyalarını alan

  • yolu altındaki tüm dosyaları, PATH desenle eşleşen olarakestin *.json
  • Hedef DB veritabanı, tablosu TABLE ve veri alımı eşlemesi yerel dosyada tanımlanır MAPPING_FILE_PATH
  • Araç verileri veri alımı için yayınlar ve veri alımı işlemlerinin tamamlandıktan sonra beklemez
LightIngest.exe "https://ingest-{ClusterAndRegion}.kusto.windows.net;Fed=True"
  -database:DB
  -table:TABLE
  -source:"PATH"
  -pattern:*.json
  -format:json
  -mappingPath:"MAPPING_FILE_PATH"

Dosyaları alan ve tanılama izleme dosyaları yazan

  • yolu altındaki tüm dosyaları, PATH desenle eşleşen olarakestin *.json
  • Hedef DB veritabanı, tablosu TABLE ve veri alımı eşlemesi yerel dosyada tanımlanır MAPPING_FILE_PATH
  • Araç verileri veri alımı için yayınlar ve veri alımı işlemlerinin tamamlandıktan sonra beklemez
  • Tanılama izleme dosyaları klasör altında yerel olarak yazılır LOGS_PATH
LightIngest.exe "https://ingest-{ClusterAndRegion}.kusto.windows.net;Fed=True"
  -database:DB
  -table:TABLE
  -source:"PATH"
  -pattern:*.json
  -format:json
  -mappingPath:"MAPPING_FILE_PATH"
  -trace:"LOGS_PATH"