Kaynak kümelerini anlama

Bu makale, Azure purview 'ın veri varlıklarını mantıksal kaynaklarla eşlemek için kaynak kümelerini nasıl kullandığını anlamanıza yardımcı olur.

Arka plan bilgileri

Ölçekli veri işleme sistemleri genellikle birden çok dosya olarak depolamada tek bir tabloyu depolar. Azure purview veri kataloğunda, bu kavram kaynak kümeleri kullanılarak temsil edilir. Kaynak kümesi, katalogdaki çok sayıda varlığı temsil eden katalogdaki tek bir nesnedir.

örneğin, Spark kümenizin bir veri çerçevesini Azure Data Lake Storage (adls) Gen2 veri kaynağına kalıcı olduğunu varsayalım. Spark 'da tablo tek bir mantıksal kaynak gibi görünse de, her biri toplam veri çerçevesinin içeriğinin bir bölümünü temsil eden binlerce Parquet dosyası vardır. IoT verileri ve Web günlüğü verilerinde aynı zorluk vardır. günlük dosyalarını birkaç kez veren bir sensöre sahip Imagine. Bu tek sensörden yüzlerce binlerce günlük dosyası olana kadar uzun sürmez.

Azure purview 'ın kaynak kümelerini nasıl algıladığı

azure purview, azure Blob Depolama, ADLS 1., ADLS 2., azure dosyaları ve Amazon S3 içindeki kaynak kümelerinin algılanmasının kullanılmasını destekler.

Azure purview tarama sırasında kaynak kümelerini otomatik olarak algılar. Bu özellik, tarama yoluyla alınan tüm verilere bakar ve bunları bir dizi tanımlı desenlerle karşılaştırır.

Örneğin, URL 'SI olan bir veri kaynağını taradığınızı varsayalım https://myaccount.blob.core.windows.net/mycontainer/machinesets/23/foo.parquet . Azure takip görünümü yol kesimlerine bakar ve yerleşik desenlerle eşleşip eşleşmediğine karar verir. GUID, sayı, tarih biçimleri, yerelleştirme kodları (örneğin, en-US) için yerleşik desenleri vardır. Bu durumda, sayı deseninin 23' ü eşleştirir. Azure purview, bu dosyanın adlı bir kaynak kümesinin parçası olduğunu varsayar https://myaccount.blob.core.windows.net/mycontainer/machinesets/{N}/foo.parquet .

Ya da gibi bir URL için https://myaccount.blob.core.windows.net/mycontainer/weblogs/en_au/23.json Azure purview, adlı bir kaynak kümesi üreten yerelleştirme düzeniyle ve sayı düzeniyle eşleşir https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json .

Azure purview, bu stratejiyi kullanarak aşağıdaki kaynakları aynı kaynak kümesiyle eşleyebilir https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json :

  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/1004.json
  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/234.json
  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/de_Ch/23434.json

Azure purview 'ın kaynak kümesi olarak algılayamayacağı dosya türleri

bilinçli olarak, Word, Excel veya PDF gibi belge dosya türlerini kaynak kümeleri olarak sınıflandırmamaya çalışır. Ortak bölümlenmiş bir dosya biçimi olduğundan özel durum CSV biçimidir.

Azure purview kaynak kümelerini tarar

Azure purview, bir kaynak kümesinin parçası olduğu kaynakları algıladığında, tam taramadan örnek taramaya geçiş yapar. Örnek tarama yalnızca kaynak kümesinde yer aldığı dosyaların bir alt kümesini açar. Açtığı her dosya için şemasını kullanır ve sınıflandırıcılarından çalıştırılır. Daha sonra Azure purview, açılan kaynaklar arasından en yeni kaynağı bulur ve bu kaynağın şema ve sınıflandırmalarını katalogda tüm kaynak kümesi için girişte kullanır.

Gelişmiş kaynak kümeleri

Varsayılan olarak, Azure purview kaynak kümelerinin şema ve sınıflandırmalarını kaynak kümesi dosya örnekleme kurallarınagöre belirler. Azure purview, kaynak kümesi varlıklarınızı Gelişmiş kaynak kümeleri özelliği aracılığıyla özelleştirebilir ve daha zengin bir şekilde zenginleştirebilirsiniz. Gelişmiş kaynak kümeleri etkinleştirildiğinde Azure purview, kaynak kümesi varlıkları hakkında aşağıdaki bilgileri hesaplamak için ek toplamalar çalıştırır:

  • En güncel şema ve sınıflandırmaların, verileri değiştirme verilerinden doğru şekilde yansıtılması.
  • Kaynak kümesini içeren bir dosyadan örnek yol.
  • Kaynak kümesini kaç dosya kullandığını gösteren bölüm sayısı.
  • Kaç tane benzersiz şema bulunduğunu gösteren bir şema sayısı. Bu değer 1 – 5 veya 5 ' ten büyük değerler için bir sayıdır.
  • Kaynak kümesine birden çok bölüm türü dahil edildiğinde bölüm türlerinin listesi. Örneğin, her ikisi de aynı kaynak kümesinin mantıksal bir parçası olsa da, bir IoT algılayıcısı hem XML hem de JSON dosyalarının çıktısını alabilir.
  • Kaynak kümesini oluşturan tüm dosyaların toplam boyutu.

Bu özellikler kaynak kümesinin varlık ayrıntıları sayfasında bulunabilir.

Gelişmiş kaynak kümeleri açık olduğunda hesaplanan Özellikler

Gelişmiş kaynak kümelerinin etkinleştirilmesi, Azure purview 'ın tarama sırasında kaynak kümelerinin nasıl yapıldığını özelleştiren kaynak kümesi model kuralları oluşturulmasına da imkan tanır.

Gelişmiş kaynak kümelerini açma

Gelişmiş kaynak kümeleri, tüm yeni Azure purview örneklerinde varsayılan olarak kapalıdır. Gelişmiş kaynak kümeleri, yönetim hub 'ındaki hesap bilgileriyle etkinleştirilebilir.

Gelişmiş kaynak kümesini açın.

Gelişmiş kaynak kümelerini etkinleştirdikten sonra, yeni alınan tüm varlıklarda ek zenginler gerçekleşir. Azure purview ekibi, özellik üzerinde geçiş yapıldıktan sonra yeni Data Lake verilerinde tarama yapmadan önce bir saat beklemeyi öneriyor.

Önemli

Gelişmiş kaynak kümelerinin etkinleştirilmesi, varlık ve sınıflandırma öngörülerinin yenileme oranını etkiler. Gelişmiş kaynak kümeleri açık olduğunda, varlık ve sınıflandırma öngörüleri yalnızca iki günde bir güncelleştirilecek.

Yerleşik kaynak kümesi desenleri

Azure takip görünümü aşağıdaki kaynak kümesi düzenlerini destekler. Bu desenler, bir dizinde veya dosya adının bir parçası olarak bir ad olarak görünebilir.

Regex tabanlı desenler

Model adı Görünen Ad Açıklama
Guid 'INI RFC 4122 ' de tanımlanan genel benzersiz tanımlayıcı
Sayı No Bir veya daha fazla rakam
Tarih/saat biçimleri Yıl Başından Günündeki No Çeşitli tarih/saat biçimlerini destekliyoruz, ancak tümü {Year} [sınırlayıcı] {month} [sınırlayıcı] {Day} veya {N} s serisi ile gösteriliyor.
4ByteHex EŞLENECEK 4 basamaklı bir ONALTıLıK sayı.
Yerelleştirme ÇERÇEVE BCP 47' de tanımlanan bir dil etiketi, her ikisi-ve _ ad desteklenir (örneğin, en_ca ve en-CA)

Karmaşık desenler

Model adı Görünen Ad Açıklama
Mini yol {Mini bölümler} Spark bölüm dosyası tanımlayıcısı
Tarih (yyyy/aa/gg) InPath {Year}/{Month}/{Day} Birden çok klasörü kapsayan yıl/ay/gün deseninin

Azure purview veri kataloğunda kaynak kümeleri nasıl görüntülenir

Azure purview bir varlık grubuyla bir kaynak kümesi ile eşleştiğinde, katalogda görünen ad olarak kullanmak için en faydalı bilgileri çıkarmaya çalışır. Varsayılan adlandırma kuralına uygulanan bazı örnekler:

Örnek 1

Tam ad: https://myblob.blob.core.windows.net/sample-data/name-of-spark-output/{SparkPartitions}

Görünen ad: "Spark çıktısının adı"

Örnek 2

Tam ad: https://myblob.blob.core.windows.net/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}

Görünen ad: "bölümlenmiş verilerim"

Örnek 3

Tam ad: https://myblob.blob.core.windows.net/sample-data/data{N}.csv

Görünen ad: "veri"

Model kurallarını kullanarak kaynak kümesi gruplamayı özelleştirme

Azure Purview, bir depolama hesabını tararken bir varlık grubunun kaynak kümesi olup olmadığını belirlemek için tanımlı desenler kullanır. Bazı durumlarda Azure Purview'un kaynak kümesi gruplamaları veri varlıklarınızı doğru yansıtmayabilirsiniz. Bu sorunlar şunları içerebilir:

  • Bir varlığı hatalı bir şekilde kaynak kümesi olarak işaretleme
  • Bir varlığı yanlış kaynak kümesine koyma
  • Bir varlığı hatalı bir şekilde kaynak kümesi değil olarak işaretleme

Azure Purview'ın hangi varlıkların kaynak kümesi olarak gruplandıklarını ve bunların katalogda nasıl görüntüleniyorlarını algılama şeklinizi özelleştirmek veya geçersiz kılmak için yönetim merkezinde desen kuralları tanımlayabilirsiniz. Adım adım yönergeler ve söz dizimi için lütfen kaynak kümesi desen kurallarına bakın.

Sonraki adımlar

Azure Purview ile çalışmaya başlama için bkz. Hızlı Başlangıç: Azure Purview hesabı oluşturma.