Azure Veri Kataloğu'da büyük verileri katalogla

Önemli

Yeni Azure Veri Kataloğu hesapları artık oluşturulamaz.

Veri kataloğu özellikleri için lütfen tüm veri varlığınız için birleşik veri idaresi sunan Microsoft Purview hizmetini kullanın.

Azure Veri Kataloğu kullanıyorsanız, kuruluşunuzun Ağustos 2025'e kadar Microsoft Purview'a geçmesi için bir geçiş planı oluşturmanız gerekir.

Giriş

Microsoft Azure Veri Kataloğu, kurumsal veri kaynakları için kayıt ve bulma sistemi olarak hizmet veren tam olarak yönetilen bir bulut hizmetidir. Bu, insanların veri kaynaklarını keşfetmesine, anlamasına ve kullanmasına yardımcı olmak ve kuruluşların büyük veri de dahil olmak üzere mevcut veri kaynaklarından daha fazla değer elde etmelerine yardımcı olmaktır.

Azure Veri Kataloğu, Azure Depolama bloblarının ve dizinlerinin yanı sıra Hadoop HDFS dosyalarının ve dizinlerinin kaydını destekler. Bu veri kaynaklarının yarı yapılandırılmış yapısı büyük esneklik sağlar. Bununla birlikte, kullanıcıların Azure Veri Kataloğu'a kaydederek en fazla değeri elde etmek için veri kaynaklarının nasıl düzenleniyor olduğunu göz önünde bulundurmaları gerekir.

Mantıksal veri kümeleri olarak dizinler

Büyük veri kaynaklarını düzenlemeye yönelik yaygın bir düzen, dizinleri mantıksal veri kümeleri olarak ele almaktır. Üst düzey dizinler bir veri kümesini tanımlamak için kullanılırken alt klasörler bölümleri tanımlar ve içerdikleri dosyalar verilerin kendisini depolar.

Bu desene örnek olarak aşağıdakiler gösterilebilir:

    \vehicle_maintenance_events
        \2013
        \2014
        \2015
            \01
                \2015-01-trailer01.csv
                \2015-01-trailer92.csv
                \2015-01-canister9635.csv
                ...
    \location_tracking_events
        \2013
        ...

Bu örnekte vehicle_maintenance_events ve location_tracking_events mantıksal veri kümelerini temsil edin. Bu klasörlerin her biri, yıl ve aya göre alt klasörler halinde düzenlenmiş veri dosyaları içerir. Bu klasörlerin her biri yüzlerce veya binlerce dosya içerebilir.

Bu düzende, tek tek dosyaların Azure Veri Kataloğu kaydedilmesi büyük olasılıkla mantıklı değildir. Bunun yerine, verilerle çalışan kullanıcılar için anlamlı olan veri kümelerini temsil eden dizinleri kaydedin.

Başvuru veri dosyaları

Tamamlayıcı bir desen, başvuru veri kümelerini tek tek dosyalar olarak depolamaktır. Bu veri kümeleri büyük verilerin "küçük" tarafı olarak düşünülebilir ve genellikle analitik veri modelindeki boyutlara benzer. Başvuru veri dosyaları, büyük veri deposunun başka bir yerinde depolanan veri dosyalarının büyük bir kısmının bağlamını sağlamak için kullanılan kayıtları içerir.

Bu desene örnek olarak aşağıdakiler gösterilebilir:

    \vehicles.csv
    \maintenance_facilities.csv
    \maintenance_types.csv

Bir analist veya veri bilimcisi daha büyük dizin yapılarında yer alan verilerle çalışırken, bu başvuru dosyalarındaki veriler daha büyük veri kümesindeki yalnızca ad veya kimlikle başvuruda bulunan varlıklar için daha ayrıntılı bilgi sağlamak için kullanılabilir.

Bu düzende, tek tek başvuru veri dosyalarını Azure Veri Kataloğu'a kaydetmek mantıklıdır. Her dosya bir veri kümesini temsil eder ve her biri ayrı ayrı açıklama ekleyebilir ve bulunabilir.

Alternatif desenler

Önceki bölümlerde açıklanan desenler, büyük bir veri deposunun düzenlenebileceği iki olası yöntemdir, ancak her uygulama farklıdır. Veri kaynaklarınızın nasıl yapılandırıldığına bakılmaksızın, büyük veri kaynaklarını Azure Veri Kataloğu'a kaydederken, kuruluşunuzdaki diğer kişiler için değerli olan veri kümelerini temsil eden dosyaları ve dizinleri kaydetmeye odaklanın. Tüm dosya ve dizinlerin kaydedilmesi kataloğu karmaşık hale getirerek kullanıcıların ihtiyaç duydukları şeyi bulmasını zorlaştırabilir.

Özet

Veri kaynaklarını Azure Veri Kataloğu'a kaydetmek, bunların bulunmasını ve anlaşılmasını kolaylaştırır. Mantıksal veri kümelerini temsil eden büyük veri dosyalarını ve dizinlerini kaydederek ve bunlara ek açıklama ekleyerek kullanıcıların ihtiyaç duydukları büyük veri kaynaklarını bulmasına ve kullanmalarına yardımcı olabilirsiniz.