Big data catalogiseren in Azure Data Catalog

Artikel
12/13/2023

Belangrijk

Azure Data Catalog wordt op 15 mei 2024 buiten gebruik gesteld.

Er kunnen geen nieuwe Azure Data Catalog-accounts meer worden gemaakt.

Voor functies van de gegevenscatalogus gebruikt u de Microsoft Purview-service , die geïntegreerde gegevensbeheer biedt voor uw hele gegevensdomein.

Als u Azure Data Catalog al gebruikt, moet u een migratieplan maken voor uw organisatie om uiterlijk 15 mei 2024 over te stappen naar Microsoft Purview .

Inleiding

Microsoft Azure Data Catalog is een volledig beheerde cloudservice die fungeert als een systeem voor registratie en detectie voor zakelijke gegevensbronnen. Het gaat allemaal om mensen te helpen gegevensbronnen te ontdekken, te begrijpen en te gebruiken en organisaties te helpen meer waarde te krijgen uit hun bestaande gegevensbronnen, waaronder big data.

Azure Data Catalog ondersteunt de registratie van Azure Storage-blobs en mappen, evenals Hadoop HDFS-bestanden en -mappen. De semi-gestructureerde aard van deze gegevensbronnen biedt veel flexibiliteit. Als u echter de meeste waarde wilt krijgen bij het registreren van ze bij Azure Data Catalog, moeten gebruikers overwegen hoe de gegevensbronnen zijn georganiseerd.

Directory's als logische gegevenssets

Een veelvoorkomend patroon voor het organiseren van big data-bronnen is het behandelen van mappen als logische gegevenssets. Mappen op het hoogste niveau worden gebruikt om een gegevensset te definiëren, terwijl submappen partities definiëren en de bestanden die ze bevatten de gegevens zelf opslaan.

Een voorbeeld van dit patroon kan zijn:

    \vehicle_maintenance_events
        \2013
        \2014
        \2015
            \01
                \2015-01-trailer01.csv
                \2015-01-trailer92.csv
                \2015-01-canister9635.csv
                ...
    \location_tracking_events
        \2013
        ...

In dit voorbeeld vertegenwoordigen vehicle_maintenance_events en location_tracking_events logische gegevenssets. Elk van deze mappen bevat gegevensbestanden die zijn ingedeeld op jaar en maand in submappen. Elk van deze mappen kan mogelijk honderden of duizenden bestanden bevatten.

In dit patroon is het registreren van afzonderlijke bestanden bij Azure Data Catalog waarschijnlijk niet logisch. Registreer in plaats daarvan de mappen die de gegevenssets vertegenwoordigen die zinvol zijn voor de gebruikers die met de gegevens werken.

Referentiegegevensbestanden

Een aanvullend patroon is het opslaan van referentiegegevenssets als afzonderlijke bestanden. Deze gegevenssets kunnen worden beschouwd als de 'kleine' kant van big data en zijn vaak vergelijkbaar met dimensies in een analytische gegevensmodel. Referentiegegevensbestanden bevatten records die worden gebruikt om context te bieden voor het grootste deel van de gegevensbestanden die elders in het big data-archief zijn opgeslagen.

Een voorbeeld van dit patroon kan zijn:

    \vehicles.csv
    \maintenance_facilities.csv
    \maintenance_types.csv

Wanneer een analist of data scientist met de gegevens in de grotere mapstructuren werkt, kunnen de gegevens in deze referentiebestanden worden gebruikt om meer gedetailleerde informatie te bieden voor entiteiten waarnaar alleen wordt verwezen op naam of id in de grotere gegevensset.

In dit patroon is het zinvol om de afzonderlijke referentiegegevensbestanden te registreren bij Azure Data Catalog. Elk bestand vertegenwoordigt een gegevensset en elk bestand kan afzonderlijk worden geannoteerd en gedetecteerd.

Alternatieve patronen

De patronen die in de voorgaande secties worden beschreven, zijn twee mogelijke manieren waarop een big data-archief kan worden georganiseerd, maar elke implementatie is anders. Ongeacht hoe uw gegevensbronnen zijn gestructureerd, richt u zich bij het registreren van big data-bronnen bij Azure Data Catalog op het registreren van de bestanden en mappen die de gegevenssets vertegenwoordigen die van waarde zijn voor anderen binnen uw organisatie. Als u alle bestanden en mappen registreert, kan de catalogus overzichtelijker worden, waardoor gebruikers moeilijker kunnen vinden wat ze nodig hebben.

Samenvatting

Als u gegevensbronnen registreert bij Azure Data Catalog , kunt u ze gemakkelijker detecteren en begrijpen. Door de big data-bestanden en mappen die logische gegevenssets vertegenwoordigen te registreren en aantekeningen te maken, kunt u gebruikers helpen bij het vinden en gebruiken van de benodigde big data-bronnen.