Come utilizzare origini dati di tipo Big Data nel Catalogo dati di AzureHow to work with big data sources in Azure Data Catalog

IntroduzioneIntroduction

Catalogo dati di Microsoft Azure è un servizio cloud completamente gestito che funge da sistema di registrazione e di individuazione per origini dati aziendali.Microsoft Azure Data Catalog is a fully managed cloud service that serves as a system of registration and system of discovery for enterprise data sources. Permette agli utenti di trovare, comprendere e usare le origini dati e consente alle organizzazioni di ottenere maggior valore dalle origini dati esistenti, inclusi i Big Data.It is all about helping people discover, understand, and use data sources, and helping organizations to get more value from their existing data sources, including big data.

Catalogo dati di Azure supporta la registrazione di BLOB e directory di Archiviazione BLOB di Azure, nonché file e directory HDFS di Hadoop.Azure Data Catalog supports the registration of Azure Blog Storage blobs and directories as well as Hadoop HDFS files and directories. La natura semistrutturata di questi dati offre una grande flessibilità.The semi-structured nature of these data sources provides great flexibility. Per ottenere il massimo del valore dalla registrazione con Azure Data Catalog, gli utenti devono tuttavia considerare come sono organizzate le origini dati.However, to get the most value from registering them with Azure Data Catalog, users must consider how the data sources are organized.

Directory come set di dati logiciDirectories as logical data sets

Un modello comune per l'organizzazione delle origini dati di tipo Big Data consiste nel considerare le directory come set di dati logici.A common pattern for organizing big data sources is to treat directories as logical data sets. Le directory di primo livello vengono usate per definire un set di dati, mentre le sottocartelle definiscono le partizioni e i file che contengono archiviano i dati stessi.Top-level directories are used to define a data set, while subfolders define partitions, and the files they contain store the data itself.

Ecco un esempio di questo schema:An example of this pattern might be:

\vehicle_maintenance_events
    \2013
    \2014
    \2015
        \01
            \2015-01-trailer01.csv
            \2015-01-trailer92.csv
            \2015-01-canister9635.csv
            ...
\location_tracking_events
    \2013
    ...

In questo esempio vehicle_maintenance_events e location_tracking_events rappresentano i set di dati logici.In this example, vehicle_maintenance_events and location_tracking_events represent logical data sets. Ognuna di queste cartelle contiene file di dati organizzati in sottocartelle per anno e mese.Each of these folders contains data files that are organized by year and month into subfolders. Ogni cartella potrebbe contenere centinaia o migliaia di file.Each of these folders could potentially contain hundreds or thousands of files.

In questo schema la registrazione di singoli file con Catalogo dati di Azure probabilmente non ha senso.In this pattern, registering individual files with Azure Data Catalog probably does not make sense. Registrare invece le directory che rappresentano i set di dati che sono significativi per gli utenti che utilizzano i dati.Instead, register the directories that represent the data sets that be meaningful to the users working with the data.

File di dati di riferimentoReference data files

Uno schema complementare consiste nell'archiviare i set di dati di riferimento come singoli file.A complementary pattern is to store reference data sets as individual files. Questi set di dati possono essere considerati come il lato "piccolo" dei Big Data e spesso sono simili alle dimensioni in un modello di dati analitici.These data sets may be thought of as the 'small' side of big data, and are often similar to dimensions in an analytical data model. I file di dati di riferimento contengono record usati per fornire il contesto per la maggior parte dei file di dati archiviati altrove nell'archivio di Big Data.Reference data files contain records that are used to provide context for the bulk of the data files stored elsewhere in the big data store.

Ecco un esempio di questo schema:An example of this pattern might be:

\vehicles.csv
\maintenance_facilities.csv
\maintenance_types.csv

Quando un analista o un data scientist utilizza i dati contenuti nelle strutture di directory più grandi, i dati in questi file di riferimento possono essere usati per fornire informazioni più dettagliate per le entità a cui viene fatto riferimento solo per nome o ID nel set di dati più grande.When an analyst or data scientist is working with the data contained in the larger directory structures, the data in these reference files can be used to provide more detailed information for entities that are referred to only by name or ID in the larger data set.

In questo schema può essere utile registrare i singoli file di dati di riferimento con Azure Data Catalog.In this pattern, it makes sense to register the individual reference data files with Azure Data Catalog. Ogni file rappresenta un set di dati e ognuno può essere annotato ed individuato singolarmente.Each file represents a data set, and each one can be annotated and discovered individually.

Schemi alternativiAlternate patterns

Gli schemi descritti nella sezione precedente sono solo due possibili modalità di organizzazione di un archivio di Big Data, ma ogni implementazione è diversa.The patterns described in the preceding section are just two possible ways a big data store may be organized, but each implementation is different. Indipendentemente da come sono strutturate le origini dati, quando si registrano origini dati di tipo Big Data con Azure Data Catalog, concentrarsi sulla registrazione di file e directory che rappresentano i set di dati importanti per altri utenti dell'organizzazione.Regardless of how your data sources are structured, when registering big data sources with Azure Data Catalog, focus on registering the files and directories that represent the data sets that are of value to others within your organization. La registrazione di tutti i file e tutte le directory può creare confusione nel catalogo, rendendo più difficile per gli utenti trovare le informazioni necessarie.Registering all files and directories can clutter the catalog, making it harder for users to find what they need.

RiepilogoSummary

La registrazione di origini dati con il Catalogo dati di Azure ne rende più semplice l'individuazione e la comprensione.Registering data sources with Azure Data Catalog makes them easier to discover and understand. La registrazione e l'annotazione dei file e delle directory di Big Data che rappresentano set di dati logici permettono agli utenti di trovare e usare le origini dati di tipo Big Data necessarie.By registering and annotating the big data files and directories that represent logical data sets, you can help users find and use the big data sources they need.