Virtualizzare i dati CSV dal pool di archiviazione (cluster Big Data)

Articolo
03/18/2023

Importante

Il componente aggiuntivo per i cluster Big Data di Microsoft SQL Server 2019 verrà ritirato. Il supporto per i cluster Big Data di SQL Server 2019 terminerà il 28 febbraio 2025. Tutti gli utenti esistenti di SQL Server 2019 con Software Assurance saranno completamente supportati nella piattaforma e fino a quel momento il software continuerà a ricevere aggiornamenti cumulativi di SQL Server. Per altre informazioni, vedere il post di blog relativo all'annuncio e Opzioni per i Big Data nella piattaforma Microsoft SQL Server.

I cluster Big Data di SQL Server possono virtualizzare i dati da file CSV in HDFS. Questo processo consente di mantenere i dati nel percorso originale, ma di poter eseguire query da un'istanza di SQL Server come per qualsiasi altra tabella. Questa funzionalità usa connettori PolyBase e riduce al minimo la necessità di processi ETL. Per altre informazioni sulla virtualizzazione dei dati, vedere Introduzione alla virtualizzazione dei dati con PolyBase

Prerequisiti

Selezionare o caricare un file CSV per la virtualizzazione dei dati

In Azure Data Studio (ADS) connettersi all'istanza master di SQL Server del cluster Big Data. Una volta connessi, espandere gli elementi HDFS in Esplora oggetti per individuare i file CSV per cui si vuole eseguire la virtualizzazione dei dati.

Ai fini di questa esercitazione, creare una nuova directory denominata Data.

Fare clic con il pulsante destro del mouse sul menu di scelta rapida della directory radice HDFS.
Selezionare Nuova directory.
Assegnare alla nuova directory il nome Data.

Caricare dati di esempio. Per una semplice procedura dettagliata, è possibile usare un file di dati CSV di esempio. Questo articolo usa i dati relativi ai ritardi delle compagnie aeree provenienti dal ministero dei trasporti statunitense. Scaricare i dati non elaborati ed estrarre i dati nel computer. Denominare il file airline_delay_causes.csv.

Per caricare il file di esempio dopo l'estrazione:

In Azure Data Studio fare clic con il pulsante destro del mouse sulla nuova directory creata.
Selezionare Upload files (Carica file).

example csv file in HDFS

Azure Data Studio carica i file in HDFS nel cluster Big Data.

Creare l'origine dati esterna del pool di archiviazione nel database di destinazione

L'origine dati esterna del pool di archiviazione non viene creata in un database per impostazione predefinita nel cluster Big Data. Prima di poter creare l'origine dati esterna, creare l'origine dati esterna SqlStoragePool predefinita nel database di destinazione con la query Transact-SQL seguente. Verificare di aver prima impostato il contesto della query sul database di destinazione.

-- Create the default storage pool source for SQL Big Data Cluster
IF NOT EXISTS(SELECT * FROM sys.external_data_sources WHERE name = 'SqlStoragePool')
    CREATE EXTERNAL DATA SOURCE SqlStoragePool
    WITH (LOCATION = 'sqlhdfs://controller-svc/default');

Creare la tabella esterna

In ADS fare clic con il pulsante destro del mouse sul file CSV e quindi scegliere Create External Table From CSV File (Crea tabella esterna da file CSV) dal menu di scelta rapida. È anche possibile creare tabelle esterne da file CSV di una directory in HDFS a patto che i file nella directory seguano lo stesso schema. Ciò consentirebbe di eseguire la virtualizzazione dei dati a livello di directory, evitando di elaborare i singoli file e di ottenere un set di risultati unito in join che copre tutti i dati combinati. Azure Data Studio illustra i passaggi per creare una tabella esterna.

Specificare il database, l'origine dati, il nome della tabella, lo schema e il nome per il formato di file esterno della tabella.

Selezionare Avanti.

Anteprima dei dati

Azure Data Studio fornisce un'anteprima dei dati importati.

Screenshot showing the Create External Table From CSV window with a preview of imported data.

Al termine della visualizzazione dell'anteprima, selezionare Avanti per continuare

Modificare le colonne

Nella finestra successiva è possibile modificare le colonne della tabella esterna che si intende creare. È possibile modificare il nome della colonna, modificare il tipo di dati, nonché consentire righe che ammettono i valori Null.

Screenshot of the Create External Table From CSV window showing Step 3 Modify Columns.

Dopo aver verificato le colonne di destinazione, selezionare Avanti.

Riepilogo

Questo passaggio visualizza un riepilogo delle selezioni. Fornisce il nome dell'istanza di SQL Server, il nome del database, il nome della tabella, lo schema della tabella e le informazioni sulla tabella esterna. In questo passaggio è possibile generare uno script o creare una tabella. Genera script crea uno script in T-SQL per creare l'origine dati esterna. Crea tabella crea l'origine dati esterna.

Summary screen

Se si seleziona Crea tabella, SQL Server crea la tabella esterna nel database di destinazione.

Se si seleziona Genera script, Azure Data Studio crea la query T-SQL per la creazione della tabella esterna.

Una volta creata, è possibile eseguire query direttamente sulla tabella usando T-SQL dall'istanza di SQL Server.

Passaggi successivi

Per altre informazioni sui cluster Big Data di SQL Server e sugli scenari correlati, vedere Introduzione ai cluster Big Data di SQL Server.