Analyser des données dans un compte de stockageAnalyze data in a storage account

Dans ce tutoriel, vous allez découvrir comment analyser des données qui se trouvent dans un compte de stockage.In this tutorial, you'll learn how to analyze data located in a storage account.

Vue d’ensembleOverview

Jusqu’à présent, nous avons vu des scénarios où les données se trouvent dans des bases de données de l’espace de travail.So far, we've covered scenarios where data resides in databases in the workspace. Maintenant, nous allons voir comment utiliser des fichiers dans des comptes de stockage.Now we'll show you how to work with files in storage accounts. Dans ce scénario, nous utilisons le compte de stockage principal de l’espace de travail et le conteneur que nous avons spécifiés au moment de la création de l’espace de travail.In this scenario, we'll use the primary storage account of the workspace and container that we specified when creating the workspace.

  • Le nom du compte de stockage est contosolakeThe name of the storage account: contosolake
  • Le nom du conteneur dans le compte de stockage est usersThe name of the container in the storage account: users

Créer des fichiers CSV et Parquet dans votre compte de stockageCreate CSV and Parquet files in your storage account

Exécutez le code suivant dans une nouvelle cellule de code d’un notebook.Run the following code in a notebook in a new code cell. Il crée un fichier CSV et un fichier Parquet dans le compte de stockage.It creates a CSV file and a parquet file in the storage account.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensure we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

Analyser des données dans un compte de stockageAnalyze data in a storage account

Vous pouvez analyser les données dans le compte ADLS Gen2 par défaut de votre espace de travail ou vous pouvez lier un compte ADLS Gen2 ou Stockage Blob à votre espace de travail via « Gérer » > « Services liés » > « Nouveau » (les étapes ci-dessous font référence au compte ADLS Gen2 principal).You can analyze the data in your workspace default ADLS Gen2 account or you can link an ADLS Gen2 or Blob storage account to your workspace through "Manage" > "Linked Services" > "New" (The steps below will refer to the primary ADLS Gen2 account).

  1. Dans Synapse Studio, accédez au hub Données, puis sélectionnez Liées.In Synapse Studio, go to the Data hub, and then select Linked.

  2. Accédez à Comptes de stockage > myworkspace (Principal - contosolake) .Go to Storage accounts > myworkspace (Primary - contosolake).

  3. Sélectionnez utilisateurs (Principaux) .Select users (Primary). Vous devez normalement voir le dossier NYCTaxi,You should see the NYCTaxi folder. qui contient les deux dossiers PassengerCountStats_csvformat et PassengerCountStats_parquetformat.Inside you should see two folders called PassengerCountStats_csvformat and PassengerCountStats_parquetformat.

  4. Ouvrez le dossier PassengerCountStats_parquetformat.Open the PassengerCountStats_parquetformat folder. Vous y verrez un fichier parquet avec un nom comme part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet.Inside, you'll see a parquet file with a name like part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet.

  5. Cliquez avec le bouton droit sur .parquet, sélectionnez Nouveau notebook, puis sélectionnez Charger dans un dataframe.Right-click .parquet, then select New notebook, then select Load to DataFrame. Un notebook est créé avec une cellule semblable à celle-ci :A new notebook is created with a cell like this:

    %%pyspark
    df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats.parquet/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet', format='parquet')
    display(df.limit(10))
    
  6. Effectuez un attachement au pool Spark nommé Spark1.Attach to the Spark pool named Spark1. Exécutez la cellule.Run the cell.

  7. Cliquez de nouveau sur le dossier users.Click back to the users folder. Recliquez avec le bouton droit sur le fichier .parquet, puis sélectionnez Nouveau script SQL > Sélectionner les 100 premières lignes.Right-click the .parquet file again, and then select New SQL script > SELECT TOP 100 rows. Cela crée un script SQL semblable à ceci :It creates a SQL script like this:

    SELECT 
        TOP 100 *
    FROM OPENROWSET(
        BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats.parquet/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet',
        FORMAT='PARQUET'
    ) AS [result]
    

    Dans la fenêtre de script, vérifiez que le champ Se connecter à est défini sur le pool SQL serverless Intégré.In the script window, make sure the Connect to field is set to the Built-in serverless SQL pool.

  8. Exécutez le script.Run the script.

Étapes suivantesNext steps