Gegevens in Azure Blob-opslag verkennen met PandasExplore data in Azure blob storage with pandas

In dit artikel wordt beschreven hoe u gegevens die zijn opgeslagen in Azure Blob-container kunt verkennen met behulp van het python-pakket van Panda .This article covers how to explore data that is stored in Azure blob container using pandas Python package.

Deze taak is een stap in het team data Science process.This task is a step in the Team Data Science Process.

VereistenPrerequisites

In dit artikel wordt ervan uitgegaan dat u het volgende hebt:This article assumes that you have:

De gegevens laden in een Panda data frameLoad the data into a pandas DataFrame

Als u een gegevensset wilt verkennen en bewerken, moet deze eerst worden gedownload van de BLOB-bron naar een lokaal bestand, dat vervolgens in een Panda data frame kan worden geladen.To explore and manipulate a dataset, it must first be downloaded from the blob source to a local file, which can then be loaded in a pandas DataFrame. Dit zijn de stappen die u moet volgen voor deze procedure:Here are the steps to follow for this procedure:

  1. Down load de gegevens van Azure Blob met het volgende python-code voorbeeld met Blob service.Download the data from Azure blob with the following Python code sample using Blob service. Vervang de variabele in de volgende code door uw specifieke waarden:Replace the variable in the following code with your specific values:

    from azure.storage.blob import BlockBlobService
    import pandas as pd
    import tables
    
    STORAGEACCOUNTNAME= <storage_account_name>
    STORAGEACCOUNTKEY= <storage_account_key>
    LOCALFILENAME= <local_file_name>
    CONTAINERNAME= <container_name>
    BLOBNAME= <blob_name>
    
    #download from blob
    t1=time.time()
    blob_service=BlockBlobService(account_name=STORAGEACCOUNTNAME,account_key=STORAGEACCOUNTKEY)
    blob_service.get_blob_to_path(CONTAINERNAME,BLOBNAME,LOCALFILENAME)
    t2=time.time()
    print(("It takes %s seconds to download "+BLOBNAME) % (t2 - t1))
    
  2. Lees de gegevens in een Panda data frame van het gedownloade bestand.Read the data into a pandas DataFrame from the downloaded file.

    # LOCALFILE is the file path
    dataframe_blobdata = pd.read_csv(LOCALFILENAME)
    

U bent nu klaar om de gegevens te verkennen en functies in deze gegevensset te genereren.Now you are ready to explore the data and generate features on this dataset.

Voor beelden van het verkennen van gegevens met behulp van PandasExamples of data exploration using pandas

Hier volgen enkele voor beelden van manieren om gegevens te verkennen met behulp van Panda:Here are a few examples of ways to explore data using pandas:

  1. Het aantal rijen en kolommen controlerenInspect the number of rows and columns

    print 'the size of the data is: %d rows and  %d columns' % dataframe_blobdata.shape
    
  2. Inspecteer de eerste of laatste paar rijen in de volgende gegevensset:Inspect the first or last few rows in the following dataset:

    dataframe_blobdata.head(10)
    
    dataframe_blobdata.tail(10)
    
  3. Controleer het gegevens type dat elke kolom heeft geïmporteerd, zoals met behulp van de volgende voorbeeld codeCheck the data type each column was imported as using the following sample code

    for col in dataframe_blobdata.columns:
        print dataframe_blobdata[col].name, ':\t', dataframe_blobdata[col].dtype
    
  4. Controleer als volgt de basis statistieken voor de kolommen in de gegevenssetCheck the basic stats for the columns in the data set as follows

    dataframe_blobdata.describe()
    
  5. Ga als volgt te kijken naar het aantal items voor elke kolom waardeLook at the number of entries for each column value as follows

    dataframe_blobdata['<column_name>'].value_counts()
    
  6. Aantal ontbrekende waarden ten opzichte van het werkelijke aantal vermeldingen in elke kolom met de volgende voorbeeld codeCount missing values versus the actual number of entries in each column using the following sample code

    miss_num = dataframe_blobdata.shape[0] - dataframe_blobdata.count()
    print miss_num
    
  7. Als u de waarden voor een bepaalde kolom in de gegevens ontbreken, kunt u deze als volgt verwijderen:If you have missing values for a specific column in the data, you can drop them as follows:

    dataframe_blobdata_noNA = dataframe_blobdata.dropna()
    dataframe_blobdata_noNA.shape
    

    Een andere manier om ontbrekende waarden te vervangen, is met de functie mode:Another way to replace missing values is with the mode function:

    dataframe_blobdata_mode = dataframe_blobdata.fillna(
        {'<column_name>': dataframe_blobdata['<column_name>'].mode()[0]})
    
  8. Een histogram maken met behulp van een variabel aantal opslag locaties om de distributie van een variabele uit te zettenCreate a histogram plot using variable number of bins to plot the distribution of a variable

    dataframe_blobdata['<column_name>'].value_counts().plot(kind='bar')
    
    np.log(dataframe_blobdata['<column_name>']+1).hist(bins=50)
    
  9. Bekijk correlaties tussen variabelen met behulp van een scatterplot of gebruik de ingebouwde correlatie functieLook at correlations between variables using a scatterplot or using the built-in correlation function

    # relationship between column_a and column_b using scatter plot
    plt.scatter(dataframe_blobdata['<column_a>'], dataframe_blobdata['<column_b>'])
    
    # correlation between column_a and column_b
    dataframe_blobdata[['<column_a>', '<column_b>']].corr()