Campionare i dati in contenitori BLOB di Azure, SQL Server e nelle tabelle Hive

Questo documento include collegamenti ad argomenti che trattano come campionare i dati archiviati in uno fra tre diversi percorsi di Azure:

  • I dati del contenitore BLOB di Azure vengono campionati scaricandoli a livello di programmazione ed eseguendo il successivo campionamento usando un codice Python di esempio.
  • Dati di SQL Server vengono campionati utilizzando sia il linguaggio di programmazione Python che SQL.
  • Dati della tabella hive vengono campionati utilizzando le query Hive.

Il menu seguente contiene collegamenti ad argomenti che descrivono come campionare i dati da ognuno di questi ambienti di archiviazione di Azure.

Questo campionamento è un passaggio del Processo di analisi scientifica dei dati per i team (TDSP).

Perché campionare i dati?

Se il set di dati da analizzare è grande, è in genere opportuno sottocampionare i dati per ridurlo e ottenere dimensioni inferiori più facilmente gestibili ma comunque rappresentative. Questa operazione facilita la comprensione e l'esplorazione dei dati, nonché la progettazione di funzionalità. Il suo ruolo nel Cortana Analytics Process consiste nell'abilitare la creazione relativa a prototipi di funzioni di elaborazione dei dati e di modelli per l'apprendimento automatico.