Sono pronti i dati per l'analisi scientifica?

Video 2: Analisi scientifica dei dati per principianti

Informazioni su come valutare i dati per assicurarsi che questo processo soddisfi i criteri di base per la preparazione per l'analisi scientifica dei dati.

Per trarre il meglio dalla serie è consigliabile guardare tutti i video. L'elenco dei video è disponibile qui

Altri video della serie

Analisi scientifica dei dati per principianti è una rapida introduzione all'analisi scientifica dei dati in cinque brevi video.

Trascrizione: Sono pronti i dati per l'analisi scientifica?

Questo è il video "I tuoi dati sono pronti per l'analisi scientifica?", il secondo della serie Data Science for Beginners (Analisi scientifica dei dati per principianti).

Per ottenere le risposte desiderate dall'analisi scientifica dei dati, è necessario fornire materiale non elaborato di alta qualità. Proprio come preparare una pizza: più buoni sono gli ingredienti usati, migliore sarà il risultato finale.

Criteri per i dati

Quindi, nel caso dell'analisi scientifica dei dati, esistono alcuni ingredienti che devono essere amalgamati insieme.

Sono fondamentali dati:

  • Rilevanti
  • Connesso
  • Accurati
  • In quantità sufficiente

Sono rilevanti i dati?

Per prima cosa, i dati devono essere rilevanti.

Dati rilevanti vs. dati irrilevanti, valutare i dati

Osservando la tabella a sinistra, si apprende che abbiamo incontrato sette persone fuori dai bar di Boston, misurato il livello di alcol nel sangue, la media battuta dalla Red Sox nell'ultimo match e il prezzo del latte nel negozio di comodità più vicino.

Si tratta di dati del tutto legittimi. L'unico inconveniente è che non sono rilevanti. Non esiste alcuna relazione ovvia tra questi numeri. Infatti, dati il prezzo attuale del latte e la media battuta dalla Red Sox, non vi è alcun modo per risalire al contenuto di alcol nel sangue.

Osservando la tabella a destra si apprende invece che è stata misurata la massa corporea di ciascun individuo ed è stato contato il numero di bevande ingerite. I numeri presenti su ogni riga sono adesso rilevanti l'uno per l'altro. Data la massa corporea di un individuo e il numero di margarita bevuti, è possibile stimare la quantità di alcol presente nel sangue.

I dati a disposizione sono connessi?

L'ingrediente successivo è rappresentato dai dati connessi.

Dati connessi vs. dati disconnessi: criteri dei dati, preparazione dei dati

Ecco alcuni dati rilevanti sulla qualità degli hamburger: temperatura della griglia, peso della carne e classificazione nella rivista sul cibo locale. Si presti però attenzione agli spazi vuoti nella tabella a sinistra.

Alcuni valori non sono presenti nella maggior parte dei set di dati. Accade spesso di avere buchi del genere ed esistono delle soluzioni per colmarli. Tuttavia, se mancano diversi valori, i dati iniziano a somigliare a un formaggio svizzero.

Dalla tabella a sinistra si evince che la quantità di dati mancanti è talmente elevata da poter difficilmente ipotizzare qualsiasi tipo di relazione tra la temperatura della griglia e il peso della carne. Questo è un esempio di dati disconnessi.

La tabella a destra, invece, è interamente completa e rappresenta un esempio di dati connessi.

Sono accurati i dati?

L'ingrediente successivo necessario è l'accuratezza. Qui sono illustrati quattro bersagli da colpire con le frecce.

Dati accurati vs. dati non accurati - criteri di dati

Si osservi il bersaglio in alto a destra. Attorno al punto centrale vi è un raggruppamento stretto. Quello è naturalmente accurato. Stranamente, nel linguaggio di analisi scientifica dei dati, anche le prestazioni poco al di sotto del centro del bersaglio sono considerate accurate.

Se si tratteggiasse il centro di queste frecce, si vedrebbe che è molto vicino al centro del bersaglio. Le frecce sono distribuite attorno al bersaglio, quindi considerate imprecise, ma sono centrate attorno al centro del bersaglio, quindi considerate accurate.

Osservando adesso il bersaglio in alto a sinistra, le frecce sono molto vicine l'una all'altra, si tratta di un raggruppamento stretto. Sono precise, ma non accurate perché il centro è fuori dal centro del bersaglio. E, naturalmente, le frecce nel bersaglio in fondo a sinistra sono sia inaccurate sia imprecise. Questo arciere deve fare più pratica.

La quantità dei dati a disposizione con cui lavorare è sufficiente?

Infine, l'ingrediente numero 4 è rappresentato da una quantità di dati sufficiente.

La quantità dei dati a disposizione è sufficiente per l'analisi? Valutazione dei dati

Si immagini che ciascun punto di dati nella tabella sia una pennellata in un dipinto. Se le pennellate sono poche, il dipinto può apparire abbastanza confuso ed è difficile stabilire quale sia il soggetto.

Se si danno altre pennellate, il dipinto inizia quindi a essere più nitido.

Quando i tratti sono appena sufficienti, è possibile vedere quanto basta per prendere alcune decisioni approssimative. Si tratta di un posto che mi piacerebbe visitare? C'è molta luce, l'acqua sembra limpida: sì, è il posto in cui andrò in vacanza.

Aggiungendo sempre più dati, l'immagine diventa più chiara ed è possibile prendere decisioni più dettagliate. Adesso guardando i tre hotel sulla riva sinistra, è possibile ammirare le straordinarie caratteristiche architettoniche di quello in primo piano. Deciso: terzo piano.

Dati rilevanti, connessi, accurati e in quantità sufficiente rappresentano tutti gli ingredienti necessari per effettuare alcune analisi scientifiche dei dati di alta qualità.

Anche gli altri quattro video della serie Data Science for Beginners (Analisi scientifica dei dati per principianti) di Microsoft Azure Machine Learning meritano di essere visti.

Passaggi successivi