Caricare i dati di training in Model Builder

Informazioni su come caricare i set di dati di training da un file o da un database di SQL Server da usare in uno degli scenari di Model Builder per ML.NET. Gli scenari di Model Builder possono usare database di SQL Server, file di immagine e formati di file CSV o TSV come dati di training.

Model Builder accetta solo file TSV, CSV e TXT con delimitatori virgole, tabulazioni e punti e immagini PNG e JPG.

Scenari di Model Builder

Model Builder consente di creare modelli per gli scenari di Machine Learning seguenti:

  • Classificazione dei dati (classificazione binaria e multiclasse): classificare i dati di testo in due o più categorie.
  • Stima del valore (regressione): stimare un valore numerico.
  • Classificazione delle immagini (Deep Learning): classificare le immagini in due o più categorie.
  • Raccomandazione (raccomandazione): produrre un elenco di elementi suggeriti per un determinato utente.
  • Rilevamento oggetti (Deep Learning): rilevare e identificare l'oggetto nelle immagini. In questo modo è possibile trovare uno o più oggetti ed etichettarli di conseguenza.

Questo articolo illustra la classificazione e la regressione con dati testuali o numerici, classificazione delle immagini e scenari di rilevamento degli oggetti.

Caricare dati di testo o numerici da un file

È possibile caricare testo o dati numerici da un file in Model Builder. Accetta formati di file delimitati da virgole (CSV) o delimitati da tabulazioni (TSV).

  1. Nel passaggio dati di Model Builder selezionare File come tipo di origine dati.

  2. Selezionare il pulsante Sfoglia accanto alla casella di testo e usare Esplora file per esplorare e selezionare il file di dati.

  3. Scegliere una categoria nell'elenco a discesa Colonna per stimare (Etichetta).

    Nota

    (Facoltativo) Scenari di classificazione dei dati: se il tipo di dati della colonna dell'etichetta (il valore nell'elenco a discesa "Colonna per stimare (Etichetta)") è impostato su Boolean (True/False), viene usato un algoritmo di classificazione binaria nella pipeline di training del modello. In caso contrario, viene usato un formatore di classificazione multiclasse. Usare Opzioni avanzate per i dati per modificare il tipo di dati per la colonna dell'etichetta e informare Model Builder sul tipo di formatore da usare per i dati.

  4. Aggiornare i dati nella collegamento Opzioni avanzate per i dati per impostare le impostazioni delle colonne o per aggiornare la formattazione dei dati.

La configurazione del file di origine dati per Model Builder è stata completata. Fare clic sul pulsante Passaggio successivo per passare al passaggio successivo in Model Builder.

Caricare dati da un database di SQL Server

Model Builder supporta il caricamento di dati da database SQL Server locali e remoti.

File di database locale

Per caricare dati da un file di database di SQL Server in Model Builder:

  1. Nel passaggio dati di Model Builder, selezionare SQL Server come tipo di origine dati.

  2. Selezionare il pulsante Scegli origine dati.

    1. Nella finestra di dialogo Scegli origine dati, selezionare file di database di Microsoft SQL Server.
    2. Deselezionare la casella di controllo Usa sempre questa selezione e selezionare Continua
    3. Nella finestra di dialogo Proprietà connessione, selezionare Sfoglia e selezionare il file .MDF scaricato.
    4. seleziona OK.
  3. Scegliere il nome del set di dati dall'elenco a discesa Nome tabella.

  4. Dall'elenco a discesa Colonna per stimare (Etichetta) scegliere la categoria di dati in cui si vuole eseguire una stima.

    Nota

    (Facoltativo) Scenari di classificazione dei dati: se il tipo di dati della colonna dell'etichetta (il valore nell'elenco a discesa "Colonna per stimare (Etichetta)") è impostato su Boolean (True/False), viene usato un algoritmo di classificazione binaria nella pipeline di training del modello. In caso contrario, viene usato un formatore di classificazione multiclasse. Usare Opzioni avanzate per i dati per modificare il tipo di dati per la colonna dell'etichetta e informare Model Builder sul tipo di formatore da usare per i dati.

  5. Aggiornare i dati nella collegamento Opzioni avanzate per i dati per impostare le impostazioni delle colonne o per aggiornare la formattazione dei dati.

Database di remoto

Per caricare dati da una connessione al database di SQL Server in Model Builder:

  1. Nel passaggio dati di Model Builder, selezionare SQL Server come tipo di origine dati.

  2. Selezionare il pulsante Scegli origine dati.

    1. Nella finestra di dialogo Scegli origine dati selezionare Microsoft SQL Server.
  3. Nella finestra di dialogo Proprietà connessione immettere le proprietà del database Microsoft SQL.

    1. Specificare il nome del server con la tabella a cui ci si vuole connettere.
    2. Configurare l'autenticazione nel server. Se è selezionata l’autenticazione di SQL Server, immettere il nome utente e la password del server.
    3. Selezionare il database a cui connettersi nell'elenco a discesa Selezionare o immettere un nome di database. Questa operazione deve essere popolata automaticamente se il nome del server e le informazioni di accesso sono corrette.
    4. seleziona OK.
  4. Scegliere il nome del set di dati dall'elenco a discesa Nome tabella.

  5. Dall'elenco a discesa Colonna per stimare (Etichetta) scegliere la categoria di dati in cui si vuole eseguire una stima.

    Nota

    (Facoltativo) Scenari di classificazione dei dati: se il tipo di dati della colonna dell'etichetta (il valore nell'elenco a discesa "Colonna per stimare (Etichetta)") è impostato su Boolean (True/False), viene usato un algoritmo di classificazione binaria nella pipeline di training del modello. In caso contrario, viene usato un formatore di classificazione multiclasse. Usare Opzioni avanzate per i dati per modificare il tipo di dati per la colonna dell'etichetta e informare Model Builder sul tipo di formatore da usare per i dati.

  6. Aggiornare i dati nella collegamento Opzioni avanzate per i dati per impostare le impostazioni delle colonne o per aggiornare la formattazione dei dati.

La configurazione del file di origine dati per Model Builder è stata completata. Fare clic sul collegamento Passaggio successivo per passare al passaggio successivo in Model Builder.

Configurare i file di dati di classificazione delle immagini

Model Builder prevede che i dati di classificazione delle immagini siano file JPG o PNG organizzati in cartelle che corrispondono alle categorie della classificazione.

Per caricare le immagini in Model Builder, specificare il percorso di una singola directory di primo livello:

  • Questa directory di primo livello contiene una sottocartella per ognuna delle categorie da stimare.
  • Ogni sottocartella contiene i file di immagine appartenenti alla relativa categoria.

Nella struttura di cartelle illustrata di seguito, la directory di primo livello è flower_photos. Ci sono cinque sottodirectory corrispondenti alle categorie da prevedere: margherita, dente di leone, rose, girasoli e tulipani. Ognuna di queste sottodirectory contiene immagini appartenenti alla rispettiva categoria.

\---flower_photos
    +---daisy
    |       100080576_f52e8ee070_n.jpg
    |       102841525_bd6628ae3c.jpg
    |       105806915_a9c13e2106_n.jpg
    |
    +---dandelion
    |       10443973_aeb97513fc_m.jpg
    |       10683189_bd6e371b97.jpg
    |       10919961_0af657c4e8.jpg
    |
    +---roses
    |       102501987_3cdb8e5394_n.jpg
    |       110472418_87b6a3aa98_m.jpg
    |       118974357_0faa23cce9_n.jpg
    |
    +---sunflowers
    |       127192624_afa3d9cb84.jpg
    |       145303599_2627e23815_n.jpg
    |       147804446_ef9244c8ce_m.jpg
    |
    \---tulips
            100930342_92e8746431_n.jpg
            107693873_86021ac4ea_n.jpg
            10791227_7168491604.jpg

Configurare i file di dati delle immagini di rilevamento oggetti

Model Builder prevede che i dati delle immagini di rilevamento degli oggetti siano in formato JSON generato da VoTT. Il file JSON si trova nella cartella vott-json-export nel percorso di destinazione specificato nelle impostazioni del progetto.

Il file JSON è costituito dalle informazioni seguenti generate da VoTT:

  • Tutti i tag creati
  • Percorsi dei file di immagine
  • Informazioni sul riquadro delimitatore dell’immagine
  • Tag associato all'immagine

Per altre informazioni sulla preparazione dei dati per il rilevamento degli oggetti, vedere Generare dati di rilevamento oggetti da VoTT.

Passaggi successivi

Seguire queste esercitazioni per creare app di apprendimento automatico con ML.NET Model Builder:

Se si esegue il training di un modello usando il codice, vedere come caricare i dati usando l'API ML.NET.