Läsa in träningsdata i Model Builder

Artikel
01/10/2024

Lär dig hur du läser in dina träningsdatauppsättningar från en fil eller en SQL Server-databas för användning i något av Model Builder-scenarierna för ML.NET. Model Builder-scenarier kan använda SQL Server-databaser, bildfiler och CSV- eller TSV-filformat som träningsdata.

Model Builder accepterar endast TSV-, CSV- och TXT-filer med komma-, tabb- och semikolonavgränsare samt PNG- och JPG-avbildningar.

Model Builder-scenarier

Model Builder hjälper dig att skapa modeller för följande maskininlärningsscenarier:

Dataklassificering (binär och flerklassklassificering): Klassificera textdata i två eller flera kategorier.
Värdeförutsägelse (regression): Förutsäga ett numeriskt värde.
Bildklassificering (djupinlärning): Klassificera bilder i två eller flera kategorier.
Rekommendation (rekommendation): Skapa en lista över föreslagna objekt för en viss användare.
Objektidentifiering (djupinlärning): Identifiera och identifiera objekt i bilder. Detta kan hitta ett eller flera objekt och märka dem i enlighet med detta.

Den här artikeln beskriver klassificering och regression med textbaserade eller numeriska data, bildklassificering och objektidentifieringsscenarier.

Läsa in text eller numeriska data från en fil

Du kan läsa in text eller numeriska data från en fil till Model Builder. Den accepterar kommaavgränsade filformat (CSV) eller tabbavgränsade filer (TSV).

I datasteget i Model Builder väljer du Arkiv som datakällans typ.
Välj knappen Bläddra bredvid textrutan och använd Utforskaren för att bläddra och välja datafilen.
Välj en kategori i listrutan Kolumn för att förutsäga (etikett ).

Kommentar

(Valfritt) dataklassificeringsscenarier: Om datatypen för etikettkolumnen (värdet i listrutan "Kolumn att förutsäga (etikett)" är inställt på Booleskt värde (Sant/Falskt) används en binär klassificeringsalgoritm i modellträningspipelinen. I annat fall används en klassificeringstränare med flera klasser. Använd avancerade dataalternativ för att ändra datatypen för din etikettkolumn och informera Model Builder om vilken typ av tränare den ska använda för dina data.
Uppdatera data i länken Avancerade dataalternativ för att ange kolumninställningar eller uppdatera dataformateringen.

Du är klar med att konfigurera datakällans fil för Model Builder. Klicka på knappen Nästa steg för att gå vidare till nästa steg i Model Builder.

Läsa in data från en SQL Server-databas

Model Builder stöder inläsning av data från lokala och fjärranslutna SQL Server-databaser.

Lokal databasfil

Så här läser du in data från en SQL Server-databasfil till Model Builder:

I datasteget i Model Builder väljer du SQL Server som datakälltyp.
Välj knappen Välj datakälla.
1. I dialogrutan Välj datakälla väljer du Microsoft SQL Server Database File.
2. Avmarkera kryssrutan Använd alltid den här markeringen och välj Fortsätt
3. I dialogrutan egenskaper för Anslut ion väljer du Bläddra och väljer den nedladdade . MDF-fil.
4. Välj OK.
Välj datauppsättningens namn i listrutan Tabellnamn .
I listrutan Kolumn för att förutsäga (etikett) väljer du den datakategori som du vill göra en förutsägelse för.

Kommentar

(Valfritt) dataklassificeringsscenarier: Om datatypen för etikettkolumnen (värdet i listrutan "Kolumn att förutsäga (etikett)" är inställt på Booleskt värde (Sant/Falskt) används en binär klassificeringsalgoritm i modellträningspipelinen. I annat fall används en klassificeringstränare med flera klasser. Använd avancerade dataalternativ för att ändra datatypen för din etikettkolumn och informera Model Builder om vilken typ av tränare den ska använda för dina data.
Uppdatera data i länken Avancerade dataalternativ för att ange kolumninställningar eller uppdatera dataformateringen.

Fjärrdatabas

Så här läser du in data från en SQL Server-databasanslutning till Model Builder:

I datasteget i Model Builder väljer du SQL Server som datakälltyp.
Välj knappen Välj datakälla.
1. I dialogrutan Välj datakälla väljer du Microsoft SQL Server.
I dialogrutan egenskaper för Anslut ion anger du egenskaperna för din Microsoft SQL-databas.
1. Ange servernamnet som har den tabell som du vill ansluta till.
2. Konfigurera autentiseringen till servern. Om SQL Server-autentisering har valts anger du serverns användarnamn och lösenord.
3. Välj vilken databas du vill ansluta till i listrutan Välj eller ange ett databasnamn . Detta bör fyllas i automatiskt om servernamnet och inloggningsinformationen är korrekta.
4. Välj OK.
Välj datauppsättningens namn i listrutan Tabellnamn .
I listrutan Kolumn för att förutsäga (etikett) väljer du den datakategori som du vill göra en förutsägelse för.

Kommentar

(Valfritt) dataklassificeringsscenarier: Om datatypen för etikettkolumnen (värdet i listrutan "Kolumn att förutsäga (etikett)" är inställt på Booleskt värde (Sant/Falskt) används en binär klassificeringsalgoritm i modellträningspipelinen. I annat fall används en klassificeringstränare med flera klasser. Använd avancerade dataalternativ för att ändra datatypen för din etikettkolumn och informera Model Builder om vilken typ av tränare den ska använda för dina data.
Uppdatera data i länken Avancerade dataalternativ för att ange kolumninställningar eller uppdatera dataformateringen.

Du är klar med att konfigurera datakällans fil för Model Builder. Klicka på knappen Nästa steg för att gå vidare till nästa steg i Model Builder.

Konfigurera datafiler för bildklassificering

Model Builder förväntar sig att bildklassificeringsdata ska vara JPG- eller PNG-filer ordnade i mappar som motsvarar klassificeringskategorierna.

Om du vill läsa in avbildningar i Model Builder anger du sökvägen till en enda katalog på den översta nivån:

Den här toppnivåkatalogen innehåller en undermapp för var och en av de kategorier som ska förutsägas.
Varje undermapp innehåller de bildfiler som tillhör dess kategori.

I mappstrukturen nedan är katalogen på den översta nivån flower_photos. Det finns fem underkataloger som motsvarar de kategorier som du vill förutsäga: daisy, maskrosor, rosor, solrosor och tulpaner. Var och en av dessa underkataloger innehåller bilder som tillhör respektive kategori.

\---flower_photos
    +---daisy
    |       100080576_f52e8ee070_n.jpg
    |       102841525_bd6628ae3c.jpg
    |       105806915_a9c13e2106_n.jpg
    |
    +---dandelion
    |       10443973_aeb97513fc_m.jpg
    |       10683189_bd6e371b97.jpg
    |       10919961_0af657c4e8.jpg
    |
    +---roses
    |       102501987_3cdb8e5394_n.jpg
    |       110472418_87b6a3aa98_m.jpg
    |       118974357_0faa23cce9_n.jpg
    |
    +---sunflowers
    |       127192624_afa3d9cb84.jpg
    |       145303599_2627e23815_n.jpg
    |       147804446_ef9244c8ce_m.jpg
    |
    \---tulips
            100930342_92e8746431_n.jpg
            107693873_86021ac4ea_n.jpg
            10791227_7168491604.jpg

Konfigurera objektidentifieringsbilddatafiler

Model Builder förväntar sig att objektidentifieringsavbildningsdata ska vara i JSON-format som genereras från VoTT. JSON-filen finns i mappen vott-json-export i målplatsen som anges i projektinställningarna.

JSON-filen består av följande information som genereras från VoTT:

Alla taggar som har skapats
Avbildningsfilens platser
Information om avgränsningsrutan för bilder
Taggen som är associerad med avbildningen

Mer information om hur du förbereder data för objektidentifiering finns i Generera objektidentifieringsdata från VoTT.

Nästa steg

Följ dessa självstudier för att skapa maskininlärningsappar med Model Builder:

Om du tränar en modell med hjälp av kod lär du dig att läsa in data med hjälp av ML.NET-API:et.