Laden von Trainingsdaten in den Modell-Generator

Artikel
06/01/2023

Informieren Sie sich, wie Sie Ihre Trainingsdatasets aus einer Datei oder einer SQL Server-Datenbank zur Verwendung in eines der Modell-Generator-Szenarios für ML.NET laden. Modell-Generator-Szenarios können SQL Server-Datenbanken, Imagedateien und CSV- oder TSV-Dateiformate als Trainingsdaten verwenden.

Model Builder akzeptiert nur TSV-, CSV- und TXT-Dateien mit Kommas, Tabstopps und Semikolons als Trennzeichen sowie PNG- und JPG-Bilder.

Szenarien für den Modellgenerator

Der Modell-Generator unterstützt Sie beim Erstellen von Modellen für die folgenden Machine Learning-Szenarios:

Datenklassifizierung (binäre und Multiklassen-Klassifizierung): Klassifizieren Sie Textdaten in zwei oder mehr Kategorien.
Wertvorhersage (Regression): Vorhersage eines numerischen Werts.
Bildklassifizierung (Deep Learning): Klassifizieren Sie Bilder in zwei oder mehr Kategorien.
Empfehlung (Empfehlung): Erstellen Sie eine Liste mit vorgeschlagenen Elementen für einen bestimmten Benutzer.
Objekterkennung (Deep Learning): Erkennen und Identifizieren von Objekten in Bildern. Dadurch können ein oder mehrere Objekte gefunden und entsprechend bezeichnet werden.

In diesem Artikel werden Klassifizierungs- und Regressionsszenarios mit Text- oder numerischen Daten, Bildklassifizierungs- sowie Objekterkennungsszenarios behandelt.

Laden von Text- oder numerischen Daten aus einer Datei

Sie können Text- oder numerische Daten aus einer Datei in den Modell-Generator laden. Dieser akzeptiert durch Trennzeichen getrennte (CSV) und durch Tabstopps getrennte (TSV) Dateiformate.

Wählen Sie im Schritt „Daten“ von Model Builder die Option Datei als Datenquellentyp aus.
Wählen Sie die Schaltfläche Durchsuchen neben dem Textfeld aus, und verwenden Sie den Datei-Explorer, um die Datendatei zu suchen und auszuwählen.
Wählen Sie in der Dropdownliste Column to Predict (Label) (Vorhersagespalte (Beschriftung)) eine Kategorie aus.

Hinweis

(Optional) Datenklassifizierungsszenarios: Wenn der Datentyp Ihrer Beschriftungsspalte (der Wert in der Dropdown-Liste "Vorhersagespalte (Beschriftung)") auf Boolean (Wahr/Falsch) eingestellt ist, wird ein binärer Klassifizierungsalgorithmus in Ihrer Modelltrainingspipeline verwendet. Andernfalls wird ein Multiklassenklassifizierungstrainer verwendet. Verwenden Sie Erweiterte Datenoptionen, um den Datentyp für Ihre Beschriftungsspalte zu ändern und Model Builder mitzuteilen, welchen Trainertyp er für Ihre Daten verwenden soll.
Aktualisieren Sie die Daten im Link Erweiterte Datenoptionen, um Spalteneinstellungen festzulegen oder die Datenformatierung zu aktualisieren.

Sie haben die Einrichtung der Datenquellendatei für den Modell-Generator abgeschlossen. Klicken Sie auf die Schaltfläche Nächster Schritt, um zum nächsten Schritt im Model Builder zu gelangen.

Laden von Daten aus einer SQL Server-Datenbank

Der Modell-Generator unterstützt das Laden von Daten aus lokalen und SQL Server-Remotedatenbanken.

Lokale Datenbankdatei

So laden Sie Daten aus einer SQL Server-Datenbankdatei in den Model Builder:

Wählen Sie im Schritt „Daten“ von Model Builder die Option SQL Server als Datenquellentyp aus.
Wählen Sie die Schaltfläche Datenquelle auswählen aus.
1. Wählen Sie im Dialogfeld Datenquelle auswählen die Option Microsoft SQL Server-Datenbankdatei aus.
2. Deaktivieren Sie das Kontrollkästchen Immer diese Auswahl verwenden, und klicken Sie auf Weiter.
3. Klicken Sie im Dialogfeld Verbindungseigenschaften auf Durchsuchen, und klicken Sie auf die heruntergeladene MDF-Datei.
4. Wählen Sie OK aus.
Wählen Sie in der Dropdownliste Tabellenname den Datasetnamen aus.
Wählen Sie in der Dropdownliste Column to Predict (Label) (Vorhersagespalte (Bezeichnung)) die Datenkategorie aus, für die Sie eine Vorhersage erstellen möchten.

Hinweis

(Optional) Datenklassifizierungsszenarios: Wenn der Datentyp Ihrer Beschriftungsspalte (der Wert in der Dropdown-Liste "Vorhersagespalte (Beschriftung)") auf Boolean (Wahr/Falsch) eingestellt ist, wird ein binärer Klassifizierungsalgorithmus in Ihrer Modelltrainingspipeline verwendet. Andernfalls wird ein Multiklassenklassifizierungstrainer verwendet. Verwenden Sie Erweiterte Datenoptionen, um den Datentyp für Ihre Beschriftungsspalte zu ändern und Model Builder mitzuteilen, welchen Trainertyp er für Ihre Daten verwenden soll.
Aktualisieren Sie die Daten im Link Erweiterte Datenoptionen, um Spalteneinstellungen festzulegen oder die Datenformatierung zu aktualisieren.

Remotedatenbank

So laden Sie Daten aus einer SQL Server-Datenbankverbindung in den Model Builder:

Wählen Sie im Schritt „Daten“ von Model Builder die Option SQL Server als Datenquellentyp aus.
Wählen Sie die Schaltfläche Datenquelle auswählen aus.
1. Wählen Sie im Dialogfeld Datenquelle auswählen die Option Microsoft SQL Server aus.
Geben Sie im Dialogfeld Verbindungseigenschaften die Eigenschaften Ihrer Microsoft SQL-Datenbank ein.
1. Geben Sie den Namen des Servers an, auf dem sich die Tabelle befindet, mit der Sie eine Verbindung herstellen möchten.
2. Richten Sie die Authentifizierung beim Server ein. Wenn SQL Server-Authentifizierung ausgewählt ist, geben Sie den Benutzernamen und das Kennwort des Servers ein.
3. Wählen Sie in der Dropdownliste Datenbanknamen eingeben oder auswählen aus, mit welcher Datenbank eine Verbindung hergestellt werden soll. Dies sollte automatisch aufgefüllt werden, wenn der Servername und die Anmeldeinformationen korrekt sind.
4. Wählen Sie OK aus.
Wählen Sie in der Dropdownliste Tabellenname den Datasetnamen aus.
Wählen Sie in der Dropdownliste Column to Predict (Label) (Vorhersagespalte (Bezeichnung)) die Datenkategorie aus, für die Sie eine Vorhersage erstellen möchten.

Hinweis

(Optional) Datenklassifizierungsszenarios: Wenn der Datentyp Ihrer Beschriftungsspalte (der Wert in der Dropdown-Liste "Vorhersagespalte (Beschriftung)") auf Boolean (Wahr/Falsch) eingestellt ist, wird ein binärer Klassifizierungsalgorithmus in Ihrer Modelltrainingspipeline verwendet. Andernfalls wird ein Multiklassenklassifizierungstrainer verwendet. Verwenden Sie Erweiterte Datenoptionen, um den Datentyp für Ihre Beschriftungsspalte zu ändern und Model Builder mitzuteilen, welchen Trainertyp er für Ihre Daten verwenden soll.
Aktualisieren Sie die Daten im Link Erweiterte Datenoptionen, um Spalteneinstellungen festzulegen oder die Datenformatierung zu aktualisieren.

Sie haben die Einrichtung der Datenquellendatei für den Modell-Generator abgeschlossen. Klicken Sie auf den Schaltflächenlink Nächster Schritt, um zum nächsten Schritt im Model Builder zu gelangen.

Einrichten von Bildklassifizierungs-Datendateien

Der Model Builder erwartet, dass Bildklassifizierungsdaten JPG- oder PNG-Dateien sind, die in Ordnern organisiert sind, die den Kategorien der Klassifizierung entsprechen.

Geben Sie den Pfad zu einem einzelnen Verzeichnis der obersten Ebene an, um Bilder in den Modell-Generator zu laden:

Dieses Verzeichnis der obersten Ebene enthält einen Unterordner für jede der vorherzusagenden Kategorien.
Jeder Unterordner enthält die Bilddateien, die zur Kategorie gehören.

In der unten dargestellten Ordnerstruktur ist flower_photos das Verzeichnis der obersten Ebene. Es gibt fünf Unterverzeichnisse, die den Kategorien entsprechen, die Sie vorhersagen möchten: daisy, dandelion, roses, sunflowers und tulips. Jedes dieser Unterverzeichnisse enthält Bilder, die der jeweiligen Kategorie angehören.

\---flower_photos
    +---daisy
    |       100080576_f52e8ee070_n.jpg
    |       102841525_bd6628ae3c.jpg
    |       105806915_a9c13e2106_n.jpg
    |
    +---dandelion
    |       10443973_aeb97513fc_m.jpg
    |       10683189_bd6e371b97.jpg
    |       10919961_0af657c4e8.jpg
    |
    +---roses
    |       102501987_3cdb8e5394_n.jpg
    |       110472418_87b6a3aa98_m.jpg
    |       118974357_0faa23cce9_n.jpg
    |
    +---sunflowers
    |       127192624_afa3d9cb84.jpg
    |       145303599_2627e23815_n.jpg
    |       147804446_ef9244c8ce_m.jpg
    |
    \---tulips
            100930342_92e8746431_n.jpg
            107693873_86021ac4ea_n.jpg
            10791227_7168491604.jpg

Einrichten von Bilddateien zur Objekterkennung

Model Builder erwartet, dass die Bilddaten der Objekterkennung im JSON-Format vorliegen, das aus VoTT generiert wird. Die JSON-Datei befindet sich im Ordner vott-json-export des Zielverzeichnisses, das in den Projekteinstellungen angegeben ist.

Die JSON-Datei besteht aus den folgenden Informationen, die aus VoTT generiert werden:

Alle Tags, die erstellt wurden
Die Bilddateispeicherorte
Informationen zum Begrenzungsrahmen des Bilds
Das dem Bild zugeordnete Tag

Weitere Informationen zum Vorbereiten von Daten für die Objekterkennung finden Sie unter Generieren von Objekterkennungsdaten aus VoTT.

Nächste Schritte

Führen Sie die Schritte dieses Tutorials aus, um mit dem Modell-Generator Machine Learning-Apps zu erstellen:

Wenn Sie ein Modell mithilfe von Code trainieren, können Sie sich hier informieren, wie Sie Daten mithilfe der ML.NET-API laden.