Group Categorical Values

Gruppiert Daten aus mehreren Kategorien in einer neuen Kategorie

Kategorie: Daten Transformation/-Bearbeitung

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Dieser Inhalt bezieht sich nur auf Studio (klassisch). Ähnliche Drag & Drop-Module wurden Azure Machine Learning-Designer hinzugefügt. Weitere Informationen finden Sie in diesem Artikel zum Vergleich der beiden Versionen.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul " Group Categorical Values " in Azure Machine Learning Studio (klassisch) verwenden, um eine direkte Nachschlage Tabelle zu erstellen.

Die typische Verwendung für das Gruppieren von kategorischen Werten ist das Zusammenführen mehrerer Zeichen folgen Werte zu einer einzelnen neuen Ebene. Beispielsweise können Sie einzelne Postleitzahlen in einer Region einem einzelnen regionalen Code zuweisen oder mehrere Produkte unter einer Kategorie gruppieren.

Um dieses Modul zu verwenden, geben Sie die Such Werte ein, die Sie verwenden möchten, und ordnen Sie den Ersetzungs Werten vorhandene Werte zu. Sie können Gruppierungen nur für kategorische Spalten erstellen, nicht für Spalten mit numerischen Typen oder Spalten, die als Bezeichnungen oder Features festgelegt sind.

Alle Spaltenwerte, die nicht explizit einer neuen Ebene zugeordnet sind, werden einer Standard Ebene zugewiesen. Wenn Sie z. b. nicht alle einzelnen Postleitzahlen zugeordnet haben, werden Sie auf einer Ebene für nicht zugeordnete Werte gruppiert, die Sie möglicherweise als unbekannt benennen.

Hinweis

Es können maximal 20 neue Ebenen erstellt werden, einschließlich der Standard Ebene. Wenn Sie weitere Werte benötigen oder Zuordnungen dynamisch definieren müssen, empfiehlt es sich, im Modul Execute r Script ein benutzerdefiniertes r-Skript zu verwenden. Alternativ können Sie SQL-Anweisungen im Apply SQL Transformation -Modul verwenden.

Verwenden von Gruppen kategorischen Werten

Es wird empfohlen, dass Sie die Liste der vorhandenen Werte und die neuen Kategorien vorab vorbereiten. Für jede Kategorie sollten Sie einen neuen Kategorienamen und eine durch Trennzeichen getrennte Liste von Werten vorbereiten, die in der Kategorie enthalten sein sollen.

  1. Fügen Sie Ihrem Experiment das Modul " Group Categorical Values " hinzu. Sie finden das Modul unter Daten Transformation, Bearbeitung.

  2. Verbinden Sie ein DataSet mit den Werten, die Sie transformieren möchten.

  3. Verwenden Sie im Bereich Eigenschaften von Gruppen Kategories-Werte die Spaltenauswahl, um die Spalte auszuwählen, die die Ebenen enthält, die Sie reduzieren möchten.

    • Es wird empfohlen, dass Sie auf beginnen mit und keine zu startendes Spalten klicken und dann Spalten nach Namen hinzufügen. Andernfalls können zu viele Spalten als Kandidaten hinzugefügt werden, was zu einem Fehler führt.

    • Die Spalte muss eine Kategoriespalte sein. Wenn dies nicht der Fall ist, fügen Sie Edit Metadata Upstream hinzu, und ändern Sie den Spaltentyp.

    • Stellen Sie sicher, dass Sie alle Spalten aus der Eingabe entfernen, auf die die Zeichen folgen Ersetzung nicht angewendet werden soll.

  4. Geben Sie für Ausgabemodus an, ob nur die neuen Ebenen ausgegeben werden sollen, oder fügen Sie die Änderungen an, um die ursprüngliche Spalte mit den Ersetzungen nebeneinander anzuzeigen.

    Der Standardwert, resultonly, zeigt nur die neuen Werte an. Die Option " Inplace " ersetzt die vorhandenen Spaltenwerte durch die neuen Ebenen.

  5. Geben Sie für Name der Standard Ebene einen Zeichen folgen Wert ein, der als Ersatz für alle Werte verwendet werden soll, die nicht explizit zugeordnet sind. Sie können z. b. "unknown" oder "Default" verwenden.

    Hinweis

    Dieser Standardwert für die Ebene wird auf alle Werte angewendet, die nicht zugeordnet werden können. Wenn Sie versehentlich Spalten eingeschlossen haben, die Sie nicht zuordnen wollten, wird der Wert auf alle Werte in den Spalten angewendet. Überprüfen Sie daher, ob die Spaltenauswahl vor der Verarbeitung korrekt ist.

  6. Geben Sie für eine neue Anzahl von Ebenen eine Zahl ein, die die Gesamtzahl der neuen Kategorien (Ebenen) angibt, einschließlich der Standard Ebene für nicht zugeordnete Werte.

  7. Geben Sie unter Name der neuen Ebene 1 den neuen Gruppennamen für die erste Kategorie an.

  8. Geben oder fügen Sie im Textfeld, das direkt folgt, eine durch Trennzeichen getrennte Liste der alten Ebenen ein, die der neuen Ebene 1 zugeordnet werden sollen, oder fügen Sie eine vollständige Liste aller Werte ein, die der neuen Ebene zugeordnet werden. Platzhalter Zeichen und reguläre Ausdrücke sind nicht zulässig.

  9. Geben Sie weiterhin neue Ebenennamen ein, und geben oder fügen Sie Werte ein, die der neuen Ebene zugeordnet werden sollen.

    Es wird empfohlen, die Liste der Werte in einer separaten Datei zu speichern, wenn Sie arbeiten. Wenn Sie die Anzahl der Ebenen ändern, werden alle zuvor eingegebenen Zeichen folgen entfernt, und Sie müssen erneut beginnen.

    Wenn Sie jedoch ein Modul bearbeiten, das zuvor gespeichert wurde, können Sie die ursprünglichen Einstellungen wiederherstellen.

  10. Führen Sie das Experiment aus.

Ergebnisse

Zum Anzeigen der Ergebnisse klicken Sie mit der rechten Maustaste auf das Modul Gruppen kategorisierte Werte , wählen Sie Ergebnisse DataSet aus, und klicken Sie auf visualisieren.

Beispiele

Beispiele für Machine Learning in Aktion finden Sie in der Azure AI Gallery.

Sie können dieses Modul auch für sich selbst ausprobieren, indem Sie ein kleines DataSet mit einigen Zeichen folgen Variablen verwenden, die leicht gruppiert werden können, z. b. das Automobilpreis DataSet, das in Azure Machine Learning Studio (klassisch) bereitgestellt wird.

Nehmen wir an, dass Sie Autos im Automobilpreis Dataset nach Engine size gruppieren möchten, indem Sie die Anzahl der Zylinder verwenden. Anstatt viele verschiedene Engine-Größen zu erstellen, erstellen Sie die neuen Ebenen "Big", "Small" und "Other" wie folgt:

  • Große Engines: Sechszylinder oder mehr
  • Kleine Engines: zwei oder Vierzylinder
  • Sonstige: alles andere
  1. Fügen Sie das Modul select columns in DataSet hinzu, und wählen Sie nur die num-of-cylinders Spalte aus.
  2. Fügen Sie das Modul Edit Metadata hinzu, und ändern Sie die num-of-cylinders Spalte in Categorical.
  3. Fügen Sie das Modul " Group Categorical Values " hinzu, und verbinden Sie das geänderte DataSet.
  4. Geben Sie als standardmäßiger Name der Ebene ein other . Sie müssen keine Werte für diese Ebene angeben.
  5. Geben Sie für Name der neuen Ebene 1 ein big . Fügen Sie in der Liste der alten Ebenen, die der Ebene 1 zugeordnet werden sollen, ein six, eight, twelve .
  6. Geben Sie für Name der neuen Ebene 2 ein small . Fügen Sie für die zugeordneten Werte ein two, four .
  7. Führen Sie das Experiment aus.
  8. Wenn Sie die Ergebnisse visualisieren , werden Sie feststellen, dass das ursprüngliche DataSet über ungerade nicht berücksichtigte Engine-Größen verfügt, z five . b three . und. Alle diese Elemente werden der Ebene zugeordnet other .

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

  • Möglicherweise wird die Fehlermeldung "die Spalte mit dem Namen" " <columnname> ist nicht in einer zulässigen Kategorie angezeigt."

    Diese Meldung gibt an, dass die ausgewählte Spalte keine Kategoriespalte ist. Sie können die Spalte Categorical mithilfe von Edit Metadataals kennzeichnen oder eine andere Spalte auswählen, die entsprechende Kategoriewerte enthält.

Erwartete Eingaben

Name Typ BESCHREIBUNG
Dataset Datentabelle Zu gruppierende Daten

Modulparameter

Name Range type Standard BESCHREIBUNG
Ausgewählte Spalten any ColumnSelection CategoricalAll Wählen Sie die zu gruppierenden Spalten aus.
Ausgabemodus any OutputTo ResultOnly Geben Sie an, wie die Kategoriebezeichnungen ausgegeben werden sollen.
Default level name any String Geben Sie die zu verwendende Standardebene an, wenn keine Zuordnung erfolgt.
New number of levels List Anzahl von Gruppen Geben Sie die Anzahl der Ebenen nach der Gruppierung der Werte an, einschließlich Standardebene.

Output

Name Typ BESCHREIBUNG
Ergebnisdataset Datentabelle Gruppierte Daten

Weitere Informationen

Bearbeitung
Daten Transformation
Modulliste von A bis Z