Group Categorical Values

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Gruppiert Daten aus mehreren Kategorien in einer neuen Kategorie

Kategorie: Datentransformation/-bearbeitung

Hinweis

Gilt nur für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul Group Categorical Values (Gruppenkategorische Werte) in Machine Learning Studio (klassisch) verwenden, um eine nachschlagende Tabelle zu erstellen.

Die typische Verwendung zum Gruppieren kategorischer Werte besteht darin, mehrere Zeichenfolgenwerte in einer einzelnen neuen Ebene zusammenzuführen. Sie können z. B. einzelne Postleitzahlen in einer Region einer einzelnen Regionscode zuweisen oder mehrere Produkte unter einer Kategorie gruppieren.

Um dieses Modul zu verwenden, geben Sie die gewünschten Suchwerte ein und ordnen den Ersetzungswerten vorhandene Werte zu. Sie können Gruppierungen nur für kategorische Spalten erstellen, nicht für Spalten vom numerischen Typ oder Spalten, die als Bezeichnungen oder Features festgelegt sind.

Alle Spaltenwerte, die nicht explizit einer neuen Ebene zugeordnet sind, werden einer Standardebene zugewiesen. Wenn Sie beispielsweise nicht alle einzelnen Postleitzahlen zugeordnet haben, werden sie in einer Ebene für nicht zugeordnete Werte gruppiert, die Sie möglicherweise Unbekannt nennen.

Hinweis

Es können maximal 20 neue Ebenen erstellt werden, einschließlich der Standardebene. Wenn Sie mehr Werte benötigen oder Zuordnungen dynamisch definieren müssen, empfiehlt es sich, im Modul Execute R Script ein benutzerdefiniertes R-Skript zu verwenden. Alternativ können Sie SQL Anweisungen im Modul Apply SQL Transformation verwenden.

Verwenden von Gruppenkategorischen Werten

Es wird empfohlen, die Liste der vorhandenen Werte und die neuen Kategorien vorab vorzubereiten. Für jede Kategorie sollten Sie einen neuen Kategorienamen und eine durch Kommas getrennte Liste von Werten vorbereiten, die in die Kategorie eingeschlossen werden sollen.

  1. Fügen Sie ihrem Experiment das Modul Group Categorical Values hinzu. Sie finden das Modul unter Datentransformation, Manipulation.

  2. Verbinden ein Dataset mit den Werten, die Sie transformieren möchten.

  3. Verwenden Sie im Bereich Eigenschaften der Gruppe Kategorische Werte die Spaltenauswahl, um die Spalte mit den Ebenen auszuwählen, die Sie reduzieren möchten.

    • Es wird empfohlen, auf BEGIN WITH und NO COLUMNS zu klicken, um zu starten, und dann Spalten anhand des Namens hinzuzufügen. Andernfalls werden möglicherweise zu viele Spalten als Kandidaten hinzugefügt, was zu einem Fehler führt.

    • Die Spalte muss eine Kategoriespalte sein. Andernfalls fügen Sie Edit Metadata upstream hinzu, und ändern Sie den Spaltentyp.

    • Achten Sie darauf, alle Spalten aus der Eingabe zu entfernen, auf die keine Zeichenfolgenersetzung angewendet werden soll.

  4. Geben Sie im Ausgabemodus an, ob Sie nur die neuen Ebenen ausgeben möchten, oder fügen Sie die Änderungen an, um die ursprüngliche Spalte mit den Ersetzungen nebeneinander anzuzeigen.

    Der Standardwert ResultOnly zeigt nur die neuen Werte an. Die Option Inplace ersetzt die vorhandenen Spaltenwerte durch die neuen Ebenen.

  5. Geben Sie unter Standardebenenname einen Zeichenfolgenwert ein, der als Ersatz für alle Werte verwendet werden soll, die nicht explizit zugeordnet sind. Sie können beispielsweise "Unbekannt" oder "Standard" verwenden.

    Hinweis

    Dieser Standardwert wird auf alle Werte angewendet, die nicht zugeordnet werden können. Wenn Sie versehentlich Spalten eingefügt haben, die Sie nicht zuordnen wollten, wird der Wert auf alle Werte in den Spalten angewendet. Überprüfen Sie daher vor der Verarbeitung, ob die Spaltenauswahl korrekt ist.

  6. Geben Sie unter Neue Anzahl von Ebenen eine Zahl ein, die die Gesamtzahl der neuen Kategorien (Ebenen) angibt, einschließlich der Standardebene für nicht zugeordnete Werte.

  7. Geben Sie unter Name der neuen Ebene 1 den neuen Gruppennamen für die erste Kategorie an.

  8. Geben Oder fügen Sie im folgenden Textfeld eine durch Kommas getrennte Liste alter Ebenen ein, die der neuen Ebene 1 zugeordnet werden sollen. Geben Sie eine vollständige Liste aller Werte ein, die der neuen Ebene zugeordnet werden sollen, oder fügen Sie sie ein. Platzhalterzeichen und reguläre Ausdrücke sind nicht zulässig.

  9. Geben Sie weiterhin neue Ebenennamen ein, und geben Oder fügen Sie Werte ein, die der neuen Ebene zugeordnet werden sollen.

    Es wird empfohlen, die Liste der Werte in einer separaten Datei zu speichern, während Sie arbeiten. Wenn Sie die Anzahl der Ebenen ändern, werden alle zuvor eingegebenen Zeichenfolgen entfernt, und Sie müssen von vorn beginnen.

    Wenn Sie jedoch ein zuvor gespeichertes Modul bearbeiten, können Sie die ursprünglichen Einstellungen kehren.

  10. Führen Sie das Experiment aus.

Ergebnisse

Klicken Sie zum Anzeigen der Ergebnisse mit der rechten Maustaste auf das Modul Gruppenkategorische Werte , wählen Sie Results dataset (Ergebnisdataset) aus, und klicken Sie auf Visualize (Visualisieren).

Beispiele

Beispiele für maschinelles Lernen in Aktion finden Sie im Azure KI-Katalog.

Sie können dieses Modul auch selbst ausprobieren, indem Sie ein kleines Dataset mit einigen Zeichenfolgenvariablen verwenden, die leicht gruppiert werden können, z. B. das Automobile price-Dataset, das in Machine Learning Studio (klassisch) bereitgestellt wird.

Angenommen, Sie möchten autos im Dataset Automobile price nach der Motorgröße gruppieren, indem Sie die Anzahl der Zylinder verwenden. Anstatt viele verschiedene Engine-Größen zu erstellen, erstellen Sie die neuen Ebenen "big", "small" und "other" wie folgt:

  • Große Engines: sechs Zylinder oder größer
  • Kleine Engines: zwei oder vier Zylinder
  • Sonstiges: alles andere
  1. Fügen Sie das Modul Select Columns in Dataset (Spalten im Dataset auswählen) hinzu, und wählen Sie nur die num-of-cylinders Spalte aus.
  2. Fügen Sie das Modul Edit Metadata hinzu, und ändern Sie die num-of-cylinders Spalte in Categorical.
  3. Fügen Sie das Modul Group Categorical Values hinzu, und verbinden Sie das geänderte Dataset.
  4. Geben Sie unter Standardebenenname den Namenother ein. Sie müssen keine Werte für diese Ebene angeben.
  5. Geben bigSie unter Name der neuen Ebene 1 ein. Fügen Sie in der Liste der alten Ebenen, die Ebene 1 zugeordnet werden sollen, ein six, eight, twelve.
  6. Geben smallSie unter Name der neuen Ebene 2 ein. Fügen Sie für die zugeordneten Werte ein two, four.
  7. Führen Sie das Experiment aus.
  8. Wenn Sie die Ergebnisse visualisieren , stellen Sie fest, dass das ursprüngliche Dataset einige ungerade Engine-Größen aufwies, die Sie nicht berücksichtigt haben, z five . B. und three. Alle diese Elemente werden der other Ebene zugeordnet.

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

  • Möglicherweise wird die Fehlermeldung "Spalte mit dem Namen "<spaltenname>" ist nicht in einer zulässigen Kategorie angezeigt."

    Diese Meldung gibt an, dass die ausgewählte Spalte keine Kategoriespalte ist. Sie können die Spalte als Categorical markieren, indem Sie Metadaten bearbeiten verwenden oder eine andere Spalte auswählen, die entsprechende Kategoriewerte enthält.

Erwartete Eingaben

Name Type Beschreibung
Dataset Datentabelle Zu gruppierende Daten

Modulparameter

Name Range type Standard Beschreibung
Ausgewählte Spalten any ColumnSelection CategoricalAll Wählen Sie die zu gruppierenden Spalten aus.
Ausgabemodus any OutputTo ResultOnly Geben Sie an, wie die Kategoriebezeichnungen ausgegeben werden sollen.
Default level name any Zeichenfolge Geben Sie die zu verwendende Standardebene an, wenn keine Zuordnung erfolgt.
New number of levels Liste Anzahl von Gruppen Geben Sie die Anzahl der Ebenen nach der Gruppierung der Werte an, einschließlich Standardebene.

Output

Name Type Beschreibung
Ergebnisdataset Datentabelle Gruppierte Daten

Siehe auch

Manipulation
Datentransformation
Modulliste von A bis Z