Verknüpfen von Daten

Verknüpft zwei Datasets

Kategorie: Daten Transformation/-Bearbeitung

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Dieser Inhalt bezieht sich nur auf Studio (klassisch). Ähnliche Drag & Drop-Module wurden Azure Machine Learning-Designer hinzugefügt. Weitere Informationen finden Sie in diesem Artikel zum Vergleich der beiden Versionen.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul Join Data in Azure Machine Learning Studio (klassisch) zum Zusammenführen von zwei Datasets mithilfe eines Join-Vorgangs im Daten Bank Stil verwenden.

Um einen Join für zwei Datasets auszuführen, müssen diese durch eine einzelne Schlüssel Spalte verknüpft werden. Zusammengesetzte Schlüssel werden nicht unterstützt.

Konfigurieren von „Join Data“ (Daten verknüpfen)

  1. Fügen Sie in Azure Machine Learning Studio (klassisch) die Datasets hinzu, die Sie kombinieren möchten, und ziehen Sie dann das Modul Join Data in ihr Experiment.

    Das Modul befindet sich in der Kategorie Datentransformation (unter Bearbeitung).

  2. Verbinden Sie die Datasets mit dem Modul Join Data (Daten verknüpfen).

    Das Join Data -Modul unterstützt keinen rechten äußeren Join. Wenn Sie also sicherstellen möchten, dass Zeilen aus einem bestimmten Dataset in die Ausgabe eingeschlossen werden, muss sich dieses Dataset in der "Lefthand"-Eingabe befinden.

  3. Klicken Sie auf Start Spaltenauswahl , um eine einzelne Schlüssel Spalte für das Dataset auf der linken Seite auszuwählen.

  4. Klicken Sie auf Start Spaltenauswahl , um eine einzelne Schlüssel Spalte für das Dataset in der rechten Eingabe auszuwählen.

  5. Wählen Sie die Option groß- /Kleinschreibung suchen aus, wenn Sie eine Text Spalte verknüpfen und sicherstellen möchten, dass der Join die Groß-/Kleinschreibung berücksichtigt

    Wenn Sie diese Option auswählen, A1000 wird z. b. als ein anderer Schlüsselwert als gewertet a1000 .

    Wenn Sie diese Option deaktivieren, wird die Groß-/Kleinschreibung nicht erzwungen und A1000 würde als identisch angesehen werden a1000 .

  6. Geben Sie über die Dropdownliste Verknüpfungstyp an, wie die Datasets vereint werden sollen. solche

    • Innerer Join: ein innerer Join ist der typische Joinvorgang. Bei diesem Typ werden die vereinten Zeilen nur zurückgegeben, wenn die Werte der Schlüsselspalten übereinstimmen.

    • Linker äußerer Join: Bei einem linken äußeren Join werden verknüpfte Zeilen für alle Zeilen aus der linken Tabelle zurückgegeben. Wenn eine Zeile in der linken Tabelle keine übereinstimmenden Zeilen in der rechten Tabelle hat, enthält die zurückgegebene Zeile fehlende Werte für alle Spalten, die aus der rechten Tabelle stammen, sofern Sie einen Ersatzwert für fehlende Werte angeben.

    • Vollständiger äußerer Join: Bei einem vollständigen äußeren Join werden alle Zeilen aus der linken Tabelle (Tabelle 1) und aus der rechten Tabelle (Tabelle 2) zurückgegeben.

      Für jede Zeile in der linken Tabelle, die keine übereinstimmenden Zeilen in der rechten Tabelle enthält, enthalten die joinergebnisse eine Zeile, die fehlende Werte aus der rechten Tabelle enthält.

      Für jede Zeile in der rechten Tabelle, die keine übereinstimmenden Zeilen in der linken Tabelle enthält, enthalten die joinergebnisse eine Zeile, die fehlende Werte für alle Spalten aus der linken Tabelle enthält.

    • Linke halbe Verknüpfung: Bei einer linken halben Verknüpfung werden nur die Werte aus der linken Tabelle zurückgegeben, wenn die Werte der Schlüsselspalten übereinstimmen.

  7. Behalten Sie für die Option die richtigen Schlüssel-Spalten in der verbundenen Tabelle bei:

    • Deaktivieren Sie die Option, um eine einzelne Schlüssel Spalte in den Ergebnissen zu erhalten.
    • Lassen Sie die Option ausgewählt, um die Schlüssel aus beiden Eingabe Tabellen anzuzeigen.
  8. Führen Sie das Experiment aus, oder wählen Sie das Modul joindaten aus, und wählen Sie ausgewählte Ausführung aus, um den Join auszuführen.

  9. Zum Anzeigen der Ergebnisse klicken Sie mit der rechten Maustaste auf das Modul Join Data , wählen das Ergebnis DataSet aus und klicken dann auf visualisieren.

Beispiele

Beispiele für die Verwendung dieses Moduls finden Sie in der Azure AI Gallery:

Technische Hinweise

In diesem Abschnitt werden Implementierungsdetails und Antworten auf einige häufig gestellte Fragen beschrieben.

Beschränkungen

  • Das kombinierte Dataset kann keine zwei Spalten mit dem gleichen Namen enthalten. Wenn das linke und das Rechte DataSet doppelte Spaltennamen aufweisen, wird ein numerisches Suffix an die Spaltennamen des rechten Datasets angehängt, um Sie eindeutig zu machen.

    Wenn beispielsweise beide Datasets eine Spalte mit dem Namen month aufweisen, würde die Spalte aus dem linken DataSet unverändert bleiben, und die Spalte aus dem rechten Dataset würde in Monat (1) umbenannt werden.

  • Der zum Vergleichen von Schlüsselwerten verwendete Algorithmus wird über Hashfunktion erzwungen.

  • Jede Spalte des verknüpften Datasets behält ihren Kategorietyp bei, sofern es sich bei der entsprechenden Spalte des Eingabedatasets um eine kategorisierte Spalte handelt.

  • Wenn bei Left Outer Joins Werte fehlen, wird im linken Dataset für fehlende Werte eine Kategorieebene erstellt. Dies gilt auch, wenn keine fehlenden Werte im verknüpften (rechten) Dataset vorhanden sind.

Wie kann ich eine Tabelle mit einem zusammengesetzten Schlüssel verknüpfen?

Wenn Sie einer Tabelle beitreten müssen, die zusammengesetzte Schlüssel verwendet (d. h., der Primärschlüssel basiert auf zwei unabhängigen Spalten), verwenden Sie ein Modul wie den folgenden, um den Inhalt der beiden Schlüssel Spalten zu verketten:

  • Ausführen von R-Skripts

    Verwenden Sie z. b. Code wie den follwinginnerhalb des R-Skripts, um die erste und zweite Spalte des Eingabe dataframes mithilfe eines Bindestrichs als Trennzeichen zu verketten. paste(inputdf$Col1,inputdf$Col2,sep="-")

  • Anwenden der SQL-Transformation

    Der Verkettungs Operator in SQLite ist || .

Wie kann ich Tabellen verknüpfen, die keinen Schlüssel aufweisen?

Wenn das DataSet keine Schlüssel Spalte enthält, können Sie es dennoch mit einem anderen Dataset kombinieren, indem Sie entweder einen Schlüssel erzeugen oder das Modul Add Columns verwenden.

Das Modul zum Hinzufügen von Spalten verhält sich wie R und kann zwei Datasets zeilenweise zusammenführen, wenn die Datasets über die gleiche Anzahl von Zeilen verfügen. Wenn die Datasets eine andere Größe haben, wird ein Fehler ausgelöst.

Erwartete Eingaben

Name Typ BESCHREIBUNG
Dataset1 Datentabelle Erstes Dataset für die JOIN-Operation
Dataset2 Datentabelle Zweites Dataset für die JOIN-Operation

Modulparameter

Name Range type Standard BESCHREIBUNG
Join key columns for L Any ColumnSelection Wählen Sie die JOIN-Schlüsselspalten für das erste Dataset.
Join key columns for R Any ColumnSelection Wählen Sie die JOIN-Schlüsselspalten für das zweite Dataset.
Groß-/Kleinschreibung beachten Any Boolean True Gibt an, ob in Schlüsselspalten ein Groß-/Kleinschreibungsvergleich zulässig ist.
Join-Typ List Typ Innere Verknüpfung Wählen Sie einen JOIN-Typ.
Keep right key columns in joined table Any Boolean True Gibt an, ob die Schlüsselspalten aus dem zweiten Dataset im verknüpften Dataset beibehalten werden sollen.

Output

Name Typ BESCHREIBUNG
Ergebnisdataset Datentabelle Ergebnis der JOIN-Operation

Ausnahmen

Ausnahme Beschreibung
Fehler 0001 Eine Ausnahme tritt auf, wenn mindestens eine angegebene Spalte des Datasets nicht gefunden werden konnte.
Fehler 0003 Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.
Fehler 0006 Eine Ausnahme tritt auf, wenn der Parameter größer gleich dem angegebenen Wert ist.
Fehler 0016 Eine Ausnahme tritt auf, wenn die Eingabedatasets, die an das Modul übergeben werden, kompatible Spaltentypen aufweisen sollen, aber das nicht der Fall ist.
Fehler 0017 Eine Ausnahme tritt auf, wenn mindestens eine der angegebenen Spalten einen Typ aufweist, der vom aktuellen Modul nicht unterstützt wird.
Fehler 0020 Eine Ausnahme tritt auf, wenn die Anzahl der Spalten in einigen Datasets, die an das Modul übergeben wurden, zu klein ist.
Fehler 0028 Eine Ausnahme tritt auf, wenn ein Spaltensatz doppelte Spaltennamen enthält und dies nicht zulässig ist.
Fehler 0011 Eine Ausnahme tritt auf, wenn das Argument für den übergebenen Spaltensatz nicht für alle Datasetspalten gilt.
Fehler 0027 Eine Ausnahme tritt auf, wenn zwei Objekte gleich groß sein müssen, dies aber nicht der Fall ist.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning Rest-API-Fehler Codes.

Weitere Informationen

Bearbeitung
Daten Transformation
Modulliste von A bis Z