Gegevens samenvoegen

Voegt twee gegevens sets samen

Categorie: gegevens transformatie/-bewerking

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

Module overzicht

In dit artikel wordt beschreven hoe u de module gegevens koppelen in azure machine learning Studio (klassiek) gebruikt om twee gegevens sets samen te voegen met behulp van een koppelings bewerkingin de data base-stijl.

Als u een koppeling wilt uitvoeren op twee gegevens sets, moeten deze zijn gerelateerd aan een enkele sleutel kolom. Samengestelde sleutels worden niet ondersteund.

Koppelings gegevens configureren

  1. Voeg in Azure Machine Learning Studio (klassiek) de gegevens sets toe die u wilt combi neren en sleep de module samen voegen met gegevens naar uw experiment.

    U kunt de module in de categorie gegevens transformatie vinden onder bewerken.

  2. Verbind de gegevens sets met de module voor samen voegen .

    De module voor het koppelen van gegevens biedt geen ondersteuning voor een right outer join. Als u er zeker van wilt zijn dat rijen uit een bepaalde gegevensset worden opgenomen in de uitvoer, moet deze gegevensset zich op de lefthand-invoer bevinden.

  3. Klik op Start column selector om één sleutel kolom te kiezen voor de gegevensset aan de linkerkant.

  4. Klik op Start column selector om één sleutel kolom te kiezen voor de gegevensset op de juiste invoer.

  5. Selecteer de optie hoofdletter gebruik als u lid wordt van een tekst kolom en u ervoor wilt zorgen dat de join de hoofdletter gevoeligheid behoudt.

    Als u deze optie bijvoorbeeld selecteert, wordt dit A1000 beschouwd als een andere sleutel waarde dan a1000 .

    Als u deze optie uitschakelt, wordt hoofdletter gevoeligheid niet afgedwongen en wordt deze als A1000 hetzelfde beschouwd als a1000 .

  6. Gebruik de vervolg keuzelijst type samen voegen om op te geven hoe de gegevens sets moeten worden gecombineerd. dergelijke

    • Inner join: een inner join is de typische join-bewerking. Het retourneert de gecombineerde rijen alleen wanneer de waarden van de sleutel kolommen overeenkomen.

    • Left outer join: een left outer join retourneert samengevoegde rijen voor alle rijen uit de linkertabel. Wanneer een rij in de linkertabel geen overeenkomende rijen in de rechter tabel heeft, bevat de geretourneerde rij ontbrekende waarden voor alle kolommen uit de rechter tabel, tenzij u een vervangings waarde voor ontbrekende waarden opgeeft.

    • Volledige outer join: een full outer join retourneert alle rijen uit de linkertabel (Tabel1) en uit de rechter tabel (tabel2).

      Voor elk van de rijen in de linkertabel die geen overeenkomende rijen in de rechter tabel hebben, bevatten de samenvoegings resultaten een rij met ontbrekende waarden uit de rechter tabel.

      Voor elk van de rijen in de rechter tabel die geen overeenkomende rijen in de linkertabel hebben, bevatten de samenvoegings resultaten een rij met ontbrekende waarden voor alle kolommen uit de linkertabel.

    • Linker semi-koppeling: een Left semi-koppeling retourneert alleen de waarden uit de linkertabel wanneer de waarden van de sleutel kolommen overeenkomen.

  7. Voor de optie moet u de juiste sleutel kolommen in een gekoppelde tabel blijven:

    • Schakel de optie voor het ophalen van één sleutel kolom in de resultaten uit.
    • Wijzig de geselecteerde optie om de sleutels uit beide invoer tabellen weer te geven.
  8. Voer het experiment uit of selecteer de module samenvoegings gegevens en geselecteerde uitvoering geselecteerdom de koppeling uit te voeren.

  9. Als u de resultaten wilt weer geven, klikt u met de rechter muisknop op de module gegevens samenvoeging , selecteert u gegevensset voor resultatenen klikt u op visualiseren.

Voorbeelden

U kunt voor beelden zien van hoe deze module wordt gebruikt in de Azure AI Gallery:

Technische opmerkingen

In deze sectie worden de implementatie details en antwoorden op enkele veelgestelde vragen beschreven.

Beperkingen

  • De gecombineerde gegevensset kan geen twee kolommen met dezelfde naam hebben. Als de linker-en rechter gegevens sets dubbele kolom namen bevatten, wordt een numeriek achtervoegsel toegevoegd aan de kolom namen van de juiste gegevensset om ze uniek te maken.

    Als beide gegevens sets bijvoorbeeld een kolom hebben met de naam month, blijft de kolom uit de linker gegevensset ongewijzigd en wordt de naam van de kolom van de rechter gegevensset gewijzigd in maand (1).

  • De algoritme die wordt gebruikt voor het vergelijken van sleutel waarden is hash-geforceerd.

  • In elke kolom van de gekoppelde gegevensset wordt een categorische-type bewaard als de corresponderende kolom van de invoer-gegevensset categorische is.

  • Als er in left outer lid worden van ontbrekende waarden, wordt er een categorische niveau gemaakt in de linker gegevensset voor ontbrekende waarden. Dit geldt ook als er geen waarden ontbreken in de gekoppelde gegevensset (rechts).

Hoe kan ik een tabel toevoegen aan een samengestelde sleutel?

Als u een tabel moet toevoegen die gebruikmaakt van samengestelde sleutels (dat wil zeggen, de primaire sleutel is afhankelijk van twee onafhankelijke kolommen), gebruikt u een module zoals de volgende om de inhoud van de twee sleutel kolommen samen te voegen:

  • R-Script uitvoeren

    Gebruik bijvoorbeeld code zoals de follwing in het R-script om de eerste en tweede kolom van de invoer data frame samen te voegen met behulp van een koppel teken als scheidings teken. paste(inputdf$Col1,inputdf$Col2,sep="-")

  • SQL-transformatie toepassen

    De samenvoegings operator in SQLite is || .

Hoe kan ik tabellen toevoegen die geen sleutel hebben?

Als uw gegevensset geen sleutel kolom bevat, kunt u deze nog steeds combi neren met een andere gegevensset, hetzij door een sleutel te genereren of door de module Columns toevoegen te gebruiken.

De module Columns toevoegen gedraagt zich als R en kan twee gegevens sets per rij samen voegen als de gegevens sets hetzelfde aantal rijen bevatten. Er treedt een fout op als de gegevens sets een andere grootte hebben.

Verwachte invoer

Naam Type Beschrijving
Dataset1 Gegevens tabel Eerste gegevensset die moet worden toegevoegd
Dataset2 Gegevens tabel Tweede gegevensset om samen te voegen

Module parameters

Naam Bereik Type Standaard Beschrijving
Koppeling van sleutel kolommen voor L Alle ColumnSelection Selecteer de kolommen samen voegen voor de eerste gegevensset.
Koppeling van sleutel kolommen voor R Alle ColumnSelection Selecteer de kolommen samen voegen voor de tweede gegevensset.
Hoofdletter gevoelig Alle Boolean-waarde True Geef aan of een hoofdletter gevoelige vergelijking is toegestaan in sleutel kolommen.
Relatietype Lijst Type Inner join Kies een jointype.
De juiste sleutel kolommen in een gekoppelde tabel blijven Alle Boolean-waarde True Geef aan of de sleutel kolommen van de tweede gegevensset in de gekoppelde gegevensset moeten worden bewaard.

Uitvoer

Naam Type Beschrijving
Gegevensset voor resultaten Gegevens tabel Resultaat van de samenvoegings bewerking

Uitzonderingen

Uitzondering Beschrijving
Fout 0001 Een uitzonde ring treedt op als een of meer opgegeven kolommen van de gegevensset niet zijn gevonden.
Fout 0003 Een uitzonde ring treedt op als een of meer invoer waarden null of leeg zijn.
Fout 0006 Een uitzonde ring treedt op als de para meter groter is dan of gelijk is aan de opgegeven waarde.
Fout 0016 Er treedt een uitzonde ring op als de invoer gegevens sets die worden door gegeven aan de module compatibele kolom typen moeten hebben, maar dat niet het geval is.
Fout 0017 Een uitzonde ring treedt op als een of meer opgegeven kolommen typen bevatten die niet worden ondersteund door de huidige module.
Fout 0020 Een uitzonde ring treedt op als het aantal kolommen in sommige gegevens sets die worden door gegeven aan de module te klein is.
Fout 0028 Een uitzonde ring treedt op wanneer de kolomset dubbele kolom namen bevat en niet is toegestaan.
Fout 0011 Een uitzonde ring treedt op als het argument voor de door gegeven kolomset niet van toepassing is op gegevensset-kolommen.
Fout 0027 Een uitzonde ring treedt op wanneer twee objecten van dezelfde grootte moeten zijn, maar deze niet.

Zie machine learning fout codesvoor een lijst met fouten die specifiek zijn voor Studio-modules (Classic).

Zie Machine Learning rest API fout codesvoor een lijst met API-uitzonde ringen.

Zie ook

Kenmerken
Gegevens transformatie
Module lijst a-Z