Gegevens splitsen met reguliere expressie

Artikel
05/06/2019

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

Zie informatie over het verplaatsen machine learning van ML Studio (klassiek) naar Azure Machine Learning.
Meer informatie over Azure Machine Learning.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

In dit artikel wordt beschreven hoe u de optie Regular Expression Split gebruikt in de module Split Data van Machine Learning Studio (klassiek). Deze optie is handig wanneer u filtercriteria wilt toepassen op een tekstkolom. U kunt uw gegevensset bijvoorbeeld onderverdelen door te bepalen of een bepaald product wordt vermeld.

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

U kunt een reguliere expressiesplitsing gebruiken voor één tekstkolom. U definieert een reguliere expressie die de naam van de tekstkolom bevat en stelt vervolgens voorwaarden in die van toepassing zijn op de kolom, zoals 'begint met', 'bevat' of 'bevat niet'.

Zie Split Data and Partition and Split (Gegevens splitsen en partitioneren en splitsen) machine learning algemene informatie over gegevenspartitie voor machine learning experimenten.

Andere opties in de module Split Data :

Gegevens splitsen met behulp van relatieve expressies: Een expressie toepassen op numerieke gegevens.
Gegevenssets met splitsaanbevelingen: deel gegevenssets die worden gebruikt in aanbevelingsmodellen. De gegevensset moet drie kolommen hebben: items, gebruikers en beoordelingen
Opsplitsen naar percentage van de gegevensset

Een reguliere expressie gebruiken om een gegevensset te delen

Voeg de module Split Data toe aan uw experiment en verbind deze als invoer met de gegevensset die u wilt splitsen.
Bij Splitsmodus selecteert u Reguliere expressie splitsen.
Typ in het vak Reguliere expressie een geldige reguliere expressie. Hier worden enkele voorbeelden gegeven.

De reguliere expressie wordt alleen toegepast op de opgegeven kolom, die een tekenreeksgegevenstype moet zijn.

Zie Regular Expression Language - Quick Reference (Engelstalig) voor hulp bij het samenstellen van reguliere expressies.
Voer het experiment uit of klik met de rechtermuisknop op de module en selecteer Uitvoeren geselecteerd.

Op basis van de reguliere expressie die u op geeft, wordt de gegevensset onderverdeeld in twee sets rijen: rijen met waarden die overeenkomen met de expressie en alle resterende rijen.

Voorbeelden

In de volgende voorbeelden wordt gedemonstreerd hoe u een gegevensset deelt met behulp van de optie Reguliere expressie.

Eén heel woord

In dit voorbeeld worden in de eerste Gryphon gegevensset alle rijen die de tekst in Textde kolom bevatten, in de eerste gegevensset geladen en worden andere rijen in de tweede uitvoer van Gegevens splitsen:

    \"Text" Gryphon

Subtekenreeks

In dit voorbeeld wordt de opgegeven tekenreeks op een positie binnen de tweede kolom van de gegevensset opgeslagen, die hier wordt aangeduid met de indexwaarde 1. De overeenkomst is casegevoelig.

(\1) ^[a-f]

De gegevensset met het eerste resultaat bevat alle rijen waarin de indexkolom begint met een van deze tekens: a, b, c, d, e, f. Alle andere rijen worden omgeleid naar de tweede uitvoer.

Tekenreeks overeenkomst op IP-adressen

In dit voorbeeld worden sommige serverlogboekgegevens onderverdeeld in twee categorieën voor analyse: verbindingen achter de firewall en verbindingen met IP-adressen buiten de firewall. De reguliere expressie wordt toegepast op het veld IP_Address (een gegevenstype tekenreeks ).

(\IP_Address) ^[10]

De eerste uitvoer bevat alle adressen die beginnen met 10.

Zie ook

Voorbeeld en splitsen
Partitie en voorbeeld