Gegevens splitsen met reguliere expressie

In dit artikel wordt beschreven hoe u de optie reguliere expressie splitsen gebruikt in de module split data van Azure machine learning Studio (klassiek). Deze optie is handig als u een filter criterium op een tekst kolom wilt Toep assen. U kunt bijvoorbeeld uw gegevensset onderverdelen door te controleren of een bepaald product wordt vermeld.

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

U kunt een reguliere expressie splitsen gebruiken voor één tekst kolom. U definieert een reguliere expressie die de naam van de tekst kolom bevat, en stelt vervolgens voor waarden in die van toepassing zijn op de kolom, zoals ' begint met ', ' bevat ' of ' heeft niet '.

Zie gegevens splitsen en partitioneren en splitsenvoor algemene informatie over het partitioneren van gegevens voor machine learning experimenten.

Andere opties in de module Split data :

Een reguliere expressie gebruiken om een gegevensset te verdelen

  1. Voeg de module gegevens splitsen toe aan uw experiment en verbind deze als invoer met de gegevensset die u wilt splitsen.

  2. Selecteer voor de Splits modus reguliere expressie splitsen.

  3. Typ in het vak reguliere expressie een geldige reguliere expressie. Hiervindt u enkele voor beelden.

    De reguliere expressie wordt alleen toegepast op de opgegeven kolom. dit moet een teken reeks gegevens type zijn.

    Voor hulp bij het opstellen van reguliere expressies raadpleegt u de reguliere expressie taal-Quick Reference.

  4. Voer het experiment uit of klik met de rechter muisknop op de module en selecteer geselecteerde uitvoeren.

    Op basis van de reguliere expressie die u opgeeft, wordt de gegevensset onderverdeeld in twee sets rijen: rijen met waarden die overeenkomen met de expressie en alle resterende rijen.

Vindt

De volgende voor beelden laten zien hoe u een gegevensset kunt verdelen met de optie reguliere expressie .

Eén heel woord

In dit voor beeld worden alle rijen die de tekst in de kolom bevatten, in de eerste gegevensset geplaatst Gryphon Text en worden andere rijen in de tweede uitvoer van gesplitste gegevensgeplaatst:

    \"Text" Gryphon  

Subtekenreeks

In dit voor beeld wordt gezocht naar de opgegeven teken reeks op een wille keurige positie binnen de tweede kolom van de gegevensset, aangeduid met de index waarde van 1. De overeenkomst is hoofdletter gevoelig.

(\1) ^[a-f]

De eerste resultaat gegevensset bevat alle rijen waar de index kolom met een van de volgende tekens begint: a , b , c , d , e , f . Alle andere rijen worden omgeleid naar de tweede uitvoer.

Overeenkomende teken reeks voor IP-adressen

In dit voor beeld worden bepaalde server logboek gegevens onderverdeeld in twee categorieën voor analyse: verbindingen achter de firewall en verbindingen met IP-adressen buiten de firewall. De reguliere expressie wordt toegepast op het IP_Address veld (een teken reeks gegevens type).

(\IP_Address) ^[10]

De eerste uitvoer bevat alle adressen die beginnen met 10 .

Zie ook

Voor beeld en splitsing
Partitie en voorbeeld