Aufteilen von Daten mithilfe regulärer Ausdrücke

In diesem Artikel wird beschrieben, wie Sie die Option regulärer Ausdruck Aufteilen im Modul Split Data von Azure Machine Learning Studio (klassisch) verwenden. Diese Option ist nützlich, wenn Sie ein Filter Kriterium auf eine Text Spalte anwenden müssen. Beispielsweise können Sie das DataSet unterteilen, ob ein bestimmtes Produkt erwähnt wird.

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Dieser Inhalt bezieht sich nur auf Studio (klassisch). Ähnliche Drag & Drop-Module wurden Azure Machine Learning-Designer hinzugefügt. Weitere Informationen finden Sie in diesem Artikel zum Vergleich der beiden Versionen.

Sie können einen regulären Ausdruck für eine einzelne Text Spalte verwenden. Sie definieren einen regulären Ausdruck, der den Textspalten Namen einschließt, und legen dann Bedingungen fest, die für die Spalte gelten, wie z. b. "beginnt mit", "enthält" oder "enthält nicht".

Allgemeine Informationen zur Daten Partitionierung für Machine Learning-Experimente finden Sie unter Aufteilen von Daten und partitionieren und teilen.

Weitere Optionen im Modul Split Data :

Verwenden eines regulären Ausdrucks zum Aufteilen eines Datasets

  1. Fügen Sie das Modul Split Data Ihrem Experiment hinzu, und verbinden Sie es als Eingabe mit dem aufzuteilenden Dataset.

  2. Wählen Sie für Splitting mode (Aufteilungsmodus) die Option Regular expression split (Nach regulärem Ausdruck aufteilen) aus.

  3. Geben Sie im Feld Regular expression (Regulärer Ausdruck) einen gültigen, regulären Ausdruck ein. Einige Beispiele finden Sie hier.

    Der reguläre Ausdruck wird nur auf die angegebene Spalte angewendet, bei der es sich um einen String-Datentyp handeln muss.

    Hilfe zum Verfassen regulärer Ausdrücke finden Sie unter Sprache für reguläre Ausdrücke-kurzÜbersicht.

  4. Führen Sie das Experiment aus, oder klicken Sie mit der rechten Maustaste auf das Modul, und wählen Sie ausgewählte ausführen

    Basierend auf dem angegebenen regulären Ausdruck wird das Dataset in zwei Sätze von Zeilen unterteilt: Zeilen mit Werten, die mit dem Ausdruck übereinstimmen, und alle übrigen Zeilen.

Beispiele

In den folgenden Beispielen wird veranschaulicht, wie Sie ein DataSet mithilfe der Option regulärer Ausdruck aufteilen.

Einzelnes ganzes Wort

In diesem Beispiel werden alle Zeilen, die den Text in der Spalte enthalten, in das erste Dataset eingefügt Gryphon Text und andere Zeilen in die zweite Ausgabe der geteilten Daten eingefügt:

    \"Text" Gryphon  

TEILZEICHENFOLGE

In diesem Beispiel wird nach der angegebenen Zeichenfolge an einer beliebigen Position innerhalb der zweiten Spalte des Datasets gesucht, die hier durch den Indexwert 1 angegeben wird. Bei der Übereinstimmung muss die Groß-/Kleinschreibung beachtet werden.

(\1) ^[a-f]

Das erste Ergebnis DataSet enthält alle Zeilen, in denen die Index Spalte mit einem der folgenden Zeichen beginnt: a , b , c , d , e , f . Alle anderen Zeilen werden an die zweite Ausgabe weitergeleitet.

Zeichen folgen Entsprechung für IP-Adressen

In diesem Beispiel werden einige Server Protokolldaten für die Analyse in zwei Kategorien unterteilt: Verbindungen hinter der Firewall und Verbindungen mit IP-Adressen außerhalb der Firewall. Der reguläre Ausdruck wird auf das IP_Address Feld (einen String -Datentyp) angewendet.

(\IP_Address) ^[10]

Die erste Ausgabe enthält alle Adressen, die mit beginnen 10 .

Weitere Informationen

Sample und Split
Partition und Beispiel