Adatok felosztása reguláris kifejezéssel

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Ez a cikk bemutatja, hogyan használhatja a Reguláris kifejezések felosztása lehetőséget a Machine Learning Studio Adatfelosztó moduljában. Ez a lehetőség akkor hasznos, ha szűrési feltételeket kell alkalmaznia egy szöveges oszlopra. Például eloszthatja az adatkészletet azzal, hogy megemlít-e egy adott terméket.

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

Reguláriskifejezés-felosztást egyetlen szöveges oszlopra is használhat. Definiálhat egy reguláris kifejezést, amely tartalmazza a szöveges oszlop nevét, majd megadhatja az oszlopra vonatkozó feltételeket, például: "kezdete", "tartalmaz", vagy "nem tartalmazza".

A gépi tanulási kísérletek adat particionálásának általános információiért lásd: Split Data and Partition and Split (Adatok felosztása és felosztása).

További lehetőségek az Adatok felosztása modulban :

Reguláris kifejezés használata egy adatkészlet felosztására

  1. Adja hozzá az Adatok felosztása modult a kísérlethez, és csatlakoztassa bemenetként a felosztani kívánt adatkészlethez.

  2. Felosztási módként válassza a Reguláris kifejezések felosztása lehetőséget.

  3. A Reguláris kifejezés mezőbe írjon be egy érvényes reguláris kifejezést. Itt talál néhány példát.

    A reguláris kifejezés csak a megadott oszlopra lesz alkalmazva, amelynek sztring adattípusnak kell lennie.

    Ha segítségre van szüksége a reguláris kifejezések írásában, tekintse meg a Reguláriskifejezés-nyelv – Rövid útmutatót.

  4. Futtassa a kísérletet, vagy kattintson a jobb gombbal a modulra, és válassza a Futtatás kiválasztva lehetőséget.

    A megadott reguláris kifejezés alapján az adatkészlet két sorhalmazra oszlik: sorokra, amelyek értékei megegyeznek a kifejezéssel és az összes többi sorral.

Példák

Az alábbi példák bemutatják, hogyan osztható fel egy adatkészlet a Reguláris kifejezés lehetőséggel .

Egyetlen egész szó

Ez a példa az GryphonTextelső adatkészletbe helyezi az oszlopban lévő szöveget tartalmazó összes sort, a többi sort pedig az Adatok felosztása második kimenetbe helyezi:

    \"Text" Gryphon  

Substring

Ez a példa az adatkészlet második oszlopának bármely helyén keres sztringet, amelyet itt az 1 indexérték képvisel. Az egyezés megkülönbözteti a kis- és nagybetűket.

(\1) ^[a-f]

Az első eredmény adathalmaza tartalmazza az összes olyan sort, ahol az indexoszlop a következő karakterek egyikének karakterrel kezdődik: a, , bc, d, e, f. A többi sor a második kimenetre lesz irányítva.

Sztringek egyeztetése IP-címeken

Ebben a példában néhány kiszolgálói naplóadatot két kategóriába sorolunk az elemzéshez: a tűzfal mögötti kapcsolatokra és a tűzfalon kívüli IP-címekre. A rendszer a reguláris kifejezést alkalmazza a mezőre IP_Address ( sztring adattípus).

(\IP_Address) ^[10]

Az első kimenet tartalmazza az összes olyan címet, amely a következővel kezdődik: 10.

Lásd még

Minta és felosztás
Partíció és minta