Adatok felosztása reguláris kifejezéssel

Cikk
05/06/2019

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
További információ a Azure Machine Learning.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Ez a cikk bemutatja, hogyan használhatja a Reguláris kifejezések felosztása lehetőséget a Machine Learning Studio Adatfelosztó moduljában. Ez a lehetőség akkor hasznos, ha szűrési feltételeket kell alkalmaznia egy szöveges oszlopra. Például eloszthatja az adatkészletet azzal, hogy megemlít-e egy adott terméket.

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

Reguláriskifejezés-felosztást egyetlen szöveges oszlopra is használhat. Definiálhat egy reguláris kifejezést, amely tartalmazza a szöveges oszlop nevét, majd megadhatja az oszlopra vonatkozó feltételeket, például: "kezdete", "tartalmaz", vagy "nem tartalmazza".

A gépi tanulási kísérletek adat particionálásának általános információiért lásd: Split Data and Partition and Split (Adatok felosztása és felosztása).

További lehetőségek az Adatok felosztása modulban :

Adatok felosztása relatív kifejezésekkel: Kifejezés alkalmazása numerikus adatokra.
Ajánló-adatkészletek felosztása: A javaslati modellekben használt adatkészletek felosztása. Az adatkészletnek három oszlopból kell lennie: elemekből, felhasználókból és értékelésekből.
Felosztás az adatkészlet százalékában

Reguláris kifejezés használata egy adatkészlet felosztására

Adja hozzá az Adatok felosztása modult a kísérlethez, és csatlakoztassa bemenetként a felosztani kívánt adatkészlethez.
Felosztási módként válassza a Reguláris kifejezések felosztása lehetőséget.
A Reguláris kifejezés mezőbe írjon be egy érvényes reguláris kifejezést. Itt talál néhány példát.

A reguláris kifejezés csak a megadott oszlopra lesz alkalmazva, amelynek sztring adattípusnak kell lennie.

Ha segítségre van szüksége a reguláris kifejezések írásában, tekintse meg a Reguláriskifejezés-nyelv – Rövid útmutatót.
Futtassa a kísérletet, vagy kattintson a jobb gombbal a modulra, és válassza a Futtatás kiválasztva lehetőséget.

A megadott reguláris kifejezés alapján az adatkészlet két sorhalmazra oszlik: sorokra, amelyek értékei megegyeznek a kifejezéssel és az összes többi sorral.

Példák

Az alábbi példák bemutatják, hogyan osztható fel egy adatkészlet a Reguláris kifejezés lehetőséggel .

Egyetlen egész szó

Ez a példa az GryphonTextelső adatkészletbe helyezi az oszlopban lévő szöveget tartalmazó összes sort, a többi sort pedig az Adatok felosztása második kimenetbe helyezi:

    \"Text" Gryphon

Substring

Ez a példa az adatkészlet második oszlopának bármely helyén keres sztringet, amelyet itt az 1 indexérték képvisel. Az egyezés megkülönbözteti a kis- és nagybetűket.

(\1) ^[a-f]

Az első eredmény adathalmaza tartalmazza az összes olyan sort, ahol az indexoszlop a következő karakterek egyikének karakterrel kezdődik: a, , bc, d, e, f. A többi sor a második kimenetre lesz irányítva.

Sztringek egyeztetése IP-címeken

Ebben a példában néhány kiszolgálói naplóadatot két kategóriába sorolunk az elemzéshez: a tűzfal mögötti kapcsolatokra és a tűzfalon kívüli IP-címekre. A rendszer a reguláris kifejezést alkalmazza a mezőre IP_Address ( sztring adattípus).

(\IP_Address) ^[10]

Az első kimenet tartalmazza az összes olyan címet, amely a következővel kezdődik: 10.

Lásd még

Minta és felosztás
Partíció és minta