Adathalmaz felosztása relatív kifejezéssel
Fontos
A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.
2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.
- További információ a gépi tanulási projektek ML Studióból (klasszikus) azure Machine Learningbe való áthelyezéséről.
- További információ az Azure Machine Learningről.
A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.
Ez a cikk bemutatja, hogyan használhatja a Relatív kifejezés felosztása lehetőséget a Machine Learning Studio Adatok felosztása moduljában (klasszikus). Ez a lehetőség akkor hasznos, ha egy adathalmazt betanításra és adathalmazok tesztelésére kell osztani numerikus kifejezéssel. Például:
- 40 évnél idősebb és 40 évnél fiatalabb
- 60-nál magasabb vagy 60-nál kisebb tesztpontszám
- Az 1 és az összes többi érték rangsorolása
Megjegyzés
Csak a következőre vonatkozik: Machine Learning Studio ( klasszikus)
Hasonló húzási modulok érhetők el az Azure Machine Learning designerben.
Az adatok megosztásához egyetlen numerikus oszlopot kell választania az adatokban, és definiálnia kell egy kifejezést az egyes sorok kiértékeléséhez. A relatív kifejezésnek tartalmaznia kell az oszlop nevét, az értéket és az olyan operátort, mint a nagyobb és kisebb, egyenlő és nem egyenlő.
Ez a beállítás két csoportra osztja az adathalmazt.
A gépi tanulási kísérletek adatparticionálásával kapcsolatos általános információkért lásd: Adatok felosztása , particionálás és felosztás.
Kapcsolódó feladatok
Az Adatok felosztása modul egyéb lehetőségei:
Adatok felosztása reguláris kifejezésekkel: Normál kifejezés alkalmazása egyetlen szöveges oszlopra, és az eredmények alapján ossza el az adathalmazt
Ajánló adathalmazok felosztása: Ossza el a javaslati modellekben használt adathalmazokat. Az adathalmaznak három oszlopnak kell lennie: elemek, felhasználók és értékelések
Relatív kifejezés használata adatkészletek felosztásához
Adja hozzá az Adatok felosztása modult a kísérlethez a Stuio-ban, és csatlakoztassa bemenetként a felosztani kívánt adathalmazhoz.
Felosztási mód esetén válassza a relatív kifejezés felosztása lehetőséget.
A Relációs kifejezés szövegmezőbe írjon be egy numerikus összehasonlító műveletet végrehajtó kifejezést egyetlen oszlopba:
Az oszlop bármilyen numerikus adattípust tartalmaz, beleértve a dátum/idő adattípusokat is.
A kifejezés legfeljebb egy oszlopnévre hivatkozhat.
Az AND művelethez használja az ampersand karaktert (&), és használja a cső karaktert (|) az OR művelethez.
A következő operátorok támogatottak:
<
,>
,<=
, ,==
>=
!=
A és a használatával
(
)
nem csoportosíthatja a műveleteket.
Ötletekért tekintse meg a Példák szakaszt .
Futtassa a kísérletet, vagy kattintson a jobb gombbal a modulra, és válassza a Kiválasztott futtatás lehetőséget.
A kifejezés két sorkészletre osztja az adathalmazt: a feltételnek megfelelő értékeket tartalmazó sorokra és az összes többi sorra.
Ha további felosztási műveleteket kell végrehajtania, hozzáadhatja az *Adatok felosztása második példányát, vagy használhatja az SQL Transformation alkalmazása modult, és meghatározhat egy CASE utasítást.
Példák relatve kifejezésekre
Az alábbi példák bemutatják, hogyan oszthat el egy adathalmazt az Adatok felosztása modul Relatív kifejezés lehetőségével:
Naptári év használata
Gyakori forgatókönyv az adathalmaz évek szerinti felosztása. Az alábbi kifejezés az összes olyan sort kijelöli, ahol az oszlop Year
értékei nagyobbak, mint 2010
.
\"Year" > 2010
A dátumkifejezésnek figyelembe kell vennie az adatoszlopban szereplő összes dátumrészt, és az adatoszlop dátumformátumának konzisztensnek kell lennie.
Például egy formátumot használó dátumoszlopban a mmddyyyy
kifejezésnek a következőhöz hasonlónak kell lennie:
\"Date" > 1/1/2010
Oszlopindexek használata
Az alábbi kifejezés bemutatja, hogyan használhatja az oszlopindexet az adathalmaz első oszlopában lévő összes olyan sor kijelölésére, amely 30-nál kisebb vagy egyenlő, de nem egyenlő 20 értéket tartalmaz.
(\0)<=30 & !=20
Összetett művelet időértékeken több felosztással
Tegyük fel, hogy fel szeretne osztani egy naplóadatokból álló táblát a túl hosszú ideig futó lekérdezések csoportosításához. Az oszlop Elapsed
alábbi relatív kifejezésével lekérheti az 1 perc alatt lefutott lekérdezéseket.
\"Elapsed" >00:01:00
Ha egy percnél rövidebb, de 30 másodpercnél hosszabb válaszidővel rendelkező lekérdezéseket szeretne lekérni, adja hozzá az Adatok felosztása egy másik példányát a jobb oldali kimenethez, és használjon ehhez hasonló kifejezést:
\"Elapsed" <:00:01:00 & >00:00:30
Adathalmaz felosztása dátumértékeken
Az alábbi relatív kifejezés elosztja az adathalmazt az oszlop dt1
dátumértékeivel.
\"dt1" > 10-08-2015
A 2015.08.10-nél nagyobb dátumú sorokat a rendszer hozzáadja az első (bal oldali) kimeneti adatkészlethez.
A 10-08-2015 vagy korábbi dátumú sorokat a rendszer hozzáadja a második (jobb oldali) kimeneti adatkészlethez.
Technikai megjegyzések
Ez a szakasz a megvalósítás részleteit, tippeket és válaszokat tartalmaz a gyakori kérdésekre.
Korlátozások
Az adathalmazon lévő relatív kifejezésekre a következő korlátozások vonatkoznak:
- A relatív kifejezések csak numerikus adattípusokra és dátum-/idő adattípusokra alkalmazhatók.
- A relatív kifejezések legfeljebb egy oszlopnévre hivatkozhatnak.
- Az AND művelethez használja az ampersand karaktert (&), az OR művelethez pedig a cső karaktert (|).
- A relatív kifejezésekhez a következő operátorok használhatók:
<
,>
,<=
,>=
,==
!=
- A zárójeles csoportosítási műveletek nem támogatottak.