Adathalmaz felosztása relatív kifejezéssel

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Ez a cikk bemutatja, hogyan használhatja a Relatív kifejezés felosztása lehetőséget a Machine Learning Studio Adatok felosztása moduljában (klasszikus). Ez a lehetőség akkor hasznos, ha egy adathalmazt betanításra és adathalmazok tesztelésére kell osztani numerikus kifejezéssel. Például:

  • 40 évnél idősebb és 40 évnél fiatalabb
  • 60-nál magasabb vagy 60-nál kisebb tesztpontszám
  • Az 1 és az összes többi érték rangsorolása

Megjegyzés

Csak a következőre vonatkozik: Machine Learning Studio ( klasszikus)

Hasonló húzási modulok érhetők el az Azure Machine Learning designerben.

Az adatok megosztásához egyetlen numerikus oszlopot kell választania az adatokban, és definiálnia kell egy kifejezést az egyes sorok kiértékeléséhez. A relatív kifejezésnek tartalmaznia kell az oszlop nevét, az értéket és az olyan operátort, mint a nagyobb és kisebb, egyenlő és nem egyenlő.

Ez a beállítás két csoportra osztja az adathalmazt.

A gépi tanulási kísérletek adatparticionálásával kapcsolatos általános információkért lásd: Adatok felosztása , particionálás és felosztás.

Az Adatok felosztása modul egyéb lehetőségei:

Relatív kifejezés használata adatkészletek felosztásához

  1. Adja hozzá az Adatok felosztása modult a kísérlethez a Stuio-ban, és csatlakoztassa bemenetként a felosztani kívánt adathalmazhoz.

  2. Felosztási mód esetén válassza a relatív kifejezés felosztása lehetőséget.

  3. A Relációs kifejezés szövegmezőbe írjon be egy numerikus összehasonlító műveletet végrehajtó kifejezést egyetlen oszlopba:

    • Az oszlop bármilyen numerikus adattípust tartalmaz, beleértve a dátum/idő adattípusokat is.

    • A kifejezés legfeljebb egy oszlopnévre hivatkozhat.

    • Az AND művelethez használja az ampersand karaktert (&), és használja a cső karaktert (|) az OR művelethez.

    • A következő operátorok támogatottak: <, >, <=, , ==>=!=

    • A és a használatával ()nem csoportosíthatja a műveleteket.

    Ötletekért tekintse meg a Példák szakaszt .

  4. Futtassa a kísérletet, vagy kattintson a jobb gombbal a modulra, és válassza a Kiválasztott futtatás lehetőséget.

    A kifejezés két sorkészletre osztja az adathalmazt: a feltételnek megfelelő értékeket tartalmazó sorokra és az összes többi sorra.

    Ha további felosztási műveleteket kell végrehajtania, hozzáadhatja az *Adatok felosztása második példányát, vagy használhatja az SQL Transformation alkalmazása modult, és meghatározhat egy CASE utasítást.

Példák relatve kifejezésekre

Az alábbi példák bemutatják, hogyan oszthat el egy adathalmazt az Adatok felosztása modul Relatív kifejezés lehetőségével:

Naptári év használata

Gyakori forgatókönyv az adathalmaz évek szerinti felosztása. Az alábbi kifejezés az összes olyan sort kijelöli, ahol az oszlop Year értékei nagyobbak, mint 2010.

\"Year" > 2010

A dátumkifejezésnek figyelembe kell vennie az adatoszlopban szereplő összes dátumrészt, és az adatoszlop dátumformátumának konzisztensnek kell lennie.

Például egy formátumot használó dátumoszlopban a mmddyyyykifejezésnek a következőhöz hasonlónak kell lennie:

\"Date" > 1/1/2010

Oszlopindexek használata

Az alábbi kifejezés bemutatja, hogyan használhatja az oszlopindexet az adathalmaz első oszlopában lévő összes olyan sor kijelölésére, amely 30-nál kisebb vagy egyenlő, de nem egyenlő 20 értéket tartalmaz.

(\0)<=30 & !=20

Összetett művelet időértékeken több felosztással

Tegyük fel, hogy fel szeretne osztani egy naplóadatokból álló táblát a túl hosszú ideig futó lekérdezések csoportosításához. Az oszlop Elapsedalábbi relatív kifejezésével lekérheti az 1 perc alatt lefutott lekérdezéseket.

\"Elapsed" >00:01:00

Ha egy percnél rövidebb, de 30 másodpercnél hosszabb válaszidővel rendelkező lekérdezéseket szeretne lekérni, adja hozzá az Adatok felosztása egy másik példányát a jobb oldali kimenethez, és használjon ehhez hasonló kifejezést:

\"Elapsed" <:00:01:00 & >00:00:30

Adathalmaz felosztása dátumértékeken

Az alábbi relatív kifejezés elosztja az adathalmazt az oszlop dt1dátumértékeivel.

\"dt1" > 10-08-2015

A 2015.08.10-nél nagyobb dátumú sorokat a rendszer hozzáadja az első (bal oldali) kimeneti adatkészlethez.

A 10-08-2015 vagy korábbi dátumú sorokat a rendszer hozzáadja a második (jobb oldali) kimeneti adatkészlethez.

Technikai megjegyzések

Ez a szakasz a megvalósítás részleteit, tippeket és válaszokat tartalmaz a gyakori kérdésekre.

Korlátozások

Az adathalmazon lévő relatív kifejezésekre a következő korlátozások vonatkoznak:

  • A relatív kifejezések csak numerikus adattípusokra és dátum-/idő adattípusokra alkalmazhatók.
  • A relatív kifejezések legfeljebb egy oszlopnévre hivatkozhatnak.
  • Az AND művelethez használja az ampersand karaktert (&), az OR művelethez pedig a cső karaktert (|).
  • A relatív kifejezésekhez a következő operátorok használhatók: <, >, <=, >=, ==!=
  • A zárójeles csoportosítási műveletek nem támogatottak.

Lásd még

Minta és felosztás
Partíció és minta