Értékek levágása

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Észleli a ki- és a klipeket, vagy lecseréli azok értékeit

Kategória: Adatátalakítás / skálázás és csökkentés

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a Machine Learning Studio (klasszikus) Clip Values (Clip Values) modulja a megadott küszöbérték feletti vagy alatti adatértékek azonosítására és opcionális cseréjére. Ez akkor hasznos, ha el szeretné távolítani a kierőleteket, vagy le szeretné cserélni őket egy átlagos értékre, egy állandóra vagy más helyettesítő értékre.

A modult egy olyan adatkészlethez kell csatlakoztatnia, amely tartalmazza a kivágni kívánt számokat, ki kell választania a használni kívánt oszlopokat, majd be kell állítania egy küszöbértéket vagy értéktartományt és egy helyettesítő metódust. A modul kimenete lehet csak az eredmény, vagy az eredeti adatkészlethez hozzáfűzett módosított értékek.

Clip Values konfigurálása

Mielőtt hozzákezd, azonosítsa a kivágni kívánt oszlopokat és a használni kívánt metódust. Javasoljuk, hogy először tesztelje a kivágási metódusokat az adatok egy kis részében.

A modul ugyanazt a feltételt és helyettesítő módszert alkalmazza a kiválasztásban megadott összes oszlopra. Ezért mindenképpen zárja ki azokat az oszlopokat, amelyeken nem szeretne változtatni.

Ha kivágási metódusokat vagy más feltételeket kell alkalmaznia egyes oszlopokra, a hasonló oszlopok minden egyes készlete esetén a Clip Values új példányát kell használnia.

  1. Adja hozzá a Clip Values (Clip Values) modult a kísérlethez, és csatlakoztassa a módosítani kívánt adatkészlethez. Ezt a modult az Adatátalakítás alatt, a Skálázás és Csökkentés kategóriában találja .

  2. Az Oszlopok listája mezőben az Oszlopválasztóval választhatja ki azokat az oszlopokat, amelyekre alkalmazni fogja a Clip Values (Vágóértékek) adatokat.

  3. A Küszöbértékek készlete beállításnál válasszon az alábbi lehetőségek közül a legördülő listából. Ezek a beállítások határozzák meg, hogyan állíthatja be az elfogadható értékek felső és alsó határait a cágár értékekhez.

    • ClipPeaks: Amikor csúcsértékek alapján levágja az értékeket, csak felső határt ad meg. Az ennél a határértéknél nagyobb értékeket a rendszer lecseréli vagy eltávolítja.

    • ClipSubpeaks: Ha csúcs alcsúcsok alapján levágja az értékeket, csak alsó határt ad meg. Az ennél kisebb határértékeket a rendszer lecseréli vagy eltávolítja.

    • ClipPeaksAndSubpeaks: Ha csúcsok és alcsúcsok alapján levágja az értékeket, a felső és alsó határokat is megadhatja. Az ezen a tartományon kívül található értékeket a rendszer lecseréli vagy eltávolítja. A határértékekkel egyező értékek nem módosulnak.

  4. Az előző lépésben kiválasztott értéktől függően a következő küszöbértékeket állíthatja be:

    • Alsó küszöbérték: Csak akkor jelenik meg, ha a ClipSubPeaks lehetőséget választja
    • Felső küszöbérték: Csak akkor jelenik meg, ha a ClipPeaks lehetőséget választja
    • Küszöbérték: Csak akkor jelenik meg, ha a ClipPeaksAndSubPeaks lehetőséget választja

    Minden küszöbérték-típushoz válassza a Konstans vagy a Percentilis lehetőséget.

  5. Ha a Constant (Állandó) lehetőséget választja, írja be a maximális vagy minimális értéket a szövegmezőbe. Tegyük fel például, hogy tudja, hogy a 999 érték lett használva helyőrző értékként. Felső küszöbértékként a Constant (Állandó ) értéket is választhatja, a felső küszöbérték állandó értékeként pedig a 999 értéket kell begépelni.

  6. Ha a Percentile (Százalékérték) lehetőséget választja, az oszlopértékeket percentilistartományra korlátozza.

    Tegyük fel például, hogy csak a 10–80 percentilis tartomány értékeit szeretné megtartani, és az összes többit lecseréli. Válassza a Percentile (Százalékérték) lehetőséget, majd írja be a 10 értéket az alsó küszöbérték percentilisértékének, a percentilis felső küszöbértékének pedig a 80 értéket.

    A percentilistartományok használatára vonatkozó példákért tekintse meg a percentilisek című szakaszt.

  7. Definiálja a helyettesítő értéket.

    Az ön által megadott határokkal pontosan egyező számok az engedélyezett értéktartományon belülre kerülnek, ezért nem lesznek lecserélve vagy eltávolítva. A megadott tartományon kívül eső összes szám helyére a helyettesítő érték tartozik.

    • Csúcsérték behelyettesítő értéke: A megadott küszöbértéknél nagyobb összes oszlopérték helyettesítésére vonatkozó értéket határozza meg.
    • Alpeakek helyettesítése: A megadott küszöbértéknél kisebb összes oszlopérték helyettesítésére használt értéket határozza meg.
    • Ha a ClipPeaksAndSubpeaks beállítást használja, külön helyettesítő értékeket is megadhat a felső és az alsó középértékhez.

    A következő helyettesítő értékek támogatottak:

    • Küszöbérték: Lecseréli a küszöbértékeket a megadott küszöbértékre.

    • Átlag: Lecseréli a c oszlopértékeket az oszlopértékek átlagára. A átlag kiszámítása még az értékek előtt megszabadod.

    • Medián: Lecseréli a ciklák értékeit az oszlopértékek mediánja alapján. A medián kiszámítása még az értékek előtt megszabadod.

    • Hiányzik. Lecseréli a alapértékeket a hiányzó (üres) értékre.

  8. Jelzőoszlopok hozzáadása: Akkor válassza ezt a lehetőséget, ha új oszlopot szeretne létrehozni, amely közli, hogy a megadott kivágási művelet alkalmazva van-e az adott sorban lévő adatokra. Ez a lehetőség különösen akkor hasznos, ha új kivágási és helyettesítési értékeket tesztel.

  9. Felülírás jelző: Jelezze, hogyan szeretné generálni az új értékeket. Alapértelmezés szerint a Clip Values (Vágóértékek) egy új oszlopot hoz létre, amely a csúcsértékeket a kívánt küszöbértékhez eléri. Az új értékek felülírják az eredeti oszlopot.

    Ha meg szeretne tartani az eredeti oszlopot, és új oszlopot szeretne hozzáadni a mezőértékekkel, törölje ennek a beállításnak a kijelölését.

  10. Futtassa a kísérletet.

    Kattintson a jobb gombbal a Clip Values (Clip Values) modul kimenetére, és válassza a Visualize (Képi megjelenítés) lehetőséget az értékek áttekintéséhez, és győződjön meg arról, hogy a kivágási művelet megfelel az elvárásainak.

Példák

A modul machine learning-kísérletekben való használatával kapcsolatban lásd a következő Azure AI Gallery:

  • Erdőt oltó kilő adatok: Az EdX adattudományos couse példája a Forest Fires mintaadatkészletet használó kivágási módszereket mutatja be.

Kivágás percentilisekkel

A percentilisek alapján való kivágás működését úgy értheti meg, ha egy 10 sort tartalmazó adathalmazt tekint meg, amelynek minden értéke egy-egy példányban 1 és 10 között van.

  • Ha percentilist használ felső küszöbértékként, a 90. percentilis értéke esetén az adatkészlet összes értékének 90%-ának ennél kisebbnek kell lennie.

  • Ha percentilist használ alsó küszöbértékként, a 10. percentilis értéke esetén az adatkészletben az összes érték 10%-ának ennél kisebbnek kell lennie.

  1. A Küszöbértékek készlete beállításnál válassza a ClipPeaksAndSubPeaks lehetőséget.

  2. A Felső küszöbérték beállításnál válassza a Percentile (Percentilis) lehetőséget, a Percentile number (Percentilisszám) mezőbe pedig a 90-et.

  3. A Felső helyettesítő érték mezőben válassza a Hiányzó érték lehetőséget.

  4. Az Alsó küszöbérték beállításnál válassza a Percentile (Százalék) lehetőséget, a Percentile number (Százalékszám) beállításnál pedig a 10-et.

  5. Az Alacsonyabb helyettesítő érték mezőben válassza a Hiányzó érték lehetőséget.

  6. Törölje a Felülírás jelző kijelölését, majd válassza a Jelzőoszlop hozzáadása lehetőséget.

Most próbálja ki ugyanazt a kísérletet a 60-as felső és a 30-as értékkel az alsó percentilis küszöbértékével, és használja a küszöbértéket helyettesítő értékként. Az alábbi táblázat ezt a két eredményt hasonlítja össze:

  1. Cserélje le a helyére a hiányzó helyére; Felső küszöbérték = 90; Alsó küszöbérték = 10

  2. Cserélje le a helyére a küszöbértéket; Felső percentilis = 60; Alacsonyabb percentilis = 30

Eredeti adatok Cserélje le a helyére a hiányzót Csere küszöbértékre
1

2

3

4

5

6

7

8

9

10
IGAZ

IGAZ

3, FALSE (HAMIS)

4, FALSE (HAMIS)

5, FALSE

6, FALSE

7, FALSE

8, FALSE

9, FALSE

IGAZ
4, TRUE

4, TRUE

4, TRUE

4, TRUE

5, FALSE

6, FALSE

7, TRUE

7, TRUE

7, TRUE

7, TRUE

Technikai megjegyzések

  • A Clip Values csak számokat vagy dátum/idő értékeket tartalmazó oszlopokon használható.

  • Ha szöveges vagy kategorikus adatokat tartalmazó oszlopokat ad meg, a rendszer kihagyja az oszlopokat.

  • A hiányzó értékeket a rendszer figyelmen kívül hagyja, ha egy oszlop középértékét vagy mediánját számítja ki a rendszer.

  • A clip Values nem támogatja a sorszámadatokat.

  • A hiányzó értékek nem módosulnak, amikor propagálják őket a kimeneti adatkészletbe. A c mutatóértékeket jelző oszlop mindig FALSE értéket tartalmaz a hiányzó értékekhez.

Várt bemenetek

Név Típus Description
Adathalmaz Adattábla Bemeneti adatkészlet

Modulparaméterek

Name Tartomány Típus Alapértelmezett Description
Jelzőoszlopok hozzáadása IGAZ/HAMIS Logikai HAMIS Meg van-e adhatja az érték kivágásának jelzőt
Állandó érték az alsó küszöbértékhez bármelyik Float -1 Az az érték, amely alatt az alhálózatok c aknázva lesznek
Állandó érték a felső küszöbértékhez bármelyik Float 1 Az az érték, amely felett a csúcsok c aknák lesznek
Az alacsonyabb küszöbérték állandó értéke bármelyik Float -1 Az az érték, amely alatt az alhálózatok cárok
A felső küszöbérték állandó értéke >=1 Float 1 Az az érték, amely felett a csúcsok ciklák
Oszlopok listája ColumnSelection (Oszlopválasztás) A vágólapra kapcsos oszlopok listája
Alacsonyabb helyettesítő érték Küszöbérték

Középérték

Középérték

Hiányzó
SubstituteValues (Helyettesítő érték) Küszöbérték Az alhálózatok kivágáshoz használt érték
Alsó küszöbérték Állandó

Percentilis
Küszöbérték módja Állandó Az az érték, amely alatt az alhálózatok ciklák módban lesznek
Felülírás jelzője IGAZ/HAMIS Logikai IGAZ Azt határozza meg, hogy az adatoszlop(nak) felül kell-e írnia a bemeneti adatoszlop(a)t
Percentilisszám az alsó küszöbértékhez [1;99] Egész szám 1 Azon percentilisszám, amely alatt az alpeték c egész számként fognak esni
Percentilisszám a felső küszöbértékhez [1;99] Egész szám 99 Azon percentilisszám, amely felett a csúcsok cágárok lesznek
Az alsó küszöbérték percentilisének száma [1;99] Egész szám 1 Azon percentilisszám, amely alatt az alpeték cárok
A felső küszöbérték percentilisének száma [1;99] Egész szám 99 Azon percentilisszám, amely felett a csúcsok cárok
Küszöbértékek halmaza ClipPeaks (ClipPeaks)

ClipSubPeaks

ClipPeaksAndSubPeaks
Küszöbérték-készlet ClipPeaks (ClipPeaks) A használni következő küszöbérték típusát határozza meg:
Csúcsértékek helyettesítése Küszöbérték

Középérték

Középérték

Hiányzó
SubstituteValues (Helyettesítő érték) Küszöbérték A csúcsidőszakok kivágása során használt érték
Az alpeték helyettesítő értéke Küszöbérték

Középérték

Középérték

Hiányzó
SubstituteValues (Helyettesítő érték) Küszöbérték A kivágás alpekái során használt érték
Küszöbérték Állandó

Percentilis
Küszöbérték módja Állandó Az érték, amely felett és alatt a csúcsok ciklák módban lesznek
Felső helyettesítési érték Küszöbérték

Középérték

Középérték

Hiányzó
Küszöbérték Küszöbérték A csúcsok kivágására használt érték
Felső küszöbérték Állandó

Percentilis
Küszöbérték módja Állandó Az az érték, amely felett a csúcsok ciklák módban lesznek

Kimenetek

Név Típus Description
Eredményadatkészlet Adattábla Oszlopokat tartalmazó adatkészlet

Kivételek

Kivétel Description
0011-es hiba Kivétel akkor fordul elő, ha az átadott oszlopkészlet-argumentum nem vonatkozik egyik adathalmazoszlopra sem.
0017-es hiba Kivétel akkor fordul elő, ha egy vagy több megadott oszlop típusa az aktuális modul által nem támogatott.

A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.

Az API-kivételek listáját a hibakódok Machine Learning REST API.

Lásd még

Méretezés és csökkentés
A-Z modullista