Értékek levágása
Fontos
A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.
2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.
- További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
- További információ a Azure Machine Learning.
A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.
Észleli a ki- és a klipeket, vagy lecseréli azok értékeit
Kategória: Adatátalakítás / skálázás és csökkentés
Megjegyzés
A következőkre vonatkozik: Machine Learning Studio (klasszikus)
Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.
A modul áttekintése
Ez a cikk azt ismerteti, hogyan használható a Machine Learning Studio (klasszikus) Clip Values (Clip Values) modulja a megadott küszöbérték feletti vagy alatti adatértékek azonosítására és opcionális cseréjére. Ez akkor hasznos, ha el szeretné távolítani a kierőleteket, vagy le szeretné cserélni őket egy átlagos értékre, egy állandóra vagy más helyettesítő értékre.
A modult egy olyan adatkészlethez kell csatlakoztatnia, amely tartalmazza a kivágni kívánt számokat, ki kell választania a használni kívánt oszlopokat, majd be kell állítania egy küszöbértéket vagy értéktartományt és egy helyettesítő metódust. A modul kimenete lehet csak az eredmény, vagy az eredeti adatkészlethez hozzáfűzett módosított értékek.
Clip Values konfigurálása
Mielőtt hozzákezd, azonosítsa a kivágni kívánt oszlopokat és a használni kívánt metódust. Javasoljuk, hogy először tesztelje a kivágási metódusokat az adatok egy kis részében.
A modul ugyanazt a feltételt és helyettesítő módszert alkalmazza a kiválasztásban megadott összes oszlopra. Ezért mindenképpen zárja ki azokat az oszlopokat, amelyeken nem szeretne változtatni.
Ha kivágási metódusokat vagy más feltételeket kell alkalmaznia egyes oszlopokra, a hasonló oszlopok minden egyes készlete esetén a Clip Values új példányát kell használnia.
Adja hozzá a Clip Values (Clip Values) modult a kísérlethez, és csatlakoztassa a módosítani kívánt adatkészlethez. Ezt a modult az Adatátalakítás alatt, a Skálázás és Csökkentés kategóriában találja .
Az Oszlopok listája mezőben az Oszlopválasztóval választhatja ki azokat az oszlopokat, amelyekre alkalmazni fogja a Clip Values (Vágóértékek) adatokat.
A Küszöbértékek készlete beállításnál válasszon az alábbi lehetőségek közül a legördülő listából. Ezek a beállítások határozzák meg, hogyan állíthatja be az elfogadható értékek felső és alsó határait a cágár értékekhez.
ClipPeaks: Amikor csúcsértékek alapján levágja az értékeket, csak felső határt ad meg. Az ennél a határértéknél nagyobb értékeket a rendszer lecseréli vagy eltávolítja.
ClipSubpeaks: Ha csúcs alcsúcsok alapján levágja az értékeket, csak alsó határt ad meg. Az ennél kisebb határértékeket a rendszer lecseréli vagy eltávolítja.
ClipPeaksAndSubpeaks: Ha csúcsok és alcsúcsok alapján levágja az értékeket, a felső és alsó határokat is megadhatja. Az ezen a tartományon kívül található értékeket a rendszer lecseréli vagy eltávolítja. A határértékekkel egyező értékek nem módosulnak.
Az előző lépésben kiválasztott értéktől függően a következő küszöbértékeket állíthatja be:
- Alsó küszöbérték: Csak akkor jelenik meg, ha a ClipSubPeaks lehetőséget választja
- Felső küszöbérték: Csak akkor jelenik meg, ha a ClipPeaks lehetőséget választja
- Küszöbérték: Csak akkor jelenik meg, ha a ClipPeaksAndSubPeaks lehetőséget választja
Minden küszöbérték-típushoz válassza a Konstans vagy a Percentilis lehetőséget.
Ha a Constant (Állandó) lehetőséget választja, írja be a maximális vagy minimális értéket a szövegmezőbe. Tegyük fel például, hogy tudja, hogy a 999 érték lett használva helyőrző értékként. Felső küszöbértékként a Constant (Állandó ) értéket is választhatja, a felső küszöbérték állandó értékeként pedig a 999 értéket kell begépelni.
Ha a Percentile (Százalékérték) lehetőséget választja, az oszlopértékeket percentilistartományra korlátozza.
Tegyük fel például, hogy csak a 10–80 percentilis tartomány értékeit szeretné megtartani, és az összes többit lecseréli. Válassza a Percentile (Százalékérték) lehetőséget, majd írja be a 10 értéket az alsó küszöbérték percentilisértékének, a percentilis felső küszöbértékének pedig a 80 értéket.
A percentilistartományok használatára vonatkozó példákért tekintse meg a percentilisek című szakaszt.
Definiálja a helyettesítő értéket.
Az ön által megadott határokkal pontosan egyező számok az engedélyezett értéktartományon belülre kerülnek, ezért nem lesznek lecserélve vagy eltávolítva. A megadott tartományon kívül eső összes szám helyére a helyettesítő érték tartozik.
- Csúcsérték behelyettesítő értéke: A megadott küszöbértéknél nagyobb összes oszlopérték helyettesítésére vonatkozó értéket határozza meg.
- Alpeakek helyettesítése: A megadott küszöbértéknél kisebb összes oszlopérték helyettesítésére használt értéket határozza meg.
- Ha a ClipPeaksAndSubpeaks beállítást használja, külön helyettesítő értékeket is megadhat a felső és az alsó középértékhez.
A következő helyettesítő értékek támogatottak:
Küszöbérték: Lecseréli a küszöbértékeket a megadott küszöbértékre.
Átlag: Lecseréli a c oszlopértékeket az oszlopértékek átlagára. A átlag kiszámítása még az értékek előtt megszabadod.
Medián: Lecseréli a ciklák értékeit az oszlopértékek mediánja alapján. A medián kiszámítása még az értékek előtt megszabadod.
Hiányzik. Lecseréli a alapértékeket a hiányzó (üres) értékre.
Jelzőoszlopok hozzáadása: Akkor válassza ezt a lehetőséget, ha új oszlopot szeretne létrehozni, amely közli, hogy a megadott kivágási művelet alkalmazva van-e az adott sorban lévő adatokra. Ez a lehetőség különösen akkor hasznos, ha új kivágási és helyettesítési értékeket tesztel.
Felülírás jelző: Jelezze, hogyan szeretné generálni az új értékeket. Alapértelmezés szerint a Clip Values (Vágóértékek) egy új oszlopot hoz létre, amely a csúcsértékeket a kívánt küszöbértékhez eléri. Az új értékek felülírják az eredeti oszlopot.
Ha meg szeretne tartani az eredeti oszlopot, és új oszlopot szeretne hozzáadni a mezőértékekkel, törölje ennek a beállításnak a kijelölését.
Futtassa a kísérletet.
Kattintson a jobb gombbal a Clip Values (Clip Values) modul kimenetére, és válassza a Visualize (Képi megjelenítés) lehetőséget az értékek áttekintéséhez, és győződjön meg arról, hogy a kivágási művelet megfelel az elvárásainak.
Példák
A modul machine learning-kísérletekben való használatával kapcsolatban lásd a következő Azure AI Gallery:
- Erdőt oltó kilő adatok: Az EdX adattudományos couse példája a Forest Fires mintaadatkészletet használó kivágási módszereket mutatja be.
Kivágás percentilisekkel
A percentilisek alapján való kivágás működését úgy értheti meg, ha egy 10 sort tartalmazó adathalmazt tekint meg, amelynek minden értéke egy-egy példányban 1 és 10 között van.
Ha percentilist használ felső küszöbértékként, a 90. percentilis értéke esetén az adatkészlet összes értékének 90%-ának ennél kisebbnek kell lennie.
Ha percentilist használ alsó küszöbértékként, a 10. percentilis értéke esetén az adatkészletben az összes érték 10%-ának ennél kisebbnek kell lennie.
A Küszöbértékek készlete beállításnál válassza a ClipPeaksAndSubPeaks lehetőséget.
A Felső küszöbérték beállításnál válassza a Percentile (Percentilis) lehetőséget, a Percentile number (Percentilisszám) mezőbe pedig a 90-et.
A Felső helyettesítő érték mezőben válassza a Hiányzó érték lehetőséget.
Az Alsó küszöbérték beállításnál válassza a Percentile (Százalék) lehetőséget, a Percentile number (Százalékszám) beállításnál pedig a 10-et.
Az Alacsonyabb helyettesítő érték mezőben válassza a Hiányzó érték lehetőséget.
Törölje a Felülírás jelző kijelölését, majd válassza a Jelzőoszlop hozzáadása lehetőséget.
Most próbálja ki ugyanazt a kísérletet a 60-as felső és a 30-as értékkel az alsó percentilis küszöbértékével, és használja a küszöbértéket helyettesítő értékként. Az alábbi táblázat ezt a két eredményt hasonlítja össze:
Cserélje le a helyére a hiányzó helyére; Felső küszöbérték = 90; Alsó küszöbérték = 10
Cserélje le a helyére a küszöbértéket; Felső percentilis = 60; Alacsonyabb percentilis = 30
Eredeti adatok | Cserélje le a helyére a hiányzót | Csere küszöbértékre |
---|---|---|
1 2 3 4 5 6 7 8 9 10 |
IGAZ IGAZ 3, FALSE (HAMIS) 4, FALSE (HAMIS) 5, FALSE 6, FALSE 7, FALSE 8, FALSE 9, FALSE IGAZ |
4, TRUE 4, TRUE 4, TRUE 4, TRUE 5, FALSE 6, FALSE 7, TRUE 7, TRUE 7, TRUE 7, TRUE |
Technikai megjegyzések
A Clip Values csak számokat vagy dátum/idő értékeket tartalmazó oszlopokon használható.
Ha szöveges vagy kategorikus adatokat tartalmazó oszlopokat ad meg, a rendszer kihagyja az oszlopokat.
A hiányzó értékeket a rendszer figyelmen kívül hagyja, ha egy oszlop középértékét vagy mediánját számítja ki a rendszer.
A clip Values nem támogatja a sorszámadatokat.
A hiányzó értékek nem módosulnak, amikor propagálják őket a kimeneti adatkészletbe. A c mutatóértékeket jelző oszlop mindig FALSE értéket tartalmaz a hiányzó értékekhez.
Várt bemenetek
Név | Típus | Description |
---|---|---|
Adathalmaz | Adattábla | Bemeneti adatkészlet |
Modulparaméterek
Name | Tartomány | Típus | Alapértelmezett | Description |
---|---|---|---|---|
Jelzőoszlopok hozzáadása | IGAZ/HAMIS | Logikai | HAMIS | Meg van-e adhatja az érték kivágásának jelzőt |
Állandó érték az alsó küszöbértékhez | bármelyik | Float | -1 | Az az érték, amely alatt az alhálózatok c aknázva lesznek |
Állandó érték a felső küszöbértékhez | bármelyik | Float | 1 | Az az érték, amely felett a csúcsok c aknák lesznek |
Az alacsonyabb küszöbérték állandó értéke | bármelyik | Float | -1 | Az az érték, amely alatt az alhálózatok cárok |
A felső küszöbérték állandó értéke | >=1 | Float | 1 | Az az érték, amely felett a csúcsok ciklák |
Oszlopok listája | ColumnSelection (Oszlopválasztás) | A vágólapra kapcsos oszlopok listája | ||
Alacsonyabb helyettesítő érték | Küszöbérték Középérték Középérték Hiányzó |
SubstituteValues (Helyettesítő érték) | Küszöbérték | Az alhálózatok kivágáshoz használt érték |
Alsó küszöbérték | Állandó Percentilis |
Küszöbérték módja | Állandó | Az az érték, amely alatt az alhálózatok ciklák módban lesznek |
Felülírás jelzője | IGAZ/HAMIS | Logikai | IGAZ | Azt határozza meg, hogy az adatoszlop(nak) felül kell-e írnia a bemeneti adatoszlop(a)t |
Percentilisszám az alsó küszöbértékhez | [1;99] | Egész szám | 1 | Azon percentilisszám, amely alatt az alpeték c egész számként fognak esni |
Percentilisszám a felső küszöbértékhez | [1;99] | Egész szám | 99 | Azon percentilisszám, amely felett a csúcsok cágárok lesznek |
Az alsó küszöbérték percentilisének száma | [1;99] | Egész szám | 1 | Azon percentilisszám, amely alatt az alpeték cárok |
A felső küszöbérték percentilisének száma | [1;99] | Egész szám | 99 | Azon percentilisszám, amely felett a csúcsok cárok |
Küszöbértékek halmaza | ClipPeaks (ClipPeaks) ClipSubPeaks ClipPeaksAndSubPeaks |
Küszöbérték-készlet | ClipPeaks (ClipPeaks) | A használni következő küszöbérték típusát határozza meg: |
Csúcsértékek helyettesítése | Küszöbérték Középérték Középérték Hiányzó |
SubstituteValues (Helyettesítő érték) | Küszöbérték | A csúcsidőszakok kivágása során használt érték |
Az alpeték helyettesítő értéke | Küszöbérték Középérték Középérték Hiányzó |
SubstituteValues (Helyettesítő érték) | Küszöbérték | A kivágás alpekái során használt érték |
Küszöbérték | Állandó Percentilis |
Küszöbérték módja | Állandó | Az érték, amely felett és alatt a csúcsok ciklák módban lesznek |
Felső helyettesítési érték | Küszöbérték Középérték Középérték Hiányzó |
Küszöbérték | Küszöbérték | A csúcsok kivágására használt érték |
Felső küszöbérték | Állandó Percentilis |
Küszöbérték módja | Állandó | Az az érték, amely felett a csúcsok ciklák módban lesznek |
Kimenetek
Név | Típus | Description |
---|---|---|
Eredményadatkészlet | Adattábla | Oszlopokat tartalmazó adatkészlet |
Kivételek
Kivétel | Description |
---|---|
0011-es hiba | Kivétel akkor fordul elő, ha az átadott oszlopkészlet-argumentum nem vonatkozik egyik adathalmazoszlopra sem. |
0017-es hiba | Kivétel akkor fordul elő, ha egy vagy több megadott oszlop típusa az aktuális modul által nem támogatott. |
A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.
Az API-kivételek listáját a hibakódok Machine Learning REST API.