Adatok felosztása ajánló felosztásával

Cikk
05/06/2019

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
További információ a Azure Machine Learning.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Ez a cikk bemutatja, hogyan használhatja az Ajánló felosztása lehetőséget a Machine Learning Studio (klasszikus) Adatok felosztása moduljában. Ez a lehetőség akkor hasznos, ha betanító és tesztelési adatkészleteket kell előkészítenie egy javaslatmodellel való használatra. Ezeknek a modelleknek nem csupán egy adott formátumra van szükségük, de az értékelések, a felhasználók és az elemek kiegyensúlyozott, speciális eszközök nélküli felosztása is bonyolult lehet.

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

Az Ajánló felosztása lehetőség megkönnyíti ezt a folyamatot, mert rá kell kérdeznie a javaslatmodell típusára, például elemeket javasol, értékelést javasol, vagy kapcsolódó felhasználókat keres? Ezután elosztja az adatkészletet a megadott feltételekkel, például a hideg felhasználók vagy a nem hideg elemek kezelésével.

Az adatkészletek felosztásakor a modul két adatkészletet ad vissza, amelyek közül az egyiket betanítani, a másikat pedig teszteléshez vagy modellértékeléshez. Ha a bemeneti adatkészlet példányonként további adatokat (például minősítéseket) tartalmaz, a kimenet megőrzi azokat.

A gépi tanulási kísérletek adat particionálásának általános információiért lásd:

Az Adatok felosztása modul további lehetőségei az adatok felosztásának különböző módjait támogatják:

Adatok felosztása reguláris kifejezésekkel: Reguláris kifejezés alkalmazása egyetlen szöveges oszlopra, és az adatkészlet felosztása az eredmények alapján
Ajánló-adatkészletek felosztása: Adatkészletek felosztása t+ Adatok felosztása relatív kifejezésekkel: Kifejezés alkalmazása numerikus adatokra.
Felosztás az adatkészlet százalékában

Javaslatmodell által használt adatkészlet felosztása

Az Ajánló felosztása lehetőség kifejezetten az ajánlási rendszerek betanítása érdekében használt adatokhoz használható.

A beállítás használata előtt győződjön meg arról, hogy az adatok kompatibilis formátumban adatokat tartalmaznak. Az ajánló felosztó abból a feltételezésből kiindulva működik, hogy az adatkészlet csak felhasználó-elem párból vagy felhasználóelem-minősítési tripla értékből áll. Részletekért tekintse meg a bemeneti adatokra vonatkozó követelményeket ebben a cikkben.

Adja hozzá az Adatok felosztása modult a kísérlethez, és csatlakoztassa bemenetként a felosztani kívánt adatkészlethez.
Felosztási módként válassza az Ajánló felosztása lehetőséget.
A következő beállításokkal szabályozhatja az értékek oszlikát. Adja meg a százalékos értéket 0 és 1 közötti számként.
- Csak betanításon áteső felhasználók törtrésze: Itt adhatja meg, hogy a felhasználók mely hányadát kell csak a betanítás adathalmazhoz rendelni. Ez azt jelenti, hogy a sorok soha nem használhatók a modell tesztelésére.
- Tesztfelhasználói értékelések törtrésze a betanítás során: Megadhatja, hogy az összegyűjtött felhasználói értékelések egy része felhasználható legyen a betanításhoz.
- A hideg felhasználók töredéke: A hideg felhasználók azok a felhasználók, akiket a rendszer korábban még nem tapasztalt. Általában azért, mert a rendszer nem rendelkezik információkkal ezekről a felhasználókról, értékesek a betanításhoz, de az előrejelzések kevésbé pontosak lehetnek.
- A hideg elemek törtrésze: A hideg elemek olyan elemek, amelyekben a rendszer korábban még nem találkozott. Mivel a rendszer nem rendelkezik információkkal ezekről az elemekről, értékesek a betanításhoz, de az előrejelzések kevésbé pontosak.
- Figyelmen kívül hagyott felhasználók törtrésze: Ez a beállítás lehetővé teszi, hogy az ajánló figyelmen kívül hagyja a felhasználókat, ami lehetővé teszi a modell betanítését az adatok egy részkészletére. Ez teljesítménybeli okokból lehet hasznos. Megadhatja a figyelmen kívül hagyható felhasználók százalékos arányát.
- Figyelmen kívül hagyott elemek törtrésze: Az ajánló felosztó figyelmen kívül tud hagyni bizonyos elemeket, és betaníthatja a modellt az adatok egy részkészletére. Ez teljesítménybeli okokból lehet hasznos. Megadhatja a figyelmen kívül hagyható elemek százalékos arányát.
Alkalmanként előállított hideg elemek eltávolítása: Ez a beállítás általában nullára van állítva, hogy a tesztelési készletben lévő összes entitás szerepel-e a betanításkészletben.

Az elem akkor "alkalmanként hidegnek" van kiállítva, ha csak a tesztkészlet fedi le, és nem kifejezetten hidegként választották. Ezek az elemek az Ajánló adatainak felosztása című szakaszban leírt algoritmus (4) és (6) lépései alapján generálhatóak .
Véletlenszerű kezdőérték az ajánlóhoz: Adjon meg egy kezdőértéket, ha minden alkalommal ugyanúgy szeretné felosztani az adatokat. Ellenkező esetben a rendszer alapértelmezés szerint véletlenszerűen osztja fel a bemeneti adatokat, és egy rendszeróra értéket használ kezdőértékként.
Futtassa a kísérletet.

Példák

A betanítási vagy tesztelési modell betanításához vagy teszteléshez használt minősítések és funkciók felosztására vonatkozó példákért javasoljuk, hogy tekintse át a mintakísérlethez biztosított bemutatót a Azure AI Gallery: Filmajátszmában

Technikai megjegyzések

Ez a szakasz az implementáció részleteit, tippeket és válaszokat tartalmazza a gyakori kérdésekre.

A bemeneti adatokra vonatkozó követelmények

Az ajánló felosztó abból a feltételezésből kiindulva működik, hogy az adatkészlet csak felhasználó-elem párból vagy felhasználóelem-minősítési tripla értékből áll. Ezért az Adatok felosztása modul nem működik háromnál több oszlopot tartalmazó adatkészletekkel, hogy elkerülje a funkciótípus-adatokkal való félreértéseket.

Ha az adatkészlet túl sok oszlopot tartalmaz, a következő hibaüzenet jelenhet meg:

0022-es hiba: A bemeneti adatkészlet kiválasztott oszlopainak száma nem egyenlő x-szel

Áthidaló megoldásként használhatja a Select Columns in Dataset (Adatkészlet oszlopainak kijelölése) lehetőséget egyes oszlopok eltávolításához. Az oszlopokat később is hozzáadhatja az Oszlopok hozzáadása modullal .

Ha az adatkészlet számos olyan jellemzővel rendelkezik, amelyek a modellben használni kívántak, ossza el az adatkészletet egy másik lehetőséggel, és a Modell betanítása használatával, és ne a Matchbox Ajánló betanítása használatával betanítsa a modellt.

A támogatott adatformátumokkal kapcsolatos részletes információkért lásd: Matchbox Recommender betanítása.

Használati tippek

Hiba történik, ha az adathalmaz nem tartalmaz legalább két sort.
Ha százalékos értékként ad meg számot, vagy ha a "%" karaktert tartalmazó sztringet használ, a rendszer százalékos értékként értelmezi az értéket.

Minden százalékos értéknek a tartományon belül kell lennie (0, 100), a 0 és a 100 értékeket nem beleértve.
Ha olyan számot vagy százalékot ad meg, amely egynél kisebb lebegőpontos szám, és nem használja a százalékjelet (%), a rendszer arányos értékként értelmezi a számot.

Megvalósítás részletei

A következő algoritmust használja az adatok betanítás és tesztelési készletekre való felosztása során, amelyek a javaslatmodellel használhatók:

A figyelmen kívül hagyott elemek kért része az összes kapcsolódó megfigyeléssel együtt el lesz távolítva.
A hideg elemek kért része az összes kapcsolódó megfigyeléssel együtt átkerül a tesztkészletbe.
Az első két lépés után maradó figyelmen kívül hagyott felhasználók kért része az összes kapcsolódó megfigyeléssel együtt el lesz távolítva.
Az első két lépés után maradó, hideg felhasználók kért hányadát az összes kapcsolódó megfigyeléssel együtt áthelyezi a tesztkészletbe.
Az első két lépés után maradó, csak betanítás alatt álló felhasználók kért része átkerül a betanítás készletbe az összes kapcsolódó megfigyeléssel együtt.
Minden olyan felhasználó esetében, aki az előző lépések után marad, a betanításhoz szükséges tesztfelhasználói minősítések kért része átkerül a betanítás-készletbe, a maradékot pedig a tesztelési készletbe.

Legalább egy megfigyelés mindig átkerül az egyes felhasználók betanításkészleteibe.
Ha a rendszer kéri, az alkalmanként előállított hideg elemekhez társított példányok eltávolíthatók a tesztelési készletből.

Az elem akkor "alkalmanként hidegnek" van kiállítva, ha csak a tesztkészlet fedi le, és nem kifejezetten hidegként lett kiválasztva. Ezek az elemek a (4) és a (6) lépésekkel is elő tudnak készülni.

Ennek a lehetőségnek a várható használata az, hogy a kért számú hideg felhasználó és elem nullára van állítva. Ez biztosítja, hogy a tesztelési készlet összes entitása szerepel a betanításkészletben.

Lásd még

Split DataPartition és Split