Számláló átalakítása

Cikk
05/06/2019

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
További információ a Azure Machine Learning.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Olyan átalakítást hoz létre, amely a táblák számát funkciókra váltja, így az átalakítás több adatkészletre is alkalmazható

Kategória: Tanulás számokkal

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a Machine Learning Studio (klasszikus) Build counting Transform (Buildszámozás átalakítása) modulja a betanítás adatainak elemzéséhez. Ezekből az adatokból a modul egy darabszámtáblát, valamint egy prediktív modellben használható számalapú jellemzőkészletet épít fel.

A count (darabszám) tábla az összes jellemzőoszlop együttes eloszlását tartalmazza egy adott címkeoszlop alapján. Az ilyen statisztikák hasznosak annak meghatározásához, hogy mely oszlopok a legtöbb információértékkel bírnak. A darabszámalapú jellemzősítés azért hasznos, mert ezek a jellemzők tömörebbek, mint az eredeti betanítási adatok, de a leghasznosabb információkat rögzítik. A modulparaméterekkel testre szabhatja, hogyan alakulnak át a darabszámok új számalapú funkciókké.

A darabszámok létrehozása és funkciókra való átalakítása után a folyamatot átalakíthatja a kapcsolódó adatokon való újrahasználathoz. A funkciók készletét új darabszámok létrehozása nélkül is módosíthatja, vagy egyesítheti a darabszámokat és szolgáltatásokat más darabszámokkal és funkciókkal.

A számalapú funkciók újrahasználata és újra alkalmazása az alábbi forgatókönyvekben hasznos:

Új adatok válnak elérhetővé az adatkészlet lefedettségének vagy egyensúlyának javításához.
Az eredeti darabszámok és funkciók egy nagyon nagy adatkészleten alapultak, és nem szeretné újra feldolgozni. A frissíthet új adatokkal frissítheti a darabszámokat.
Biztosítani szeretné, hogy a kísérletben használt összes adathalmazra ugyanaz a számalapú jellemzőkészlet vonatkozik.

Buildszámlálási átalakítás konfigurálása

Számalapú funkcióátalakítást közvetlenül egy adatkészletből hozhat létre, és minden kísérlet futtatásakor újra futtathatja. Vagy létrehozhat egy darabszámkészletet, majd egyesítheti azt új adatokkal egy frissített darabszámtábla létrehozásához.

Számalapú funkciók létrehozása adatkészletből

Kezdje itt, ha még nem hozott létre darabszámokat. A Számláló átalakítása modullal számláló táblákat hozhat létre, és automatikusan létrehozhat funkciókat.

Ez a folyamat létrehoz egy funkcióátalakítást, amely alkalmazható egy adatkészletre az Átalakítás alkalmazása modullal .
Darabszámok és funkciók egyesítése több adatkészletből

Ha már létrehozott egy darabszámtáblát egy korábbi adatkészletből, csak az új adatokra generál darabszámokat, vagy importál egy meglévő darabszámtáblát, amely a tábla egy korábbi verziójában Machine Learning. Ezután egyesítheti a két darabszámtáblát

Ez a folyamat egy új funkcióátalakítást hoz létre, amely alkalmazható egy adatkészletre az Átalakítás alkalmazása modullal .

Számalapú funkciók létrehozása adatkészletből

A Machine Learning Studióban (klasszikus) adja hozzá a Build Counting Transform (Buildszámlálási átalakítás) modult a kísérlethez. A modult a Data Transformation (Adatátalakítás) alatt, a Counts (Darabszámok) Tanulás kategóriában találja.
Csatlakozás a számalapú funkciók alapjául használni kívánt adatkészletet.
Az Osztályok száma beállítással adhatja meg a címkeoszlopban lévő értékek számát.
- Bináris besorolási problémához írja be a következőt: 2.
- Kétnél több lehetséges kimenettel való besorolási probléma esetén előre meg kell adnia a megszámolni kívánt osztályok pontos számát. Ha olyan számot ad meg, amely kevesebb, mint az osztályok tényleges száma, a modul hibát ad vissza.
- Ha az adatkészlet több osztályértéket tartalmaz, és az osztálycímke értékei nem szekvenciálisak, a Metaadatok szerkesztése beállítás használatával meg kell adnia, hogy az oszlop kategorikus értékeket tartalmaz.
A kivonatolási függvény bitei beállításnál adja meg, hogy hány bitet kell használni az értékek kivonatolásakor.

Általában biztonságosan elfogadhatja az alapértelmezett értékeket, kivéve, ha tudja, hogy sok értéket kell megszámolnia, és nagyobb bitszámra lehet szükség.
A kivonatolási függvény kezdőértékeként megadhatja a kivonatolási függvény kezdőértékét is. A magok manuális beállítása általában akkor történik, ha biztosítani szeretné, hogy a kivonatolási eredmények determinisztikusak ugyanazon kísérlet futtatásai között.
A Modul típusa lehetőséggel jelezheti a megszámolni kívánt adatok típusát a tárolási mód alapján:
- Adatkészlet: Akkor válassza ezt a lehetőséget, ha a klasszikus Machine Learning adatkészletként mentett adatokat számolja.
- Blob: Akkor válassza ezt a lehetőséget, ha a buildszámok felépítéséhez használt forrásadatok blokkblobként vannak tárolva az Azure Windows tárolóban.
- MapReduce: Válassza ezt a lehetőséget, ha map/reduce függvényeket szeretne hívni az adatok feldolgozásához.
  
  Ennek a lehetőségnek a használata esetén az új adatokat blobként kell biztosítani Windows Azure Storage-ban, és hozzáféréssel kell rendelkezik egy üzembe helyezett HDInsight-fürthöz. A kísérlet futtatásakor a rendszer elindít egy Leképezés/csökkentés feladatot a fürtben a számlálás végrehajtásához.
  
  Nagyon nagy adatkészletek esetén javasoljuk, hogy ezt a lehetőséget használja, amikor csak lehetséges. Bár a HDInsight szolgáltatás használata további költségekkel is jár, a nagy adatkészletek számítása gyorsabb lehet a HDInsightban.
  
  További információ: https://azure.microsoft.com/services/hdinsight/.
Az adattárolási mód megadása után adja meg a szükséges adatokhoz szükséges további kapcsolati adatokat:
- Ha Hadoopból vagy blobtárolóból származó adatokat használ, adja meg a fürt helyét és hitelesítő adatait.
- Ha korábban egy Adatok importálása modult használt a kísérletben az adatok eléréséhez, akkor újra meg kell adnia a fióknevet és a hitelesítő adatokat. A Build Counting Transform modul külön fér hozzá az adattárhoz, hogy beolvassa az adatokat, és felépítse a szükséges táblákat.
A Címke oszlop vagy index mezőben válasszon ki egy oszlopot címkeoszlopként.

Feliratoszlopra van szükség. Az oszlopot már meg kell jelölni címkeként, különben hiba történik.
Használja a Megszámolni kívánt oszlopok kijelölése lehetőséget, majd válassza ki azokat az oszlopokat, amelyekhez a darabszámokat létre kell hozni.

Általánosságban elmondható, hogy a legjobb jelöltek a magas dimenziós oszlopok, az oszlopokkal korrelált többi oszloppal együtt.
A Count tábla típusa beállítással adhatja meg a count tábla tárolásához használt formátumot.
- Szótár: Szótárszámtáblát hoz létre. A rendszer a kiválasztott oszlopokban lévő összes oszlopértéket sztringként kezeli, és egy legfeljebb 31 bites bittömb használatával kivonatot hoz létre. Ezért minden oszlopértéket nem negatív 32 bites egész szám képvisel.
  
  Ezt a beállítást általában kisebb (1 GB-nál kisebb) adatkészletek esetén érdemes használni, nagyobb adatkészletek esetén pedig a CMSketch lehetőséget.
  
  A beállítás kiválasztása után konfigurálja a kivonatolási függvény által használt bitek számát, és állítson be egy kezdőbetűt a kivonatolási függvény inicializálására.
- CMSketch: Minimális vázlattáblát hoz létre. Ezzel a beállítással több független kivonatfüggetlen, kisebb tartományú függvényt használnak a memória hatékonyságának javításához és a kivonatütközések esélyének csökkentéséhez. A kivonatolás bitméretének és a kivonatolási magok paramétereinek nincs hatása erre a beállításra.
Futtassa a kísérletet.

A modul létrehoz egy featurizációs átalakítást , amely az Átalakítás alkalmazása modul bemeneteként használható . Az Átalakítás alkalmazása modul kimenete egy modell betanítására használható átalakított adatkészlet.

Ha egyesíteni szeretné a számalapú funkciókat egy másik számalapú funkciókészletekkel, mentheti az átalakítást. További információ: Merge Count Transform.

Darabszámok és funkciók egyesítése több adatkészletből

A Machine Learning Studióban (klasszikus) adja hozzá a Build Counting Transform (Buildszámlálási átalakítás) modult a kísérlethez, és kösse össze a hozzáadni kívánt adatokat tartalmazó adatkészletet.
A Modul típusa lehetőséggel jelezheti az új adatok forrását. Különböző forrásokból származó adatokat egyesíthet.
- Adatkészlet: Válassza ezt a lehetőséget, ha az új adatok adatkészletként vannak megtéve a Machine Learning Studio (klasszikus) szolgáltatásban.
- Blob: Válassza ezt a lehetőséget, ha az új adatok blokkblobként biztosítanak az Azure Windows tárolóban.
- MapReduce: Válassza ezt a lehetőséget, ha map/reduce függvényeket szeretne hívni az adatok feldolgozásához.
  
  Ennek a lehetőségnek a használata esetén az új adatokat blobként kell biztosítani Windows Azure Storage-ban, és hozzáféréssel kell rendelkezik egy üzembe helyezett HDInsight-fürthöz. A kísérlet futtatásakor a rendszer elindít egy Leképezés/csökkentés feladatot a fürtben a számlálás végrehajtásához.
  
  További információ: https://azure.microsoft.com/services/hdinsight/
Az adattárolási mód megadása után adja meg az új adatok további kapcsolati adatait:
- Ha Hadoopból vagy blobtárolóból származó adatokat használ, adja meg a fürt helyét és hitelesítő adatait.
- Ha korábban egy Adatok importálása modult használt a kísérletben az adatok eléréséhez, akkor újra meg kell adnia a fióknevet és a hitelesítő adatokat. Ennek az az oka, hogy a Build Counting Transform modul külön fér hozzá az adattárhoz, hogy beolvassa az adatokat, és felépítse a szükséges táblákat.
A darabszámok egyesítésekor a következő beállításoknak pontosan meg kell egyednek lennie mindkét darabszám táblában:
- Osztályok száma
- A kivonatfedő függvény bitei
- A kivonatfedő függvény kezdő magja
- Megszámolni kívánt oszlopok kiválasztása
A címkeoszlop eltérő lehet, ha azonos számú osztályt tartalmaz.
A Count table type (Táblatípus száma ) lehetőséggel adhatja meg a frissített darabszámtábla formátumát és célját.

Tipp

Az egyesíteni kívánt két darabszámtáblának azonos formátumúnak kell lennie. Más szóval, ha egy korábbi darabszámtáblát a Szótár formátum használatával mentett, nem egyesítheti a CMSketch formátumban mentett darabszámokkal .
Futtassa a kísérletet.

A modul létrehoz egy featurizálási átalakítást , amely az Átalakítás alkalmazása modul bemeneteként használható . Az Átalakítás alkalmazása modul kimenete egy átalakított adatkészlet, amely egy modell betanítására használható.
A darabszám-alapú szolgáltatások meglévő készletének egyesítését lásd: Egyesítési szám átalakítása.

Példák

Ezekben a cikkekben további információt talál a darabszám-algoritmusról és a számalapú modellezés hatékonyságáról a többi módszerhez képest.

A következő kísérletek a Azure AI Gallery bemutatják , hogyan használhatók a számalapú tanulás különböző prediktív modellek felépítésére:

Modulparaméterek

Az alábbi paraméterek használhatók az összes beállítással:

Név	Típus	Tartomány	Választható	Alapértelmezett	Description
Osztályok száma	Egész szám	>=2	Kötelező	2	A címke osztályszáma.
A kivonatfedő függvény bitei	Egész szám	[12;31]	Kötelező	20	A kivonatfedő függvény tartományának bitszáma.
A kivonatfedő függvény kezdő magja	Egész szám	bármelyik	Kötelező	1	A kivonatfedő függvény magja.
Modul típusa			Kötelező	Adathalmaz	A count tábla létrehozásához használt modul típusa.
Táblatípus darabszáma	CountTableType	select from list (kijelölés listából)	Kötelező	Szótár	Adja meg a count tábla formátumát.

A blob lehetőség kiválasztásakor az alábbi beállítások érvényesek .

Név	Típus	Tartomány	Választható	Alapértelmezett	Description
A blob neve	Sztring	bármelyik	Kötelező		A bemeneti blob neve. Ne foglalja bele a tároló nevét.
Fióknév	Sztring	bármelyik	Kötelező		A tárfiók neve.
Fiókkulcs	SecureString	bármelyik	Kötelező		A tárfiók kulcsa.
Tárolónév	Sztring	bármelyik	Kötelező		A bemeneti blobot tartalmazó Azure Blob-tároló.
Oszlopok száma	Sztring	bármelyik	Kötelező		A számlálás végrehajtásához szükséges oszlopcsoportok egyalapú indexe.
Feliratoszlop	Egész szám	>=1	Kötelező	1	A címkeoszlop egyalapú indexe.
Blob formátuma		bármelyik	Kötelező	CSV	A blob szövegfájlformátuma.

A következő paraméterek érvényesek, ha a MapReduce használatával hoz létre darabszámokat:

Név	Típus	Tartomány	Választható	Alapértelmezett	Description
Alapértelmezett tárfióknév	Sztring	bármelyik	Kötelező	Nincs	A bemeneti blobot tartalmazó tárfiók neve.
Alapértelmezett tárfiókkulcs	SecureString	bármelyik	Kötelező	Nincs	A bemeneti blobot tartalmazó tárfiók kulcsa.
Alapértelmezett tárolónév	Sztring	bármelyik	Kötelező	Nincs	A count tábla megírásához használt blobtároló neve.
Fürt URI-ja	Sztring	bármelyik	Kötelező	Nincs	A HDInsight Hadoop-fürt URI-ját.
Felhasználónév	Sztring	bármelyik	Kötelező	Nincs	A HDInsight Hadoop-fürtbe való bejelentkezéshez használt felhasználónév.

A count tábla formátumát az alábbi paraméterek határozzák meg:

Név	Típus	Tartomány	Választható	Alapértelmezett	Description
Táblatípus darabszáma	CountTableType	Lista	Kötelező	Szótár	A count tábla típusa.
Címkeoszlop indexe vagy neve	ColumnSelection (Oszlopválasztás)		Kötelező, ha a tábla darabszáma adatkészletként van mentve	Nincs	Válassza ki a címkeoszlopot.
Megszámolni kívánt oszlopok kiválasztása	ColumnSelection (Oszlopválasztás)		Kötelező, ha a tábla darabszáma adatkészletként van mentve		Oszlopok kijelölése a megszámláláshoz. Ezeket az oszlopokat kategorikus jellemzőknek tekintjük.
A CM-vázlattábla mélysége	Egész szám	>=1	Kötelező, ha a count tábla CMSketch formátumot használ	4	A CM-vázlattábla mélysége, amely megegyezik a kivonatfűvelet-függvények számmal.
CM-vázlattábla szélessége	Egész szám	[1;31]	Kötelező, ha a count tábla CMSketch formátumot használ	20	A CM-vázlattábla szélessége, amely a kivonatfúvás-tartomány bitszáma.
Címkeoszlop indexe vagy névoszlopa	ColumnSelection (Oszlopválasztás)		Kötelező, ha a tábla darabszáma adatkészletként van mentve		Kiválasztja a címkeoszlopot.
Megszámolni kívánt oszlopok kiválasztása	ColumnSelection (Oszlopválasztás)		Kötelező, ha a tábla darabszáma adatkészletként van mentve		Oszlopokat jelöl ki a megszámláláshoz. Ezeket az oszlopokat kategorikus jellemzőknek tekintjük.
Táblatípus darabszáma			Kötelező, ha a tábla darabszáma adatkészletként van mentve	Szótár	A count tábla típusát határozza meg.
A CM-vázlattábla mélysége	Egész szám	>=1	Kötelező, ha a count tábla CMSketch-ként van mentve	4	A CM-vázlat táblamélység, amely megegyezik a kivonatfűvelet-függvények számmal.
CM-vázlattábla szélessége	Egész szám	[1;31]	Kötelező, ha a count tábla CMSketch-ként van mentve	20	A CM-vázlattábla szélessége, amely a kivonat funkció tartományának bitszáma.

Kimenetek

Név	Típus	Description
Számlálási átalakítás	ITransform interfész	A számláló átalakítása.

Kivételek

Kivétel	Description
0003-as hiba	Kivétel akkor fordul elő, ha egy vagy több bemenet null vagy üres.
0004-es hiba	Kivétel akkor fordul elő, ha a paraméter kisebb vagy egyenlő egy adott értékkel.
0005-ös hiba	Kivétel akkor fordul elő, ha a paraméter kisebb egy adott értéknél.
0007-es hiba	Kivétel akkor fordul elő, ha a paraméter nagyobb, mint egy adott érték.
0009-es hiba	Kivétel történik, ha az Azure Storage-fiók neve vagy a tároló neve helytelenül van megadva.
0065-ös hiba	Kivétel történik, ha az Azure-blob neve helytelenül van megadva.
0011-es hiba	Kivétel akkor fordul elő, ha az átadott oszlopkészlet-argumentum nem vonatkozik egyik adathalmazoszlopra sem.
0049-es hiba	Kivétel akkor fordul elő, ha nem lehet egy fájlt elemezni.
1000-es hiba	Belső kódtár-kivétel.
0059-es hiba	Kivétel akkor fordul elő, ha egy oszlopválasztóban megadott oszlopindex nem elemezhető.
0060-as hiba	Kivétel akkor fordul elő, ha egy oszlopválasztóban tartományon kívüli oszloptartomány van megadva.
0089-es hiba	Kivétel akkor fordul elő, ha a megadott számú osztály kisebb, mint a megszámláláshoz használt adatkészletben található osztályok tényleges száma.

A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.

Az API-kivételek listáját a hibakódok Machine Learning REST API.

Lásd még

Tanulás a Counts (Darabszámok) számlálással

Share via