Share via


Számláló átalakítása

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Olyan átalakítást hoz létre, amely a táblák számát funkciókra váltja, így az átalakítás több adatkészletre is alkalmazható

Kategória: Tanulás számokkal

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a Machine Learning Studio (klasszikus) Build counting Transform (Buildszámozás átalakítása) modulja a betanítás adatainak elemzéséhez. Ezekből az adatokból a modul egy darabszámtáblát, valamint egy prediktív modellben használható számalapú jellemzőkészletet épít fel.

A count (darabszám) tábla az összes jellemzőoszlop együttes eloszlását tartalmazza egy adott címkeoszlop alapján. Az ilyen statisztikák hasznosak annak meghatározásához, hogy mely oszlopok a legtöbb információértékkel bírnak. A darabszámalapú jellemzősítés azért hasznos, mert ezek a jellemzők tömörebbek, mint az eredeti betanítási adatok, de a leghasznosabb információkat rögzítik. A modulparaméterekkel testre szabhatja, hogyan alakulnak át a darabszámok új számalapú funkciókké.

A darabszámok létrehozása és funkciókra való átalakítása után a folyamatot átalakíthatja a kapcsolódó adatokon való újrahasználathoz. A funkciók készletét új darabszámok létrehozása nélkül is módosíthatja, vagy egyesítheti a darabszámokat és szolgáltatásokat más darabszámokkal és funkciókkal.

A számalapú funkciók újrahasználata és újra alkalmazása az alábbi forgatókönyvekben hasznos:

  • Új adatok válnak elérhetővé az adatkészlet lefedettségének vagy egyensúlyának javításához.
  • Az eredeti darabszámok és funkciók egy nagyon nagy adatkészleten alapultak, és nem szeretné újra feldolgozni. A frissíthet új adatokkal frissítheti a darabszámokat.
  • Biztosítani szeretné, hogy a kísérletben használt összes adathalmazra ugyanaz a számalapú jellemzőkészlet vonatkozik.

Buildszámlálási átalakítás konfigurálása

Számalapú funkcióátalakítást közvetlenül egy adatkészletből hozhat létre, és minden kísérlet futtatásakor újra futtathatja. Vagy létrehozhat egy darabszámkészletet, majd egyesítheti azt új adatokkal egy frissített darabszámtábla létrehozásához.

Számalapú funkciók létrehozása adatkészletből

  1. A Machine Learning Studióban (klasszikus) adja hozzá a Build Counting Transform (Buildszámlálási átalakítás) modult a kísérlethez. A modult a Data Transformation (Adatátalakítás) alatt, a Counts (Darabszámok) Tanulás kategóriában találja.

  2. Csatlakozás a számalapú funkciók alapjául használni kívánt adatkészletet.

  3. Az Osztályok száma beállítással adhatja meg a címkeoszlopban lévő értékek számát.

    • Bináris besorolási problémához írja be a következőt: 2.
    • Kétnél több lehetséges kimenettel való besorolási probléma esetén előre meg kell adnia a megszámolni kívánt osztályok pontos számát. Ha olyan számot ad meg, amely kevesebb, mint az osztályok tényleges száma, a modul hibát ad vissza.
    • Ha az adatkészlet több osztályértéket tartalmaz, és az osztálycímke értékei nem szekvenciálisak, a Metaadatok szerkesztése beállítás használatával meg kell adnia, hogy az oszlop kategorikus értékeket tartalmaz.
  4. A kivonatolási függvény bitei beállításnál adja meg, hogy hány bitet kell használni az értékek kivonatolásakor.

    Általában biztonságosan elfogadhatja az alapértelmezett értékeket, kivéve, ha tudja, hogy sok értéket kell megszámolnia, és nagyobb bitszámra lehet szükség.

  5. A kivonatolási függvény kezdőértékeként megadhatja a kivonatolási függvény kezdőértékét is. A magok manuális beállítása általában akkor történik, ha biztosítani szeretné, hogy a kivonatolási eredmények determinisztikusak ugyanazon kísérlet futtatásai között.

  6. A Modul típusa lehetőséggel jelezheti a megszámolni kívánt adatok típusát a tárolási mód alapján:

    • Adatkészlet: Akkor válassza ezt a lehetőséget, ha a klasszikus Machine Learning adatkészletként mentett adatokat számolja.

    • Blob: Akkor válassza ezt a lehetőséget, ha a buildszámok felépítéséhez használt forrásadatok blokkblobként vannak tárolva az Azure Windows tárolóban.

    • MapReduce: Válassza ezt a lehetőséget, ha map/reduce függvényeket szeretne hívni az adatok feldolgozásához.

      Ennek a lehetőségnek a használata esetén az új adatokat blobként kell biztosítani Windows Azure Storage-ban, és hozzáféréssel kell rendelkezik egy üzembe helyezett HDInsight-fürthöz. A kísérlet futtatásakor a rendszer elindít egy Leképezés/csökkentés feladatot a fürtben a számlálás végrehajtásához.

      Nagyon nagy adatkészletek esetén javasoljuk, hogy ezt a lehetőséget használja, amikor csak lehetséges. Bár a HDInsight szolgáltatás használata további költségekkel is jár, a nagy adatkészletek számítása gyorsabb lehet a HDInsightban.

      További információ: https://azure.microsoft.com/services/hdinsight/.

  7. Az adattárolási mód megadása után adja meg a szükséges adatokhoz szükséges további kapcsolati adatokat:

    • Ha Hadoopból vagy blobtárolóból származó adatokat használ, adja meg a fürt helyét és hitelesítő adatait.
    • Ha korábban egy Adatok importálása modult használt a kísérletben az adatok eléréséhez, akkor újra meg kell adnia a fióknevet és a hitelesítő adatokat. A Build Counting Transform modul külön fér hozzá az adattárhoz, hogy beolvassa az adatokat, és felépítse a szükséges táblákat.
  8. A Címke oszlop vagy index mezőben válasszon ki egy oszlopot címkeoszlopként.

    Feliratoszlopra van szükség. Az oszlopot már meg kell jelölni címkeként, különben hiba történik.

  9. Használja a Megszámolni kívánt oszlopok kijelölése lehetőséget, majd válassza ki azokat az oszlopokat, amelyekhez a darabszámokat létre kell hozni.

    Általánosságban elmondható, hogy a legjobb jelöltek a magas dimenziós oszlopok, az oszlopokkal korrelált többi oszloppal együtt.

  10. A Count tábla típusa beállítással adhatja meg a count tábla tárolásához használt formátumot.

    • Szótár: Szótárszámtáblát hoz létre. A rendszer a kiválasztott oszlopokban lévő összes oszlopértéket sztringként kezeli, és egy legfeljebb 31 bites bittömb használatával kivonatot hoz létre. Ezért minden oszlopértéket nem negatív 32 bites egész szám képvisel.

      Ezt a beállítást általában kisebb (1 GB-nál kisebb) adatkészletek esetén érdemes használni, nagyobb adatkészletek esetén pedig a CMSketch lehetőséget.

      A beállítás kiválasztása után konfigurálja a kivonatolási függvény által használt bitek számát, és állítson be egy kezdőbetűt a kivonatolási függvény inicializálására.

    • CMSketch: Minimális vázlattáblát hoz létre. Ezzel a beállítással több független kivonatfüggetlen, kisebb tartományú függvényt használnak a memória hatékonyságának javításához és a kivonatütközések esélyének csökkentéséhez. A kivonatolás bitméretének és a kivonatolási magok paramétereinek nincs hatása erre a beállításra.

  11. Futtassa a kísérletet.

    A modul létrehoz egy featurizációs átalakítást , amely az Átalakítás alkalmazása modul bemeneteként használható . Az Átalakítás alkalmazása modul kimenete egy modell betanítására használható átalakított adatkészlet.

    Ha egyesíteni szeretné a számalapú funkciókat egy másik számalapú funkciókészletekkel, mentheti az átalakítást. További információ: Merge Count Transform.

Darabszámok és funkciók egyesítése több adatkészletből

  1. A Machine Learning Studióban (klasszikus) adja hozzá a Build Counting Transform (Buildszámlálási átalakítás) modult a kísérlethez, és kösse össze a hozzáadni kívánt adatokat tartalmazó adatkészletet.

  2. A Modul típusa lehetőséggel jelezheti az új adatok forrását. Különböző forrásokból származó adatokat egyesíthet.

    • Adatkészlet: Válassza ezt a lehetőséget, ha az új adatok adatkészletként vannak megtéve a Machine Learning Studio (klasszikus) szolgáltatásban.

    • Blob: Válassza ezt a lehetőséget, ha az új adatok blokkblobként biztosítanak az Azure Windows tárolóban.

    • MapReduce: Válassza ezt a lehetőséget, ha map/reduce függvényeket szeretne hívni az adatok feldolgozásához.

      Ennek a lehetőségnek a használata esetén az új adatokat blobként kell biztosítani Windows Azure Storage-ban, és hozzáféréssel kell rendelkezik egy üzembe helyezett HDInsight-fürthöz. A kísérlet futtatásakor a rendszer elindít egy Leképezés/csökkentés feladatot a fürtben a számlálás végrehajtásához.

      További információ: https://azure.microsoft.com/services/hdinsight/

  3. Az adattárolási mód megadása után adja meg az új adatok további kapcsolati adatait:

    • Ha Hadoopból vagy blobtárolóból származó adatokat használ, adja meg a fürt helyét és hitelesítő adatait.

    • Ha korábban egy Adatok importálása modult használt a kísérletben az adatok eléréséhez, akkor újra meg kell adnia a fióknevet és a hitelesítő adatokat. Ennek az az oka, hogy a Build Counting Transform modul külön fér hozzá az adattárhoz, hogy beolvassa az adatokat, és felépítse a szükséges táblákat.

  4. A darabszámok egyesítésekor a következő beállításoknak pontosan meg kell egyednek lennie mindkét darabszám táblában:

    • Osztályok száma
    • A kivonatfedő függvény bitei
    • A kivonatfedő függvény kezdő magja
    • Megszámolni kívánt oszlopok kiválasztása

    A címkeoszlop eltérő lehet, ha azonos számú osztályt tartalmaz.

  5. A Count table type (Táblatípus száma ) lehetőséggel adhatja meg a frissített darabszámtábla formátumát és célját.

    Tipp

    Az egyesíteni kívánt két darabszámtáblának azonos formátumúnak kell lennie. Más szóval, ha egy korábbi darabszámtáblát a Szótár formátum használatával mentett, nem egyesítheti a CMSketch formátumban mentett darabszámokkal .

  6. Futtassa a kísérletet.

    A modul létrehoz egy featurizálási átalakítást , amely az Átalakítás alkalmazása modul bemeneteként használható . Az Átalakítás alkalmazása modul kimenete egy átalakított adatkészlet, amely egy modell betanítására használható.

  7. A darabszám-alapú szolgáltatások meglévő készletének egyesítését lásd: Egyesítési szám átalakítása.

Példák

Ezekben a cikkekben további információt talál a darabszám-algoritmusról és a számalapú modellezés hatékonyságáról a többi módszerhez képest.

A következő kísérletek a Azure AI Gallery bemutatják , hogyan használhatók a számalapú tanulás különböző prediktív modellek felépítésére:

Modulparaméterek

Az alábbi paraméterek használhatók az összes beállítással:

Név Típus Tartomány Választható Alapértelmezett Description
Osztályok száma Egész szám >=2 Kötelező 2 A címke osztályszáma.
A kivonatfedő függvény bitei Egész szám [12;31] Kötelező 20 A kivonatfedő függvény tartományának bitszáma.
A kivonatfedő függvény kezdő magja Egész szám bármelyik Kötelező 1 A kivonatfedő függvény magja.
Modul típusa Kötelező Adathalmaz A count tábla létrehozásához használt modul típusa.
Táblatípus darabszáma CountTableType select from list (kijelölés listából) Kötelező Szótár Adja meg a count tábla formátumát.

A blob lehetőség kiválasztásakor az alábbi beállítások érvényesek .

Név Típus Tartomány Választható Alapértelmezett Description
A blob neve Sztring bármelyik Kötelező A bemeneti blob neve. Ne foglalja bele a tároló nevét.
Fióknév Sztring bármelyik Kötelező A tárfiók neve.
Fiókkulcs SecureString bármelyik Kötelező A tárfiók kulcsa.
Tárolónév Sztring bármelyik Kötelező A bemeneti blobot tartalmazó Azure Blob-tároló.
Oszlopok száma Sztring bármelyik Kötelező A számlálás végrehajtásához szükséges oszlopcsoportok egyalapú indexe.
Feliratoszlop Egész szám >=1 Kötelező 1 A címkeoszlop egyalapú indexe.
Blob formátuma bármelyik Kötelező CSV A blob szövegfájlformátuma.

A következő paraméterek érvényesek, ha a MapReduce használatával hoz létre darabszámokat:

Név Típus Tartomány Választható Alapértelmezett Description
Alapértelmezett tárfióknév Sztring bármelyik Kötelező Nincs A bemeneti blobot tartalmazó tárfiók neve.
Alapértelmezett tárfiókkulcs SecureString bármelyik Kötelező Nincs A bemeneti blobot tartalmazó tárfiók kulcsa.
Alapértelmezett tárolónév Sztring bármelyik Kötelező Nincs A count tábla megírásához használt blobtároló neve.
Fürt URI-ja Sztring bármelyik Kötelező Nincs A HDInsight Hadoop-fürt URI-ját.
Felhasználónév Sztring bármelyik Kötelező Nincs A HDInsight Hadoop-fürtbe való bejelentkezéshez használt felhasználónév.

A count tábla formátumát az alábbi paraméterek határozzák meg:

Név Típus Tartomány Választható Alapértelmezett Description
Táblatípus darabszáma CountTableType Lista Kötelező Szótár A count tábla típusa.
Címkeoszlop indexe vagy neve ColumnSelection (Oszlopválasztás) Kötelező, ha a tábla darabszáma adatkészletként van mentve Nincs Válassza ki a címkeoszlopot.
Megszámolni kívánt oszlopok kiválasztása ColumnSelection (Oszlopválasztás) Kötelező, ha a tábla darabszáma adatkészletként van mentve Oszlopok kijelölése a megszámláláshoz. Ezeket az oszlopokat kategorikus jellemzőknek tekintjük.
A CM-vázlattábla mélysége Egész szám >=1 Kötelező, ha a count tábla CMSketch formátumot használ 4 A CM-vázlattábla mélysége, amely megegyezik a kivonatfűvelet-függvények számmal.
CM-vázlattábla szélessége Egész szám [1;31] Kötelező, ha a count tábla CMSketch formátumot használ 20 A CM-vázlattábla szélessége, amely a kivonatfúvás-tartomány bitszáma.
Címkeoszlop indexe vagy névoszlopa ColumnSelection (Oszlopválasztás) Kötelező, ha a tábla darabszáma adatkészletként van mentve Kiválasztja a címkeoszlopot.
Megszámolni kívánt oszlopok kiválasztása ColumnSelection (Oszlopválasztás) Kötelező, ha a tábla darabszáma adatkészletként van mentve Oszlopokat jelöl ki a megszámláláshoz. Ezeket az oszlopokat kategorikus jellemzőknek tekintjük.
Táblatípus darabszáma Kötelező, ha a tábla darabszáma adatkészletként van mentve Szótár A count tábla típusát határozza meg.
A CM-vázlattábla mélysége Egész szám >=1 Kötelező, ha a count tábla CMSketch-ként van mentve 4 A CM-vázlat táblamélység, amely megegyezik a kivonatfűvelet-függvények számmal.
CM-vázlattábla szélessége Egész szám [1;31] Kötelező, ha a count tábla CMSketch-ként van mentve 20 A CM-vázlattábla szélessége, amely a kivonat funkció tartományának bitszáma.

Kimenetek

Név Típus Description
Számlálási átalakítás ITransform interfész A számláló átalakítása.

Kivételek

Kivétel Description
0003-as hiba Kivétel akkor fordul elő, ha egy vagy több bemenet null vagy üres.
0004-es hiba Kivétel akkor fordul elő, ha a paraméter kisebb vagy egyenlő egy adott értékkel.
0005-ös hiba Kivétel akkor fordul elő, ha a paraméter kisebb egy adott értéknél.
0007-es hiba Kivétel akkor fordul elő, ha a paraméter nagyobb, mint egy adott érték.
0009-es hiba Kivétel történik, ha az Azure Storage-fiók neve vagy a tároló neve helytelenül van megadva.
0065-ös hiba Kivétel történik, ha az Azure-blob neve helytelenül van megadva.
0011-es hiba Kivétel akkor fordul elő, ha az átadott oszlopkészlet-argumentum nem vonatkozik egyik adathalmazoszlopra sem.
0049-es hiba Kivétel akkor fordul elő, ha nem lehet egy fájlt elemezni.
1000-es hiba Belső kódtár-kivétel.
0059-es hiba Kivétel akkor fordul elő, ha egy oszlopválasztóban megadott oszlopindex nem elemezhető.
0060-as hiba Kivétel akkor fordul elő, ha egy oszlopválasztóban tartományon kívüli oszloptartomány van megadva.
0089-es hiba Kivétel akkor fordul elő, ha a megadott számú osztály kisebb, mint a megszámláláshoz használt adatkészletben található osztályok tényleges száma.

A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.

Az API-kivételek listáját a hibakódok Machine Learning REST API.

Lásd még

Tanulás a Counts (Darabszámok) számlálással