Átalakítás adathalmazzá

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Átalakítja az adatbevitelt a Microsoft Machine Learning

Kategória: Adatformátum-átalakítások

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk bemutatja, hogyan konvertálhatja a kísérlethez szükséges adatokat a Machine Learning Studio (klasszikus) Convert to Dataset (Adatkészlet átalakítása) modulja segítségével a Studio (klasszikus) által használt belső formátumra.

A legtöbb esetben nincs szükség átalakításra, mivel a Machine Learning implicit módon átalakítja az adatokat natív adatkészlet-formátumba, amikor bármilyen műveletet hajt végre az adatokon.

Ha azonban valamilyen normalizálást vagy tisztítást végzett egy adathalmazon, akkor ajánlott az adathalmazba menteni az adatokat, és biztosítani szeretné, hogy a módosításokat a további kísérletek is használják.

Megjegyzés

Az Adatkészletre konvertálás csak az adatok formátumát módosítja, és nem menti az adatok új másolatát a munkaterületen. Az adatkészlet mentéséhez kattintson duplán a kimeneti portra, válassza a Mentés adatkészletként lehetőséget, és írjon be egy új nevet.

A Convert to Dataset használata

Javasoljuk, hogy a Metaadatok szerkesztése modullal készítse elő az adatkészletet, mielőtt az Adatkészletre konvertálást használta volna. Hozzáadhat vagy módosíthat oszlopneveket, módosíthatja az adattípusokat stb.

  1. Adja hozzá a kísérlethez a Convert to Dataset ( Átalakítás adatkészletké) modult. Ezt a modult a (klasszikus) Machine Learning Data Format Conversions (Adatformátum-konverziók) kategóriában találja.

  2. Csatlakozás egy adatkészletet kiküldő modulhoz.

    Ha az adatok táblázatosak, átalakíthatja adatkészletekké. Ez magában foglalja az Adatok importálása használatával betöltött adatokat, a Manuális adatbetöltés használatával létrehozott adatokat, az egyéni modulokban kód által létrehozott adatokat, az Átalakítás alkalmazása használatával átalakított adatkészleteket, vagy az Apply SQL Transformation (Átalakítás alkalmazása) használatával létrehozott vagy módosított adatkészleteket.

  3. A Művelet legördülő listában adja meg, hogy szeretne-e tisztítást tenni az adatokon az adatkészlet mentése előtt:

    • Nincs: Használja az adatokat a megfelelő adatokat.

    • SetMissingValue: Adjon meg egy helyőrzőt, amely az adatkészletbe lesz beszúrva, amikor hiányzik egy érték. Az alapértelmezett helyőrző a kérdőjel karakter (?), de az Egyéni hiányzó érték lehetőséggel másik értéket is begépelhet.

    • ReplaceValues: Ezzel a beállítással egyetlen pontos értéket ad meg, amely a többi pontos értékre lesz lecserélve. Feltéve például, obs hogy az adatok a hiányzó értékek helyőrzőjeként használt sztringet tartalmaznak, megadhat egy egyéni helyettesítő műveletet az alábbi beállításokkal:

      1. A Csere beállításaegyénire

      2. Az Egyéni érték mezőbe írja be a keresni kívánt értéket. Ebben az esetben a következőt kell begépelni: obs.

      3. Az Új érték mezőbe írja be az új értéket, amelyre az eredeti sztringet lecseréli. Ebben az esetben begépelhet ?

    Vegye figyelembe, hogy a ReplaceValues művelet csak a pontos egyezésekre vonatkozik. Ezek a sztringek például nem lesznek hatással a következőre: obs., obsolete.

    • SparseOutput: Azt jelzi, hogy az adatkészlet ritka. Egy ritka adatvektor létrehozásával biztosíthatja, hogy a hiányzó értékek ne befolyásolják a ritka adateloszlást. A beállítás kiválasztása után meg kell jeleznie, hogyan kell kezelni a hiányzó és a nulla értékeket.

    A nullától más érték eltávolításához kattintson az Eltávolítás lehetőségre, és írjon be egyetlen eltávolítható értéket. Eltávolíthatja a hiányzó értékeket, vagy egyéni értéket állíthat be a vektorból való törléshez. A rendszer csak a pontos egyezéseket távolítja el. Ha például begépeli xaz Érték eltávolítása szövegmezőt, xx a sorra ez nem lesz hatással.

    Alapértelmezés szerint a NullaTrueeltávolítása beállítás értéke , ami azt jelenti, hogy a ritka oszlop létrehozásakor minden nulla érték el lesz távolítva.

  4. Futtassa a kísérletet, vagy kattintson a jobb gombbal a Convert to Dataset ( Konvertálás adatkészletre) modulra, és válassza a Run selected (Futtatás kiválasztva) lehetőséget.

Results (Eredmények)

  • Az eredményül kapott adatkészlet új néven való mentéséhez kattintson a jobb gombbal a Convert to Dataset (Konvertálás adatkészletgé) parancs kimenetére, és válassza a Save as Dataset (Mentés adatkészletként) lehetőséget.

Példák

Példákat láthat arra, hogy a rendszer hogyan használja a Convert to Dataset (Átalakítás adatkészletké) modult a Azure AI Gallery:

  • CRM-minta: Beolvassa a megosztott adatkészletet, és menti az adatkészlet másolatát a helyi munkaterületen.

  • Flight Delay (Repülőjárat késése) példa: Egy megtisztított adatkészletet ment hiányzó értékek lecserélve, hogy a későbbi kísérletekhez használni tudja.

Technikai megjegyzések

Ez a szakasz az implementáció részleteit, tippeket és válaszokat tartalmazza a gyakori kérdésekre.

  • Minden olyan modul, amely bemenetként egy adatkészletet vesz fel, CSV-, TSV- vagy ARFF-formátumban is képes adatokat használni. A modulkód végrehajtása előtt a rendszer végrehajtja a bemenetek előfeldolgozását, ami egyenértékű a Convert to Dataset (Adatkészlet konvertálása) modul bemeneten való futtatásával.

  • Az SVMLight formátumból nem konvertálható adatkészletre.

  • Egyéni csereművelet megadásakor a keresési és csere művelet a teljes értékekre vonatkozik; részleges egyezések nem engedélyezettek. Lecserélhet például egy 3-as számot -1-re vagy 33-ra, de nem cserélhet le egy 3-as számot egy kétjegyű számban, például a 35-öt.

  • Egyéni csereműveletek esetén a csere csendesen sikertelen lesz, ha olyan karaktert használ helyettesítő karakterként, amely nem felel meg az oszlop aktuális adattípusának.

  • Ha ritka numerikus adatokat használó adatokat kell mentenie, amelyekből hiányoznak értékek, a Studio (klasszikus) belsőleg támogatja a ritka tömbök sparseVector használatával való használatát, amely az Math.NET numerikus kódtár osztálya. Készítse elő a nullákat használó és hiányzó értékeket használó adatokat, majd használja a Convert to Dataset függvényt a SparseOutput és a Remove Zeros = TRUE argumentumokkal.

Várt bemenetek

Név Típus Description
Adathalmaz Adattábla Bemeneti adatkészlet

Modulparaméterek

Name Tartomány Típus Alapértelmezett Leírás
Művelet Lista Művelet metódusa None A bemeneti adatkészletre alkalmazandó művelet

Kimenet

Név Típus Description
Eredményadatkészlet Adattábla Kimeneti adatkészlet

Lásd még

Adatformátum-átalakítások
A–Z modullista