Manuális adatbevitel

Cikk
05/06/2019

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
További információ a Azure Machine Learning.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Lehetővé teszi kis adatkészletek bevitelét és szerkesztését értékek beírásával

Kategória: Adatátalakítás /-manipuláció

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható az Adatok manuális beírása modul a Machine Learning Studio (klasszikus) használatával egy kis méretű adatkészlet létrehozásához értékek beírásával. Az adatkészlet több oszlopot is tartalmazhat.

Ez a modul az alábbi forgatókönyvekben lehet hasznos:

Értékek kis készletének létrehozása teszteléshez
Rövid címkelista létrehozása
Értékek megadása matematikai műveletek alkalmazásában való használathoz
Helyettesítő értékek megadása a Különálló értékek cseréje mezőben való használathoz
Az adatkészletbe beszúrni szükséges oszlopnevek listájának begépelése

Az Adatbeírás manuális használata

Adja hozzá az Adatok manuális beírása modult a kísérlethez. Ezt a modult a (klasszikus) Machine Learning Adatbemenet és -kimenet kategóriában találja.
A DataFormat beállításnál válassza az alábbi lehetőségek egyikét. Ezek a beállítások határozzák meg, hogy a rendszer hogyan elemezi a rendelkezésre álló adatokat. Az egyes formátumok követelményei nagyban eltérnek, ezért olvassa el a kapcsolódó témaköröket.
- ARFF. A Weka által használt attribútum-relációs fájlformátum. További információ: Átalakítás ARFF-be.
- CSV. Vesszővel elválasztott értékformátum. További információ: Konvertálás CSV formátumba.
- SVMLight. A Vowpal Wabbit és más gépi tanulási keretrendszerek által használt formátum. További információ: Convert to SVMLight.
- TSV. Tabulátott értékek formátuma. További információ: Konvertálás TSV-ké.
Ha olyan formátumot választ, amely nem ad meg a formátumsértésnek megfelelő adatokat, futásidő-hiba történik.
Kattintson az Adatok szövegmezőbe az adatok bevitelének elkezdéséhez. Az alábbi formátumok külön figyelmet igényelnek:
- CSV: Több oszlop létrehozásához illesszen be vesszővel elválasztott szöveget, vagy írjon be több oszlopot vesszőkkel a mezők között.
  
  Ha a HasHeader lehetőséget választja, az értékek első sorát használhatja oszlopfejlécként.
  
  Ha nem választja ki ezt a beállítást, a col1, Col2 és így tovább oszlopok neve lesz használva. Az oszlopneveket később is hozzáadhatja vagy módosíthatja a Metaadatok szerkesztése segítségével.
- TSV: Több oszlop létrehozásához illesszen be tabulátorokkal elválasztott szöveget, vagy írjon be több oszlopot a mezők közötti tabulátorokkal.
  
  Ha a HasHeader lehetőséget választja, az értékek első sorát használhatja oszlopfejlécként.
  
  Ha nem választja ki ezt a beállítást, a col1, Col2 és így tovább oszlopok neve lesz használva. Az oszlopneveket később is hozzáadhatja vagy módosíthatja a Metaadatok szerkesztése segítségével.
- ARFF: Illesszen be egy meglévő ARFF formátumú fájlt. Ha közvetlenül gépel be értékeket, mindenképpen adja hozzá a választható fejlécet és a kötelező attribútummezőket az adatok elejéhez.
  
  Az alábbi fejléc- és attribútumsorok például hozzáadhatóak egy egyszerű listához. Az oszlopfejléc a következő lenne: SampleText.
```
% Title: SampleText.ARFF  
% Source: Enter Data module  
@ATTRIBUTE SampleText STRING  
@DATA  
\<type first data row here>  
```
- SVMLight: Az SVMLight formátum használatával írjon vagy illesszen be értékeket.
  
  Az alábbi minta például a vércukorszint-adatkészlet első néhány sorát jelöli SVMight formátumban:
```
# features are [Recency], [Frequency], [Monetary], [Time]  
1 1:2 2:50 3:12500 4:98   
1 1:0 2:13 3:3250 4:28   
```
  Az Adatok manuális beírása modul futtatásakor a rendszer ezeket a sorokat oszlopok és indexértékek adatkészleteként konvertálja a következőképpen:
  
  Col1 Col2 3. oszlop 4. oszlop Címkék
  
  0.00016 0.004 0.999961 0.00784 1
  
  0 0.004 0.999955 0.008615 1
Minden sor után nyomja le az ENTER billentyűt egy új sor kezdéshez.

Az utolsó sor után nyomja le az ENTER billentyűt.

Ha többször lenyomja az ENTER billentyűt több üres záró sor hozzáadásához, a rendszer eltávolítja az utolsó üres sort, de a többi üres sort hiányzó értékként kezeli.

Ha hiányzó értékeket tartalmazó sorokat hoz létre, később is kiszűrheti őket.
Kattintson a jobb gombbal a modulra, és válassza a Futtatás kiválasztva lehetőséget az adatok elemzési és betöltési adatkészletként való betöltéséhez a munkaterületre.

Az adatkészlet megtekintéséhez kattintson a kimeneti portra, és válassza a Vizualizáció lehetőséget.

Col1	Col2	3. oszlop	4. oszlop	Címkék
0.00016	0.004	0.999961	0.00784	1
0	0.004	0.999955	0.008615	1

Példák

A modul gépi tanulásban való használatára vonatkozó példákért lásd a Azure AI Gallery:

Adatminta letöltése: Adatokat kap az UCI Machine Learning adattárból, majd az Adatok manuális beírása funkcióval hoz létre oszlopneveket. Az R-mintakód is rendelkezésre áll, amellyel egyesítheti a beírt sorokat az adathalmazsal.

Technikai megjegyzések

Ez a szakasz az implementáció részleteit, tippeket és válaszokat tartalmazza a gyakori kérdésekre.

A mentett formátumtól függetlenül a rendszer implicit módon konvertálja a beírott adatokat a kísérletekben való használatra az adattábla (Data Table) formátumba. Az adatok azonban nem maradnak meg mentett adatkészletként, kivéve, ha explicit módon a Mentés adatkészletként lehetőséget választja .

Ha nem menti az Adatok manuális beírása adatkészletként adatokat, a munkamenet befejezésekor a rendszer eltávolítja azokat a munkaterület gyorsítótárból. Azonban újra futtathatja a kísérletet, hogy elérhetővé tegye az adatokat.
Ha a Manuális adatbeírásból származó adatokat egy másik adatkészlethez kombinálja, akkor a kombinált adatkészletnek nem lehet két azonos nevű oszlopa. Ha ismétlődő oszlopnevek vannak, a rendszer egy numerikus utótagot fűz az oszlophoz a jobb oldali adatkészletből, hogy egyedivé tegye az oszlopneveket.

Tegyük fel például, hogy az Adatok manuális beírása két példánya tartalmazza a TestData oszlopot, és az Oszlopok hozzáadása modullal egyesítheti őket. A Manuális adatbeírás bal oldali példányából származó oszlop TestData marad, a Manuális adatbeírás jobb oldali példányának oszlopa pedig TestData (2) lesz.

Lásd még

Adatbemenet és -kimenet
A–Z modullista

Share via