Azure Machine Tanulás-adatkészlet létrehozása és felfedezése címkékkel
Ebben a cikkben megtudhatja, hogyan exportálhatja az adatfeliratokat egy Azure Machine-Tanulás adatcímkézési projektből, és hogyan töltheti be őket népszerű formátumokba, például egy pandas adatkeretbe adatfeltáráshoz.
Mik azok a címkékkel rendelkező adathalmazok?
Az Azure Machine Tanulás címkékkel rendelkező adatkészleteket címkézett adathalmazoknak nevezzük. Ezek az adathalmazok tabularDatasets, dedikált címkeoszlopmal, és csak az Azure Machine Tanulás adatcímkézési projektek kimeneteként jönnek létre. Adatfeliratozási projekt létrehozása képfeliratozáshoz vagy szövegfeliratozáshoz. A gépi Tanulás támogatja a képosztályozási adatcímkézési projekteket, akár többcímkét, akár többosztályost, valamint az objektumazonosítást a határolókeretekkel együtt.
Előfeltételek
- Azure-előfizetés. Ha nem rendelkezik Azure-előfizetéssel, mindössze néhány perc alatt létrehozhat egy ingyenes fiókot a virtuális gép létrehozásának megkezdése előtt.
- Az Azure Machine Tanulás SDK for Python, vagy hozzáférés az Azure Machine Tanulás Studióhoz.
- Gépi Tanulás munkaterület. Lásd: Munkaterület-erőforrások létrehozása.
- Hozzáférés egy Azure Machine-Tanulás adatcímkézési projekthez. Ha nem rendelkezik címkézési projektel, először hozzon létre egyet képfeliratozáshoz vagy szövegfeliratozáshoz.
Adatfeliratok exportálása
Az adatfeliratozási projekt befejezésekor exportálhatja a címkeadatokat egy címkézési projektből. Így rögzítheti az adatokra és a címkékre mutató hivatkozást, és COCO formátumban vagy Azure Machine-Tanulás adatkészletként exportálhatja őket.
Használja az Exportálás gombot a címkézési projekt Projekt részletei lapján.
COCO
A COCO-fájl az Azure Machine Tanulás-munkaterület alapértelmezett blobtárolójában jön létre egy exportálási/coco-mappában.
Feljegyzés
Objektumészlelési projektekben a COCO-fájlban az exportált "bbox": [x,y,szélesség,magasság]" értékek normalizálódnak. 1-re vannak skálázva. Példa: a (10, 10) helyen lévő határolókeret 30 képpont szélességű, 60 képpontos magasságú, 640x480 képpontos képen a következőként lesz eljegyezve: (0.015625. 0.02083, 0.046875, 0.125). Mivel a koordinták normalizálva vannak, "0,0" értékként jelenik meg az összes kép "szélessége" és "magassága". A tényleges szélesség és magasság a Python-kódtárak, például az OpenCV vagy a Pillow (PIL) használatával kérhető le.
Azure Machine Tanulás adatkészlet
Az exportált Azure Machine Tanulás adatkészletet az Azure Machine Tanulás studio Adatkészletek szakaszában érheti el. Az adathalmaz részletei oldal mintakódot is biztosít a címkék Pythonból való eléréséhez.
Tipp.
Miután exportálta a címkézett adatokat egy Azure Machine-Tanulás-adatkészletbe, az AutoML használatával számítógépes látásmodelleket hozhat létre a címkézett adatokra betanított számítógépes látási modellek létrehozásához. További információ: Az AutoML beállítása a számítógépes látásmodellek Pythonnal való betanítása érdekében
Címkékkel ellátott adathalmazok felfedezése pandas-adatkereten keresztül
Töltse be a címkézett adathalmazokat egy pandas-adatkeretbe, hogy népszerű nyílt forráskódú kódtárakat használjon az adatfeltáráshoz az to_pandas_dataframe()
azureml-dataprep
osztály metódusával.
Telepítse az osztályt a következő rendszerhéj-paranccsal:
pip install azureml-dataprep
Az alábbi kódban az animal_labels
adathalmaz egy korábban a munkaterületre mentett címkézési projekt kimenete.
Az exportált adatkészlet egy TabularDataset.
ÉRVÉNYES:Python SDK azureml v1
import azureml.core
from azureml.core import Dataset, Workspace
# get animal_labels dataset from the workspace
animal_labels = Dataset.get_by_name(workspace, 'animal_labels')
animal_pd = animal_labels.to_pandas_dataframe()
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
#read images from dataset
img = mpimg.imread(animal_pd['image_url'].iloc(0).open())
imgplot = plt.imshow(img)