Share via


Azure Machine Tanulás-adatkészlet létrehozása és felfedezése címkékkel

Ebben a cikkben megtudhatja, hogyan exportálhatja az adatfeliratokat egy Azure Machine-Tanulás adatcímkézési projektből, és hogyan töltheti be őket népszerű formátumokba, például egy pandas adatkeretbe adatfeltáráshoz.

Mik azok a címkékkel rendelkező adathalmazok?

Az Azure Machine Tanulás címkékkel rendelkező adatkészleteket címkézett adathalmazoknak nevezzük. Ezek az adathalmazok tabularDatasets, dedikált címkeoszlopmal, és csak az Azure Machine Tanulás adatcímkézési projektek kimeneteként jönnek létre. Adatfeliratozási projekt létrehozása képfeliratozáshoz vagy szövegfeliratozáshoz. A gépi Tanulás támogatja a képosztályozási adatcímkézési projekteket, akár többcímkét, akár többosztályost, valamint az objektumazonosítást a határolókeretekkel együtt.

Előfeltételek

  • Azure-előfizetés. Ha nem rendelkezik Azure-előfizetéssel, mindössze néhány perc alatt létrehozhat egy ingyenes fiókot a virtuális gép létrehozásának megkezdése előtt.
  • Az Azure Machine Tanulás SDK for Python, vagy hozzáférés az Azure Machine Tanulás Studióhoz.
  • Gépi Tanulás munkaterület. Lásd: Munkaterület-erőforrások létrehozása.
  • Hozzáférés egy Azure Machine-Tanulás adatcímkézési projekthez. Ha nem rendelkezik címkézési projektel, először hozzon létre egyet képfeliratozáshoz vagy szövegfeliratozáshoz.

Adatfeliratok exportálása

Az adatfeliratozási projekt befejezésekor exportálhatja a címkeadatokat egy címkézési projektből. Így rögzítheti az adatokra és a címkékre mutató hivatkozást, és COCO formátumban vagy Azure Machine-Tanulás adatkészletként exportálhatja őket.

Használja az Exportálás gombot a címkézési projekt Projekt részletei lapján.

Export button in studio UI

COCO

A COCO-fájl az Azure Machine Tanulás-munkaterület alapértelmezett blobtárolójában jön létre egy exportálási/coco-mappában.

Feljegyzés

Objektumészlelési projektekben a COCO-fájlban az exportált "bbox": [x,y,szélesség,magasság]" értékek normalizálódnak. 1-re vannak skálázva. Példa: a (10, 10) helyen lévő határolókeret 30 képpont szélességű, 60 képpontos magasságú, 640x480 képpontos képen a következőként lesz eljegyezve: (0.015625. 0.02083, 0.046875, 0.125). Mivel a koordinták normalizálva vannak, "0,0" értékként jelenik meg az összes kép "szélessége" és "magassága". A tényleges szélesség és magasság a Python-kódtárak, például az OpenCV vagy a Pillow (PIL) használatával kérhető le.

Azure Machine Tanulás adatkészlet

Az exportált Azure Machine Tanulás adatkészletet az Azure Machine Tanulás studio Adatkészletek szakaszában érheti el. Az adathalmaz részletei oldal mintakódot is biztosít a címkék Pythonból való eléréséhez.

Exported dataset

Tipp.

Miután exportálta a címkézett adatokat egy Azure Machine-Tanulás-adatkészletbe, az AutoML használatával számítógépes látásmodelleket hozhat létre a címkézett adatokra betanított számítógépes látási modellek létrehozásához. További információ: Az AutoML beállítása a számítógépes látásmodellek Pythonnal való betanítása érdekében

Címkékkel ellátott adathalmazok felfedezése pandas-adatkereten keresztül

Töltse be a címkézett adathalmazokat egy pandas-adatkeretbe, hogy népszerű nyílt forráskódú kódtárakat használjon az adatfeltáráshoz az to_pandas_dataframe()azureml-dataprep osztály metódusával.

Telepítse az osztályt a következő rendszerhéj-paranccsal:

pip install azureml-dataprep

Az alábbi kódban az animal_labels adathalmaz egy korábban a munkaterületre mentett címkézési projekt kimenete. Az exportált adatkészlet egy TabularDataset.

ÉRVÉNYES:Python SDK azureml v1

import azureml.core
from azureml.core import Dataset, Workspace

# get animal_labels dataset from the workspace
animal_labels = Dataset.get_by_name(workspace, 'animal_labels')
animal_pd = animal_labels.to_pandas_dataframe()

import matplotlib.pyplot as plt
import matplotlib.image as mpimg

#read images from dataset
img = mpimg.imread(animal_pd['image_url'].iloc(0).open())
imgplot = plt.imshow(img)

Következő lépések