Buat dan jelajahi set data Azure Machine Learning dengan label

Dalam artikel ini, Anda akan mempelajari cara mengekspor label data dari proyek pelabelan data Azure Machine Learning dan memuatnya ke dalam format populer seperti, dataframe pandas untuk eksplorasi data.

Apa itu himpunan data dengan label

Himpunan data Azure Machine Learning dengan label disebut himpunan data berlabel. Himpunan data khusus ini merupakan TabularDatasets dengan kolom label khusus dan hanya dibuat sebagai output dari proyek pelabelan data Azure Machine Learning. Membuat proyek pelabelan data untuk pelabelan gambar atau pelabelan teks. Azure Machine Learning mendukung proyek pelabelan data untuk klasifikasi gambar, baik multi-label atau multi-kelas, dan identifikasi objek bersama dengan kotak berbatas.

Prasyarat

Ekspor label data

Saat menyelesaikan proyek pelabelan data, Anda dapat mengekspor data label dari proyek pelabelan. Melakukannya, memungkinkan Anda untuk menangkap referensi ke data dan labelnya, dan mengekspornya dalam format COCO atau sebagai himpunan data Azure Machine Learning.

Gunakan tombol Ekspor pada halaman Detail proyek pelabelan Anda.

Export button in studio UI

COCO

File COCO dibuat di penyimpanan blob default ruang kerja Azure Machine Learning dalam folder dalam ekspor/coco.

Catatan

Dalam proyek deteksi objek, nilai "bbox": [x,y,width,height]" yang diekspor dalam file COCO dinormalisasi. Mereka diskalakan ke 1. Contoh : kotak pembatas di lokasi (10, 10), dengan lebar 30 piksel , tinggi 60 piksel, dalam gambar 640x480 piksel akan diberi keterangan sebagai (0,015625. 0,02083, 0,046875, 0,125). Karena koordinat dinormalisasi, itu akan ditampilkan sebagai '0,0' sebagai "lebar" dan "tinggi" untuk semua gambar. Lebar dan tinggi sebenarnya dapat diperoleh dengan menggunakan pustaka Python seperti OpenCV atau Pillow(PIL).

Himpunan data Azure Machine Learning

Anda dapat mengakses himpunan data Azure Machine Learning yang diekspor di bagian Himpunan data di studio Azure Machine Learning Anda. Halaman Detail himpunan data juga menyediakan kode contoh untuk mengakses label Anda dari Python.

Exported dataset

Tip

Setelah mengekspor data berlabel ke himpunan data Azure Machine Learning, Anda dapat menggunakan AutoML untuk membangun model visi komputer yang terlatih pada data berlabel Anda. Pelajari selengkapnya di Menyiapkan AutoML untuk melatih model visi komputer dengan Python

Menjelajahi himpunan data berlabel melalui dataframe pandas

Muat kumpulan data berlabel Anda ke dalam dataframe pandas untuk memanfaatkan pustaka sumber terbuka populer untuk eksplorasi data dengan metode to_pandas_dataframe() dari kelas azureml-dataprep.

Pasang kelas dengan perintah shell berikut:

pip install azureml-dataprep

Dalam kode berikut, himpunan data animal_labels adalah keluaran dari proyek pelabelan yang sebelumnya disimpan ke ruang kerja. Himpunan data yang diekspor adalah TabularDataset.

BERLAKU UNTUK:SDK Python azureml v1

import azureml.core
from azureml.core import Dataset, Workspace

# get animal_labels dataset from the workspace
animal_labels = Dataset.get_by_name(workspace, 'animal_labels')
animal_pd = animal_labels.to_pandas_dataframe()

import matplotlib.pyplot as plt
import matplotlib.image as mpimg

#read images from dataset
img = mpimg.imread(animal_pd['image_url'].iloc(0).open())
imgplot = plt.imshow(img)

Langkah berikutnya