Bagikan melalui


Memuat data pelatihan ke Dalam Pembuat Model

Pelajari cara memuat himpunan data pelatihan Anda dari file atau database SQL Server untuk digunakan dalam salah satu skenario Pembuat Model untuk ML.NET. Skenario Pembuat Model dapat menggunakan database SQL Server, file gambar, dan format file CSV atau TSV sebagai data pelatihan.

Model Builder hanya menerima file TSV, CSV, dan TXT dengan pemisah koma, tab, dan titik koma serta gambar PNG dan JPG.

Skenario Pembuat Model

Model Builder membantu Anda membuat model untuk skenario pembelajaran mesin berikut:

  • Klasifikasi data (klasifikasi biner & multikelas): Mengklasifikasikan data teks ke dalam dua kategori atau lebih.
  • Prediksi nilai (regresi): Prediksi nilai numerik.
  • Klasifikasi gambar (pembelajaran mendalam): Mengklasifikasikan gambar ke dalam dua kategori atau lebih.
  • Rekomendasi (rekomendasi): Menghasilkan daftar item yang disarankan untuk pengguna tertentu.
  • Deteksi objek (pembelajaran mendalam): Mendeteksi dan mengidentifikasi objek dalam gambar. Ini dapat menemukan satu atau beberapa objek dan memberi label yang sesuai.

Artikel ini membahas klasifikasi dan regresi dengan data tekstual atau numerik, klasifikasi gambar, dan skenario deteksi objek.

Memuat teks atau data numerik dari file

Anda dapat memuat teks atau data numerik dari file ke Dalam Model Builder. Ini menerima format file yang dibatasi koma (CSV) atau dibatasi tab (TSV).

  1. Di langkah data Pembuat Model, pilih File sebagai jenis sumber data.

  2. Pilih tombol Telusuri di samping kotak teks, dan gunakan File Explorer untuk menelusuri dan memilih file data.

  3. Pilih kategori di menu dropdown Kolom untuk memprediksi (Label).

    Catatan

    Skenario klasifikasi data (Opsional): Jika jenis data kolom label Anda (nilai di menu dropdown "Kolom untuk memprediksi (Label)") diatur ke Boolean (Benar/Salah), algoritma klasifikasi biner digunakan dalam alur pelatihan model Anda. Jika tidak, pelatih klasifikasi multikelas digunakan. Gunakan opsi Data tingkat lanjut untuk memodifikasi jenis data untuk kolom label Anda dan menginformasikan Model Builder jenis pelatih mana yang harus digunakan untuk data Anda.

  4. Perbarui data di tautan Opsi data tingkat lanjut untuk mengatur pengaturan kolom atau untuk memperbarui pemformatan data.

Anda sudah selesai menyiapkan file sumber data untuk Model Builder. Klik tombol Langkah berikutnya untuk berpindah ke langkah berikutnya di Pembuat Model.

Memuat data dari database SQL Server

Model Builder mendukung pemuatan data dari database SQL Server lokal dan jarak jauh.

File database lokal

Untuk memuat data dari file database SQL Server ke Dalam Pembuat Model:

  1. Dalam langkah data Model Builder, pilih SQL Server sebagai jenis sumber data.

  2. Pilih tombol Pilih sumber data.

    1. Dalam dialog Pilih Sumber Data, pilih File Database Microsoft SQL Server.
    2. Kosongkan kotak centang Selalu gunakan pilihan ini dan pilih Lanjutkan
    3. Dalam dialog Properti Koneksi ion, pilih Telusuri dan pilih yang diunduh . File MDF.
    4. Pilih OK
  3. Pilih nama himpunan data dari menu dropdown Nama Tabel.

  4. Dari menu dropdown Kolom untuk memprediksi (Label), pilih kategori data tempat Anda ingin membuat prediksi.

    Catatan

    Skenario klasifikasi data (Opsional): Jika jenis data kolom label Anda (nilai di menu dropdown "Kolom untuk memprediksi (Label)") diatur ke Boolean (Benar/Salah), algoritma klasifikasi biner digunakan dalam alur pelatihan model Anda. Jika tidak, pelatih klasifikasi multikelas digunakan. Gunakan opsi Data tingkat lanjut untuk memodifikasi jenis data untuk kolom label Anda dan menginformasikan Model Builder jenis pelatih mana yang harus digunakan untuk data Anda.

  5. Perbarui data di tautan Opsi data tingkat lanjut untuk mengatur pengaturan kolom atau untuk memperbarui pemformatan data.

Database jarak jauh

Untuk memuat data dari koneksi database SQL Server ke Dalam Pembuat Model:

  1. Dalam langkah data Model Builder, pilih SQL Server sebagai jenis sumber data.

  2. Pilih tombol Pilih sumber data.

    1. Dalam dialog Pilih Sumber Data, pilih Microsoft SQL Server.
  3. Dalam dialog Properti Koneksi ion, masukkan properti database Microsoft SQL Anda.

    1. Berikan nama server yang memiliki tabel yang ingin Anda sambungkan.
    2. Siapkan autentikasi ke server. Jika Autentikasi SQL Server dipilih, masukkan nama pengguna dan kata sandi server.
    3. Pilih database apa yang akan disambungkan di menu dropdown Pilih atau masukkan nama database. Ini harus diisi secara otomatis jika nama server dan informasi masuk sudah benar.
    4. Pilih OK
  4. Pilih nama himpunan data dari menu dropdown Nama Tabel.

  5. Dari menu dropdown Kolom untuk memprediksi (Label), pilih kategori data tempat Anda ingin membuat prediksi.

    Catatan

    Skenario klasifikasi data (Opsional): Jika jenis data kolom label Anda (nilai di menu dropdown "Kolom untuk memprediksi (Label)") diatur ke Boolean (Benar/Salah), algoritma klasifikasi biner digunakan dalam alur pelatihan model Anda. Jika tidak, pelatih klasifikasi multikelas digunakan. Gunakan opsi Data tingkat lanjut untuk memodifikasi jenis data untuk kolom label Anda dan menginformasikan Model Builder jenis pelatih mana yang harus digunakan untuk data Anda.

  6. Perbarui data di tautan Opsi data tingkat lanjut untuk mengatur pengaturan kolom atau untuk memperbarui pemformatan data.

Anda sudah selesai menyiapkan file sumber data untuk Model Builder. Klik tautan tombol Langkah berikutnya untuk berpindah ke langkah berikutnya di Pembuat Model.

Menyiapkan file data klasifikasi gambar

Model Builder mengharapkan data klasifikasi gambar menjadi file JPG atau PNG yang diatur dalam folder yang sesuai dengan kategori klasifikasi.

Untuk memuat gambar ke Dalam Model Builder, berikan jalur ke satu direktori tingkat atas:

  • Direktori tingkat atas ini berisi satu subfolder untuk setiap kategori yang akan diprediksi.
  • Setiap subfolder berisi file gambar milik kategorinya.

Dalam struktur folder yang diilustrasikan di bawah ini, direktori tingkat atas flower_photos. Ada lima subdirektori yang sesuai dengan kategori yang ingin Anda prediksi: daisy, dandelion, mawar, bunga matahari, dan tulip. Masing-masing subdirektori ini berisi gambar yang termasuk dalam kategorinya masing-masing.

\---flower_photos
    +---daisy
    |       100080576_f52e8ee070_n.jpg
    |       102841525_bd6628ae3c.jpg
    |       105806915_a9c13e2106_n.jpg
    |
    +---dandelion
    |       10443973_aeb97513fc_m.jpg
    |       10683189_bd6e371b97.jpg
    |       10919961_0af657c4e8.jpg
    |
    +---roses
    |       102501987_3cdb8e5394_n.jpg
    |       110472418_87b6a3aa98_m.jpg
    |       118974357_0faa23cce9_n.jpg
    |
    +---sunflowers
    |       127192624_afa3d9cb84.jpg
    |       145303599_2627e23815_n.jpg
    |       147804446_ef9244c8ce_m.jpg
    |
    \---tulips
            100930342_92e8746431_n.jpg
            107693873_86021ac4ea_n.jpg
            10791227_7168491604.jpg

Menyiapkan file data gambar deteksi objek

Model Builder mengharapkan data gambar deteksi objek berada dalam format JSON yang dihasilkan dari VoTT. File JSON terletak di folder vott-json-export di Lokasi Target yang ditentukan dalam pengaturan proyek.

File JSON terdiri dari informasi berikut yang dihasilkan dari VoTT:

  • Semua tag yang dibuat
  • Lokasi file gambar
  • Informasi kotak pembatas gambar
  • Tag yang terkait dengan gambar

Untuk informasi selengkapnya tentang menyiapkan data untuk deteksi objek, lihat Membuat data deteksi objek dari VoTT.

Langkah berikutnya

Ikuti tutorial ini untuk membangun aplikasi pembelajaran mesin dengan Model Builder:

Jika Anda melatih model menggunakan kode, pelajari cara memuat data menggunakan API ML.NET.