Komponen Impor Data

Artikel ini menjelaskan komponen dalam perancang Azure Machine Learning.

Gunakan komponen ini untuk memuat data ke dalam alur pembelajaran mesin dari layanan data cloud yang ada.

Catatan

Semua fungsionalitas yang disediakan oleh komponen ini dapat dilakukan oleh penyimpanan data dan himpunan data di halaman arahan ruang kerja. Kami sarankan Anda menggunakan datastore dan himpunan data yang mencakup fitur tambahan seperti pemantauan data. Untuk mempelajari selengkapnya, lihat artikel Cara Mengakses Data dan Cara Mendaftarkan Himpunan Data. Setelah Anda mendaftarkan himpunan data, Anda dapat menemukannya di kategori Himpunan Data>Himpunan Data Saya di antarmuka desainer. Komponen ini dicadangkan untuk pengguna Studio(klasik) untuk pengalaman yang familier.

Komponen Impor Data mendukung membaca data dari sumber berikut:

  • URL melalui HTTP
  • Penyimpanan cloud Azure melalui Datastore)
    • Kontainer Blob Azure
    • Azure File Share
    • Azure Data Lake
    • Azure Data Lake Gen2
    • Azure SQL Database
    • Azure PostgreSQL

Sebelum menggunakan penyimpanan cloud, Anda harus mendaftarkan penyimpanan data di ruang kerja Azure Machine Learning Anda terlebih dahulu. Untuk informasi selengkapnya, lihat Cara Mengakses Data.

Setelah Anda menentukan data yang Anda inginkan dan menyambungkan ke sumbernya, Impor Data menyimpulkan tipe data setiap kolom berdasarkan nilai yang dikandungnya, dan memuat data ke dalam alur desainer Anda. Output dari Impor Data adalah himpunan data yang dapat digunakan dengan alur desainer apa pun.

Jika data sumber Anda berubah, Anda dapat menyegarkan Himpunan data dan menambahkan data baru dengan menjalankan kembali Impor Data.

Peringatan

Jika ruang kerja Anda berada di jaringan virtual, Anda harus mengonfigurasi datastore Anda untuk menggunakan fitur visualisasi data desainer. Untuk informasi selengkapnya tentang cara menggunakan datastore dan himpunan data di jaringan virtual, lihat Menggunakan studio Azure Machine Learning di jaringan virtual Azure.

Cara mengonfigurasi Impor Data

  1. Tambahkan komponen Impor Data ke alur Anda. Anda dapat menemukan komponen ini dalam kategori Input dan Output Data di perancang.

  2. Pilih komponen untuk membuka panel kanan.

  3. Pilih Sumber data, dan pilih jenis sumber data. Itu bisa berupa HTTP atau datastore.

    Jika Anda memilih penyimpanan data, Anda dapat memilih penyimpanan data yang sudah ada yang sudah terdaftar ke ruang kerja Azure Machine Learning Anda atau membuat penyimpanan data baru. Kemudian tentukan jalur data yang akan diimpor di datastore. Anda dapat dengan mudah menelusuri jalur dengan memilih Jelajahi Jalur.

    Cuplikan layar memperlihatkan tautan Telusuri jalur yang membuka kotak dialog Pemilihan jalur.

    Catatan

    Komponen Impor Data hanya untuk data Tabular. Jika Anda ingin mengimpor beberapa file data tabular sekaligus, itu memerlukan kondisi berikut, jika tidak, akan terjadi kesalahan:

    1. Untuk memasukkan semua file data ke dalam folder, Anda perlu memasukkan folder_name/** untuk Jalur.
    2. Semua file data harus dikodekan dalam unicode-8.
    3. Semua file data harus memiliki nomor kolom dan nama kolom yang sama.
    4. Hasil dari mengimpor beberapa file data adalah menggabungkan semua baris dari beberapa file secara berurutan.
  4. Pilih skema pratinjau untuk memfilter kolom yang ingin Anda sertakan. Anda juga dapat menentukan pengaturan lanjutan seperti Pemisah dalam opsi Penguraian.

    Cuplikan layar pratinjau skema dengan Kolom 3, 4, 5 dan 6 dipilih.

  5. Kotak centang, Meregenerasi output, memutuskan apakah akan menjalankan komponen untuk meregenerasi output pada waktu yang berjalan.

    Ini secara default tidak dipilih, yang berarti jika komponen telah dieksekusi dengan parameter yang sama sebelumnya, sistem akan menggunakan kembali output dari proses terakhir untuk mengurangi waktu proses.

    Jika dipilih, sistem mengeksekusi komponen lagi untuk meregenerasi output. Jadi pilih opsi ini ketika data yang mendasari dalam penyimpanan diperbarui, ini dapat membantu untuk mendapatkan data terbaru.

  6. Kirim alur.

    Saat Impor Data memuat data ke desainer, itu menyimpulkan tipe data setiap kolom berdasarkan nilai yang dikandungnya, baik numerik atau kategoris.

    Jika ada, header digunakan untuk menamai kolom dari himpunan data output.

    Jika tidak ada header kolom yang ada dalam data, nama kolom baru dibuat menggunakan format col1, col2,… , coln*.

Hasil

Saat impor selesai, klik kanan himpunan data output dan pilih Visualisasikan untuk melihat apakah data berhasil diimpor.

Jika Anda ingin menyimpan data untuk digunakan kembali, daripada mengimpor kumpulan data baru setiap kali alur dijalankan, pilih ikon Daftarkan himpunan data di tab Output+log di panel kanan komponen. Pilih nama untuk himpunan data. Himpunan data yang disimpan menyimpan data pada saat disimpan. Himpunan data tidak diperbarui saat alur dijalankan ulang, meskipun himpunan data di alur berubah. Ini dapat berguna untuk mengambil rekam jepret data.

Setelah Anda mengimpor data, mungkin diperlukan beberapa persiapan tambahan untuk pemodelan dan analisis:

  • Gunakan Edit Metadata untuk mengubah nama kolom, menangani kolom sebagai jenis data yang berbeda, atau menunjukkan bahwa beberapa kolom adalah label atau fitur.

  • Gunakan Pilih Kolom dalam Himpunan Data untuk memilih subkumpulan kolom yang akan diubah atau digunakan dalam pemodelan. Kolom yang diubah atau dihapus dapat dengan mudah digabungkan kembali ke himpunan data asli menggunakan komponen Tambahkan Kolom.

  • Gunakan Partisi dan Sampel untuk membagi himpunan data, melakukan pengambilan sampel, atau mendapatkan n baris teratas.

Batasan

Karena batasan akses penyimpanan data, jika alur inferensi Anda berisi komponen Impor Data, komponen tersebut akan dihapus secara otomatis saat disebarkan ke titik akhir real time.

Langkah berikutnya

Lihat set komponen yang tersedia untuk Azure Machine Learning.