Mulai Cepat: Membuat kumpulan keterampilan di portal Microsoft Azure

Dalam mulai cepat ini, Anda mempelajari bagaimana set keterampilan di Azure AI Search menambahkan Pengenalan Karakter Optik (OCR), analisis gambar, deteksi bahasa, terjemahan teks, dan pengenalan entitas untuk menghasilkan konten yang dapat dicari teks dalam indeks pencarian.

Anda bisa menjalankan wizard Impor data di portal Azure untuk menerapkan keterampilan yang membuat dan mengubah konten tekstual selama pengindeksan. Input adalah data mentah Anda, biasanya blob di Azure Storage. Output adalah indeks yang dapat dicari yang berisi teks gambar, keterangan, dan entitas yang dihasilkan AI. Konten yang dihasilkan dapat dikueri di portal menggunakan Penjelajah pencarian.

Untuk mempersiapkan, Anda membuat beberapa sumber daya dan mengunggah file sampel sebelum menjalankan wizard.

Prasyarat

Sebelum Anda mulai, siapkan prasyarat berikut:

Catatan

Mulai cepat ini menggunakan layanan Azure AI untuk transformasi AI. Karena beban kerja sangat kecil, layanan Azure AI diketuk di belakang layar untuk pemrosesan gratis hingga 20 transaksi. Anda dapat menyelesaikan latihan ini tanpa harus membuat sumber daya multi-layanan Azure AI.

Menyiapkan data Anda

Dalam langkah-langkah berikut, siapkan kontainer blob di Azure Storage untuk menyimpan file konten heterogen.

  1. Unduh data sampel yang terdiri dari kumpulan file kecil dari berbagai jenis.

  2. Masuk ke portal Azure dengan akun Azure Anda.

  3. Buat akun Azure Storage atau cari akun yang sudah ada.

    • Pilih wilayah yang sama dengan Azure AI Search untuk menghindari biaya bandwidth.

    • Pilih StorageV2 (tujuan umum V2).

  4. Di portal Azure, buka halaman Azure Storage Anda dan buat kontainer. Anda dapat menggunakan tingkat akses default.

  5. Di Kontainer, pilih Unggah untuk mengunggah file sampel. Perhatikan bahwa Anda memiliki berbagai jenis konten, termasuk gambar dan file aplikasi yang tidak dapat dicari teks lengkap dalam format aslinya.

    Screenshot of source files in Azure Blob Storage.

Anda sekarang siap untuk berpindah pada wizard Impor data.

Menjalankan wizard Impor data

  1. Masuk ke portal Azure dengan akun Azure Anda.

  2. Temukan layanan pencarian Anda dan pada halaman Gambaran Umum, pilih Impor data pada bilah perintah untuk membuat konten yang dapat dicari dalam empat langkah.

    Screenshot of the Import data command.

Langkah 1: Membuat sumber data

  1. Di Sambungkan ke data Anda, pilih Azure Blob Storage.

  2. Pilih koneksi yang sudah ada ke akun penyimpanan dan pilih kontainer yang Anda buat. Beri nama sumber data, dan gunakan nilai default untuk sisanya.

    Screenshot of the data source definition page.

    Lanjutkan ke halaman berikutnya.

Jika Anda mendapatkan "Kesalahan mendeteksi skema indeks dari sumber data", pengindeks yang mendukung wizard tidak dapat tersambung ke sumber data Anda. Kemungkinan besar, sumber data memiliki perlindungan keamanan. Coba solusi berikut lalu jalankan ulang wizard.

Fitur keamanan Solusi
Sumber daya memerlukan peran Azure atau kunci aksesnya dinonaktifkan Koneksi sebagai layanan tepercaya atau terhubung menggunakan identitas terkelola
Sumber daya berada di belakang firewall IP Membuat aturan masuk untuk Pencarian dan untuk portal Azure
Sumber daya memerlukan koneksi titik akhir privat Koneksi melalui titik akhir privat

Langkah 2: Menambahkan keterampilan kognitif

Selanjutnya, konfigurasikan pengayaan AI untuk memanggil OCR, analisis gambar, dan pemrosesan bahasa alami.

  1. Untuk mulai cepat ini, kami menggunakan sumber daya layanan Azure AI Gratis . Data sampel terdiri dari 14 file, sehingga penjatahan gratis 20 transaksi pada layanan Azure AI cukup untuk mulai cepat ini.

    Screenshot of the Attach Azure AI services tab.

  2. Perluas Tambahkan pengayaan dan buat enam pilihan.

    Aktifkan OCR untuk menambahkan keterampilan analisis gambar ke halaman panduan.

    Pilih pengenalan entitas (orang, organisasi, lokasi) dan keterampilan analisis gambar (tag, keterangan).

    Screenshot of the skillset definition page.

    Lanjutkan ke halaman berikutnya.

Langkah 3: Mengonfigurasi indeks

Indeks berisi konten yang dapat dicari dan wizard Impor data biasanya dapat membuat skema dengan mengambil sampel sumber data. Pada langkah ini, tinjau skema yang dihasilkan dan kemungkinan perbaiki pengaturan apa pun.

Untuk mulai cepat ini, wizard melakukan pekerjaan dengan baik mengatur default yang wajar:

  • Bidang default didasarkan pada properti metadata blob yang ada, ditambah bidang baru untuk output pengayaan (misalnya, people, organizations, locations). Jenis data disimpulkan dari metadata dan dengan pengambilan sampel data.

  • Kunci dokumen default adalah metadata_storage_path (dipilih karena bidang berisi nilai unik).

  • Atribut default adalah Dapat diambil dan Dapat dicari. Dapat dicari memungkinkan pencarian teks lengkap sebuah bidang. Dapat diambil berarti nilai bidang dapat dikembalikan hasilnya. Wizard mengasumsikan bahwa Anda ingin bidang ini dapat diambil dan dicari karena Anda membuatnya melalui kumpulan keterampilan. Pilih Dapat difilter jika Anda ingin menggunakan bidang dalam ekspresi filter.

    Screenshot of the index definition page.

Menandai bidang sebagai Dapat Diambil tidak berarti bahwa bidang harus ada di hasil pencarian. Anda dapat mengontrol komposisi hasil pencarian dengan menggunakan parameter kueri pilih untuk menentukan bidang mana yang akan disertakan.

Lanjutkan ke halaman berikutnya.

Langkah 4: Mengonfigurasi pengindeks

Pengindeks mendorong proses pengindeksan. Pengindeks menentukan nama sumber data, indeks target, dan frekuensi eksekusi. Wizard Impor data membuat beberapa objek, termasuk pengindeks yang bisa Anda reset dan jalankan berulang kali.

  1. Di halaman Pengindeks, terima nama default dan pilih Sekali.

    Screenshot of the indexer definition page.

  2. Pilih Kirim untuk membuat dan menjalankan pengindeks secara bersamaan.

Status pemantau

Pilih Pengindeks dari panel navigasi kiri untuk memantau status, lalu pilih pengindeks. Pengindeksan berbasis keterampilan membutuhkan waktu lebih lama daripada pengindeksan berbasis teks, terutama OCR dan analisis gambar.

Screenshot of the indexer status page.

Untuk melihat detail tentang status eksekusi, pilih Berhasil (atau Gagal) untuk melihat detail eksekusi.

Dalam demo ini, ada beberapa peringatan: "Could not execute skill because one or more skill input was invalid." Ini memberi tahu Anda bahwa file PNG di sumber data tidak memberikan input teks ke Pengenalan Entitas. Peringatan ini terjadi karena keterampilan OCR upstream tidak mengenali teks apa pun dalam gambar, dan dengan demikian tidak dapat memberikan input teks ke keterampilan Pengenalan Entitas hilir.

Peringatan umum dalam eksekusi skillset. Saat Anda terbiasa dengan bagaimana keterampilan melakukan iterasi atas data Anda, Anda mungkin mulai memperhatikan pola dan mempelajari peringatan mana yang aman untuk diabaikan.

Kueri di Penjelajah pencarian

Setelah indeks dibuat, gunakan Penjelajah pencarian untuk mengembalikan hasil.

  1. Di sebelah kiri, pilih Indeks lalu pilih indeks. Penjelajah pencarian ada di tab pertama.

  2. Masukkan string pencarian untuk mengkueri indeks, seperti satya nadella. Bilah pencarian menerima kata kunci, frasa yang diapit kutipan, dan operator ("Satya Nadella" +"Bill Gates" +"Steve Ballmer").

Hasil dikembalikan sebagai JSON verbose, yang bisa sulit dibaca, terutama dalam dokumen besar. Beberapa tips untuk mencari di alat ini antara lain teknik berikut:

  • Beralih ke tampilan JSON untuk menentukan parameter yang membentuk hasil.

  • Tambahkan select untuk membatasi bidang dalam hasil.

  • Tambahkan count untuk memperlihatkan jumlah kecocokan.

  • Gunakan CTRL-F untuk mencari di dalam JSON untuk properti atau istilah tertentu.

    Screenshot of the Search explorer page.

Berikut adalah beberapa JSON yang dapat Anda tempelkan ke dalam tampilan:

{
"search": "\"Satya Nadella\" +\"Bill Gates\" +\"Steve Ballmer\"",
"count": true,
"select": "content, people"
}

Tip

String kueri peka huruf besar/kecil jadi jika Anda mendapatkan pesan "bidang tidak dikenal", centang Bidang atau Definisi Indeks (JSON) untuk memverifikasi nama dan huruf besar/kecil.

Poin-poin penting

Anda sekarang telah membuat set keterampilan pertama Anda dan mempelajari langkah-langkah dasar pengindeksan berbasis keterampilan.

Beberapa konsep utama yang kami harap Anda ambil termasuk dependensi. Kumpulan keterampilan terikat ke pengindeks, dan pengindeks adalah Azure dan khusus sumber. Meskipun mulai cepat ini menggunakan Azure Blob Storage, sumber data Azure lainnya mungkin digunakan. Untuk informasi selengkapnya, lihat Pengindeks di Azure AI Search.

Konsep penting lainnya adalah bahwa keterampilan beroperasi atas jenis konten, dan ketika bekerja dengan konten heterogen, beberapa input dilewati. Selain itu, file atau bidang besar mungkin melebihi batas pengindeks tingkat layanan Anda. Melihat peringatan saat peristiwa ini terjadi adalah hal yang normal.

Output dirutekan ke indeks pencarian, dan ada pemetaan antara pasangan nama-nilai yang dibuat selama pengindeksan dan bidang individual dalam indeks Anda. Secara internal, wizard menyiapkan pohon pengayaan dan mendefinisikan set keterampilan, menetapkan urutan operasi dan alur umum. Langkah-langkah ini disembunyikan dalam wizard, tetapi ketika Anda mulai menulis kode, konsep-konsep ini menjadi penting.

Akhirnya, Anda mempelajari bahwa verifikasi konten dapat dilakukan dengan mengkueri indeks. Pada akhirnya, apa yang disediakan Azure AI Search adalah indeks yang dapat dicari, yang dapat Anda kueri menggunakan sintaks kueri yang sederhana atau sepenuhnya diperluas. Indeks yang berisi bidang yang diperkaya sama seperti indeks lainnya. Jika Anda ingin menggabungkan penganalisis standar atau kustom, profil penilaian, sinonim, navigasi tersaring, pencarian geografis, atau fitur Pencarian Azure AI lainnya, Anda pasti dapat melakukannya.

Membersihkan sumber daya

Saat bekerja dengan langganan Anda sendiri, sebaiknya identifikasi apakah Anda masih membutuhkan sumber daya yang Anda buat di akhir proyek. Sumber daya yang dibiarkan berjalan dapat menghabiskan uang Anda. Anda dapat menghapus sumber daya satu per satu atau menghapus grup sumber daya untuk menghapus seluruh rangkaian sumber daya.

Anda dapat menemukan dan mengelola sumber daya di portal, menggunakan tautan Semua sumber daya atau Grup sumber daya di panel navigasi kiri.

Jika Anda menggunakan layanan gratis, ingatlah bahwa Anda terbatas pada tiga indeks, pengindeks, dan sumber data. Anda dapat menghapus item individu di portal agar tetap berada dalam batasan.

Langkah berikutnya

Anda dapat membuat kumpulan keterampilan menggunakan portal, .NET SDK, atau REST API. Untuk memajukan pengetahuan Anda, coba REST API menggunakan klien REST dan lebih banyak data sampel.