Memahami penyematan di Azure OpenAI Service

Penyematan adalah format khusus representasi data yang dapat digunakan oleh model dan algoritma pembelajaran mesin. Penyematan adalah representasi padat informasi dari arti semantik dari sepotong teks. Setiap penyematan adalah vektor angka floating-point, sehingga jarak antara dua penyematan di ruang vektor berkorelasi dengan kesamaan semantik antara dua input dalam format asli. Misalnya, jika ada dua teks serupa, maka representasi vektornya juga harus serupa. Menyematkan pencarian kesamaan vektor daya di Azure Databases seperti Azure Cosmos DB untuk MongoDB vCore , Azure SQL Database atau Azure Database for PostgreSQL - Server Fleksibel.

Menyematkan model

Model penyematan Azure OpenAI yang berbeda dibuat agar baik pada tugas tertentu:

  • Penyematan kesamaan baik untuk menangkap kesamaan semantik antara dua atau lebih potongan teks.
  • Penyematan pencarian teks membantu mengukur apakah dokumen panjang relevan dengan kueri singkat.
  • Penyematan pencarian kode berguna untuk menyematkan cuplikan kode dan menyematkan kueri pencarian bahasa alami.

Penyematan memudahkan untuk melakukan pembelajaran mesin pada input besar yang mewakili kata-kata dengan menangkap kesamaan semantik dalam ruang vektor. Oleh karena itu, Anda dapat menggunakan penyematan untuk menentukan apakah dua gugus teks terkait secara semantik atau serupa, dan memberikan skor untuk menilai kesamaan.

Kesamaan kosinus

Penyematan Azure OpenAI mengandalkan kesamaan kosinus dengan kesamaan komputasi antara dokumen dan kueri.

Dari perspektif matematika, kesamaan kosinus mengukur kosinus sudut antara dua vektor yang diproyeksikan dalam ruang multidmensional. Pengukuran ini bermanfaat, karena jika dua dokumen jauh terpisah dengan jarak Euclidean karena ukuran, mereka masih bisa memiliki sudut yang lebih kecil di antara mereka dan oleh karena itu kesamaan kosinus yang lebih tinggi. Untuk informasi selengkapnya tentang persamaan kesamaan kosinus, lihat Kesamaan Kosinus.

Metode alternatif untuk mengidentifikasi dokumen serupa adalah dengan menghitung jumlah kata umum antar dokumen. Pendekatan ini tidak menskalakan karena ekspansi dalam ukuran dokumen kemungkinan akan menyebabkan lebih banyak kata umum yang terdeteksi bahkan di antara topik yang berbeda. Untuk alasan ini, kesamaan kosinus dapat menawarkan alternatif yang lebih efektif.

Langkah berikutnya