قاعدة بيانات المتجهات

ينطبق على: NoSQL MongoDB vCore الانترنت

تستخدم قواعد بيانات المتجهات في العديد من المجالات والمواقف عبر الذكاء الاصطناعي التحليلية والتوليدية، بما في ذلك معالجة اللغة الطبيعية، والتعرف على الفيديو والصور، ونظام التوصية، والبحث، من بين أمور أخرى.

وفي عام 2023، كان هناك اتجاه ملحوظ في مجال البرمجيات هو دمج تحسينات الذكاء الاصطناعي، وغالبا ما تحقق ذلك عن طريق دمج قواعد بيانات المتجهات المستقلة المتخصصة في التكديسات التكنولوجية القائمة. توضح هذه المقالة قواعد بيانات المتجهات وتقدم بنية بديلة قد ترغب في مراعاتها: استخدام قاعدة بيانات متجهات متكاملة في NoSQL أو قاعدة البيانات الارتباطية التي تستخدمها بالفعل، خاصة عند العمل مع البيانات متعددة الوسائط. لا يسمح لك هذا النهج فقط بخفض التكلفة ولكن أيضا تحقيق المزيد من تناسق البيانات وقابلية التوسع والأداء.

تلميح

يعد تناسق البيانات وقابلية التوسع والأداء أمرا بالغ الأهمية للتطبيقات كثيفة البيانات، ولهذا السبب اختار OpenAI إنشاء خدمة ChatGPT أعلى Azure Cosmos DB. يمكنك أيضا الاستفادة من قاعدة بيانات المتجهات المتكاملة، بالإضافة إلى أوقات الاستجابة المكونة من رقم واحد بالمللي ثانية وقابلية التوسع التلقائية والفورية والسرعة المضمونة على أي نطاق. راجع نماذج التنفيذ وجربهامجانا.

ما هي قاعدة بيانات المتجهات؟

قاعدة بيانات المتجهات هي قاعدة بيانات مصممة لتخزين وإدارة تضمينات المتجهات، وهي تمثيلات رياضية للبيانات في مساحة عالية الأبعاد. في هذه المساحة، يتوافق كل بعد مع ميزة من البيانات، ويمكن استخدام عشرات الآلاف من الأبعاد لتمثيل البيانات المعقدة. يمثل موضع المتجه في هذه المساحة خصائصه. يمكن تحويل الكلمات والعبارات أو المستندات الكاملة والصور والصوت وأنواع أخرى من البيانات. تستخدم تضمينات المتجهات هذه في البحث عن التشابه والبحث متعدد الوسائط ومحركات التوصيات ونماذج اللغات الكبيرة (LLMs) وما إلى ذلك.

في قاعدة بيانات المتجهات، تتم فهرسة عمليات التضمين والاستعلامات من خلال خوارزميات البحث عن المتجهات استنادا إلى مسافة المتجه أو تشابهها. ومن الضروري وجود آلية قوية لتحديد البيانات الأكثر صلة. تتضمن بعض خوارزميات البحث عن المتجهات المعروفة «Hierarchical Navigable Small World ( HNSW) و Inverted File (IVF) و DiskANN وما إلى ذلك.

قاعدة بيانات متجهات متكاملة مقابل قاعدة بيانات متجهات خالصة

هناك نوعان شائعان من تطبيقات قاعدة بيانات المتجهات - قاعدة بيانات متجهات خالصة وقاعدة بيانات متجهات متكاملة في NoSQL أو قاعدة بيانات ارتباطية.

تم تصميم قاعدة بيانات متجهات خالصة لتخزين وإدارة تضمينات المتجهات بكفاءة، جنبا إلى جنب مع كمية صغيرة من بيانات التعريف؛ وهو منفصل عن مصدر البيانات الذي يتم اشتقاق التضمينات منه.

توفر قاعدة بيانات المتجهات المدمجة في NoSQL عالية الأداء أو قاعدة بيانات ارتباطية قدرات إضافية. يمكن لقاعدة البيانات المتجهة المتكاملة في NoSQL أو قاعدة البيانات الارتباطية تخزين تضمينات وفهرستها والاستعلام إلى جانب البيانات الأصلية المقابلة. يلغي هذا النهج التكلفة الإضافية لنسخ البيانات في قاعدة بيانات متجهات خالصة منفصلة. علاوة على ذلك، فإن الاحتفاظ بتضمينات المتجهات والبيانات الأصلية معا يسهل بشكل أفضل عمليات البيانات متعددة الوسائط، ويتيح المزيد من تناسق البيانات وحجمها وأدائها.

حالات استخدام قاعدة بيانات المتجهات

تستخدم قواعد بيانات المتجهات في العديد من المجالات والمواقف عبر الذكاء الاصطناعي التحليلية والتوليدية، بما في ذلك معالجة اللغة الطبيعية، والتعرف على الفيديو والصور، ونظام التوصية، والبحث، وما إلى ذلك. على سبيل المثال، يمكنك استخدام قاعدة بيانات متجهة من أجل:

  • تحديد الصور والمستندات والأغاني المماثلة استنادا إلى محتوياتها ونسقها والمشاعر وأنماطها
  • تحديد منتجات مماثلة استنادا إلى خصائصها وميزاتها ومجموعات المستخدمين
  • التوصية بمحتويات أو منتجات أو خدمات استنادا إلى تفضيلات الأفراد
  • التوصية بمحتويات أو منتجات أو خدمات استنادا إلى أوجه التشابه بين مجموعات المستخدمين
  • تحديد الخيارات المحتملة الأنسب من مجموعة كبيرة من الخيارات لتلبية المتطلبات المعقدة
  • تحديد الحالات الشاذة للبيانات أو الأنشطة الاحتيالية التي تختلف عن الأنماط السائدة أو العادية
  • تنفيذ الذاكرة الثابتة لعوامل الذكاء الاصطناعي

تلميح

بالإضافة إلى حالات الاستخدام النموذجية لقواعد بيانات المتجهات، تعد قاعدة بيانات المتجهات المتكاملة لدينا أيضا حلا مثاليا للتخزين المؤقت لأجهزة LLM على مستوى الإنتاج بفضل زمن الانتقال المنخفض وقابلية التوسع العالية وقابلية الوصول العالية.

من الشائع بشكل خاص استخدام قواعد بيانات المتجهات لتمكين الجيل المعزز باسترداد (RAG) الذي يسخر LLMs والبيانات المخصصة أو المعلومات الخاصة بالمجال. يسمح لك هذا النهج ب:

  • إنشاء استجابات دقيقة ذات صلة بالسياق لمطالبات المستخدم من نماذج الذكاء الاصطناعي
  • التغلب على حدود رموز LLMs المميزة
  • تقليل التكاليف من الضبط المتكرر للبيانات المحدثة

تتضمن هذه العملية استخراج المعلومات ذات الصلة من مصدر بيانات مخصص ودمجها في طلب النموذج من خلال الهندسة الفورية. قبل إرسال طلب إلى LLM، يتم أيضا تحويل إدخال/استعلام/طلب المستخدم إلى تضمين، ويتم استخدام تقنيات البحث المتجه لتحديد موقع التضمينات الأكثر مماثلة داخل قاعدة البيانات. تتيح هذه التقنية تحديد سجلات البيانات الأكثر صلة في قاعدة البيانات. ثم يتم توفير هذه السجلات المستردة كمدخل لطلب LLM باستخدام الهندسة الفورية.

عمليات التضمين

التضمين هو تنسيق خاص لتمثيل البيانات يمكن لنماذج التعلم الآلي والخوارزميات استخدامه بسهولة. التضمين هو تمثيل كثيف للمعلومات للمعنى الدلالي لجزء من النص. كل تضمين هو متجه من أرقام الفاصلة العائمة، بحيث ترتبط المسافة بين تضمينين في مساحة المتجه بالتشابه الدلالي بين إدخالين بالتنسيق الأصلي. على سبيل المثال، إذا كان نصان متشابهين، يجب أن تكون تمثيلات المتجهات متشابهة أيضاً. يضمن ملحق قاعدة بيانات المتجهات الذي يسمح لك بتخزين عمليات التضمين ببياناتك الأصلية تناسق البيانات ومقياسها وأدائها. [الرجوع إلى الخلف]

البحث عن المتجهات هو أسلوب يساعدك على العثور على عناصر مماثلة استنادا إلى خصائص البيانات الخاصة بها بدلا من التطابقات الدقيقة في حقل الخاصية. هذه التقنية مفيدة في التطبيقات مثل البحث عن نص مشابه أو العثور على الصور ذات الصلة أو تقديم التوصيات أو حتى اكتشاف الحالات الشاذة. يعمل عن طريق أخذ تمثيلات المتجهات (قوائم الأرقام) لبياناتك التي قمت بإنشائها باستخدام نموذج التعلم الآلي باستخدام واجهة برمجة تطبيقات التضمينات، مثل تضمين Azure OpenAI أو عناق الوجه على Azure. ثم يقيس المسافة بين متجهات البيانات ومتجه الاستعلام. متجهات البيانات الأقرب إلى متجه الاستعلام هي تلك التي تم العثور عليها على أنها متشابهة دلاليا. يوفر استخدام ميزة البحث عن المتجهات الأصلية طريقة فعالة لتخزين بيانات المتجهات عالية الأبعاد وفهرستها والبحث فيها مباشرة جنبا إلى جنب مع بيانات التطبيق الأخرى. يزيل هذا النهج ضرورة ترحيل بياناتك إلى قواعد بيانات متجهات بديلة أكثر تكلفة ويوفر تكاملا سلسا للتطبيقات المستندة إلى الذكاء الاصطناعي. [الرجوع إلى الخلف]

المطالبات وهندسة المطالبة

تشير المطالبة إلى نص أو معلومات محددة يمكن أن تكون بمثابة إرشادات ل LLM، أو كبيانات سياقية يمكن ل LLM البناء عليها. يمكن أن تتخذ المطالبة أشكالا مختلفة، مثل سؤال أو عبارة أو حتى قصاصة برمجية. يمكن أن تكون المطالبات بمثابة:

  • توفر التعليمات توجيهات إلى LLM
  • المحتوى الأساسي: يعطي معلومات إلى LLM للمعالجة
  • أمثلة: تعليمات حول حالة النموذج إلى مهمة أو عملية معينة
  • الإشارات: توجيه إخراج LLM في الاتجاه الصحيح
  • محتوى الدعم: يمثل معلومات تكميلية يمكن ل LLM استخدامها لإنشاء الإخراج

تسمى عملية إنشاء مطالبات جيدة لسيناريو هندسة المطالبة. لمزيد من المعلومات حول المطالبات وأفضل الممارسات لهندسة المطالبة، راجع تقنيات الهندسة الموجهة لخدمة Azure OpenAI. [الرجوع إلى الخلف]

الرموز المميزة

الرموز المميزة هي أجزاء صغيرة من النص تم إنشاؤها عن طريق تقسيم نص الإدخال إلى مقاطع أصغر. يمكن أن تكون هذه المقاطع إما كلمات أو مجموعات من الأحرف، وتتفاوت في الطول من حرف واحد إلى كلمة بأكملها. على سبيل المثال، سيتم تقسيم كلمة الهامبرغر إلى رموز مميزة مثل ham و bur و ger بينما تعتبر كلمة قصيرة ومشتركة مثل الكمثرى رمزا مميزا واحدا. تقوم LLMs مثل ChatGPT أو GPT-3.5 أو GPT-4 بتقسيم الكلمات إلى رموز مميزة للمعالجة. [الرجوع إلى الخلف]

الجيل المعزز باسترداد

يعد الجيل المعزز باسترداد (RAG) بنية تزيد من قدرات LLMs مثل ChatGPT أو GPT-3.5 أو GPT-4 عن طريق إضافة نظام استرداد معلومات مثل البحث في المتجهات الذي يوفر بيانات الأساس، مثل تلك المخزنة في قاعدة بيانات متجه. يسمح هذا الأسلوب ل LLM الخاص بك بإنشاء استجابات دقيقة ذات صلة بالسياق استنادا إلى بياناتك المخصصة المستمدة من المستندات المتجهة والصور والصوت والفيديو وما إلى ذلك.

يمكن أن يكون نمط RAG البسيط باستخدام Azure Cosmos DB ل NoSQL:

  1. إدراج البيانات في قاعدة بيانات Azure Cosmos DB لقاعدة بيانات NoSQL وجمعها
  2. إنشاء عمليات تضمين من خاصية بيانات باستخدام تضمينات Azure OpenAI
  3. ربط Azure Cosmos DB ل NoSQL ب Azure Cognitive Search (للفهرسة/البحث المتجه)
  4. إنشاء فهرس متجه عبر خصائص التضمينات
  5. إنشاء دالة لإجراء بحث عن تشابه المتجهات استنادا إلى مطالبة المستخدم
  6. تنفيذ الإجابة على الأسئلة عبر البيانات باستخدام نموذج إكمال Azure OpenAI

يخدم نمط RAG، مع الهندسة الفورية، الغرض من تعزيز جودة الاستجابة من خلال تقديم مزيد من المعلومات السياقية للنموذج. تمكن RAG النموذج من تطبيق قاعدة المعارف (KB) أوسع من خلال دمج مصادر خارجية ذات صلة في عملية الإنشاء، ما يؤدي إلى استجابات أكثر شمولا واستنارة. لمزيد من المعلومات حول "أساس" LLMs، راجع LLة LLMs. [الرجوع إلى الخلف]

فيما يلي طرق متعددة لتنفيذ RAG على بياناتك باستخدام وظائف قاعدة بيانات المتجهات المتكاملة:

كيفية تنفيذ وظائف قاعدة بيانات المتجهات المتكاملة

يمكنك تنفيذ وظائف قاعدة بيانات المتجهات المتكاملة لواجهات برمجة تطبيقات Azure Cosmos DB التالية:

واجهة برمجة التطبيقات لـ MongoDB

استخدم قاعدة بيانات المتجهات المتكاملة أصلا في Azure Cosmos DB ل MongoDB (بنية vCore)، والتي توفر طريقة فعالة لتخزين بيانات المتجهات عالية الأبعاد وفهرستها والبحث عنها مباشرة جنبا إلى جنب مع بيانات التطبيق الأخرى. يزيل هذا النهج ضرورة ترحيل بياناتك إلى قواعد بيانات متجهات بديلة أكثر تكلفة ويوفر تكاملا سلسا للتطبيقات المستندة إلى الذكاء الاصطناعي.

نماذج التعليمات البرمجية

واجهة برمجة التطبيقات ل PostgreSQL

استخدم قاعدة بيانات المتجهات المتكاملة أصلا في Azure Cosmos DB ل PostgreSQL، والتي توفر طريقة فعالة لتخزين بيانات المتجهات عالية الأبعاد وفهرستها والبحث فيها مباشرة جنبا إلى جنب مع بيانات التطبيق الأخرى. يزيل هذا النهج ضرورة ترحيل بياناتك إلى قواعد بيانات متجهات بديلة أكثر تكلفة ويوفر تكاملا سلسا للتطبيقات المستندة إلى الذكاء الاصطناعي.

نماذج التعليمات البرمجية

واجهة برمجة تطبيقات NoSQL

إشعار

بالنسبة لواجهة برمجة تطبيقات NoSQL الخاصة بنا، سيتم الإعلان عن التكامل الأصلي لخوارزمية فهرسة الخطوط المتجهة المتطورة أثناء الإنشاء في مايو 2024. الرجاء البقاء على اطلاع.

قاعدة بيانات المتجهات المتكاملة أصلا في NoSQL API قيد التطوير. في هذه الأثناء، يمكنك تنفيذ أنماط RAG باستخدام Azure Cosmos DB ل NoSQL وAzure الذكاء الاصطناعي Search. يتيح هذا النهج تكاملا قويا لبياناتك الموجودة في واجهة برمجة تطبيقات NoSQL في تطبيقاتك الموجهة الذكاء الاصطناعي.

الخطوة التالية

إصدار تجريبي مجاني لمدة 30 يوما دون اشتراك Azure

إصدار تجريبي مجاني لمدة 90 يوما وما يصل إلى 6000 دولار في أرصدة معدل النقل باستخدام Azure الذكاء الاصطناعي Advantage

المزيد من حلول قاعدة بيانات المتجهات

رسم تخطيطي لخدمات فهرسة المتجهات.