تطبيع مكون البيانات

توضح هذه المقالة مكونا في Azure التعلم الآلي مصمم.

استخدم هذا المكون لتحويل مجموعة بيانات من خلال التطبيع.

التطبيع هو تقنية غالبا ما يتم تطبيقها كجزء من إعداد البيانات للتعلم الآلي. الهدف من التطبيع هو تغيير قيم الأعمدة الرقمية في مجموعة البيانات لاستخدام مقياس مشترك ، دون تشويه الاختلافات في نطاقات القيم أو فقدان المعلومات. التطبيع مطلوب أيضا لبعض الخوارزميات لنمذجة البيانات بشكل صحيح.

على سبيل المثال، افترض أن مجموعة بيانات الإدخال تحتوي على عمود واحد بقيم تتراوح من 0 إلى 1، وعمود آخر بقيم تتراوح من 10000 إلى 100000. يمكن أن يسبب الاختلاف الكبير في مقياس الأرقام مشاكل عند محاولة دمج القيم كميزات أثناء النمذجة.

يتجنب التطبيع هذه المشكلات عن طريق إنشاء قيم جديدة تحافظ على التوزيع العام والنسب في البيانات المصدر، مع الاحتفاظ بالقيم ضمن مقياس مطبق عبر جميع الأعمدة الرقمية المستخدمة في النموذج.

يوفر هذا المكون عدة خيارات لتحويل البيانات الرقمية:

  • يمكنك تغيير كل القيم إلى مقياس 0-1، أو تحويل القيم من خلال تمثيلها كرتب مئوية بدلا من القيم المطلقة.
  • يمكنك تطبيق التطبيع على عمود واحد، أو على أعمدة متعددة في نفس مجموعة البيانات.
  • إذا كنت بحاجة إلى تكرار خط الأنابيب، أو تطبيق نفس خطوات التطبيع على بيانات أخرى، فيمكنك حفظ الخطوات كتحويل تطبيع، وتطبيقه على مجموعات بيانات أخرى لها نفس المخطط.

تحذير

تتطلب بعض الخوارزميات تطبيع البيانات قبل تدريب النموذج. تقوم خوارزميات أخرى بإجراء تحجيم البيانات أو تطبيعها بشكل خاص. لذلك ، عند اختيار خوارزمية تعلم الآلة لاستخدامها في بناء نموذج تنبؤي ، تأكد من مراجعة متطلبات البيانات الخاصة بالخوارزمية قبل تطبيق التطبيع على بيانات التدريب.

تكوين تطبيع البيانات

يمكنك تطبيق طريقة تطبيع واحدة فقط في كل مرة باستخدام هذا المكون. لذلك، يتم تطبيق نفس أسلوب التطبيع على كافة الأعمدة التي تحددها. لاستخدام طرق تطبيع مختلفة، استخدم مثيل ثان من تطبيع البيانات.

  1. أضف مكون تطبيع البيانات إلى خط الأنابيب. يمكنك العثور على المكون في Azure التعلم الآلي، ضمن تحويل البيانات، في الفئة المقياس والتصغير.

  2. الاتصال مجموعة بيانات تحتوي على عمود واحد على الأقل من جميع الأرقام.

  3. استخدم محدد الأعمدة لاختيار الأعمدة الرقمية المراد تطبيعها. إذا لم تختر أعمدة فردية، تضمين جميع أعمدة النوع الرقمي في الإدخال بشكل افتراضي، ويتم تطبيق نفس عملية التطبيع على جميع الأعمدة المحددة.

    هذا يمكن أن يؤدي إلى نتائج غريبة إذا قمت بتضمين أعمدة رقمية لا ينبغي تطبيعها! تحقق دائما من الأعمدة بعناية.

    إذا لم يتم الكشف عن أي أعمدة رقمية، فتحقق من بيانات تعريف العمود للتحقق من أن نوع بيانات العمود هو نوع رقمي مدعوم.

    تلميح

    للتأكد من توفير أعمدة من نوع معين كمدخلات، حاول استخدام مكون تحديد أعمدة في مجموعة البيانات قبل تطبيع البيانات.

  4. استخدام 0 للأعمدة الثابتة عند تحديدها: حدد هذا الخيار عندما يحتوي أي عمود رقمي على قيمة واحدة غير متغيرة. وهذا يضمن عدم استخدام هذه الأعمدة في عمليات التطبيع.

  5. من القائمة المنسدلة طريقة التحويل ، اختر دالة رياضية واحدة لتطبيقها على كل الأعمدة المحددة.

    • Zscore: تحويل جميع القيم إلى z-score.

      يتم تحويل القيم الموجودة في العمود باستخدام الصيغة التالية:

      normalization using z-scores

      يتم حساب المتوسط الحسابي والانحراف المعياري لكل عمود على حدة. يتم استخدام الانحراف المعياري للسكان.

    • MinMax: يقوم جهاز التطبيع min-max خطيا بإعادة قياس كل ميزة إلى الفاصل الزمني [0,1].

      تتم إعادة القياس إلى الفاصل الزمني [0,1] عن طريق تحويل قيم كل معلم بحيث تكون القيمة الدنيا هي 0، ثم القسمة على القيمة القصوى الجديدة (وهي الفرق بين القيم القصوى الأصلية والقيم الدنيا).

      يتم تحويل القيم الموجودة في العمود باستخدام الصيغة التالية:

      normalization using the min-max function

    • الخدمات اللوجستية: يتم تحويل القيم الموجودة في العمود باستخدام الصيغة التالية:

      formula for normalization by logistic function

    • LogNormal: يقوم هذا الخيار بتحويل كافة القيم إلى مقياس لوغاريتم.

      يتم تحويل القيم الموجودة في العمود باستخدام الصيغة التالية:

      formula log-normal distribution

      فيما يلي μ و σ هي معلمات التوزيع ، المحسوبة تجريبيا من البيانات كتقديرات للاحتمال الأقصى ، لكل عمود على حدة.

    • TanH: يتم تحويل جميع القيم إلى ظل زائدي.

      يتم تحويل القيم الموجودة في العمود باستخدام الصيغة التالية:

      normalization using the tanh function

  6. أرسل خط الأنابيب، أو انقر نقرا مزدوجا فوق المكون تطبيع البيانات وحدد تشغيل المحدد.

النتائج

يقوم مكون " تطبيع البيانات" بإنشاء مخرجين:

  • لعرض القيم المحولة، انقر بزر الماوس الأيمن فوق المكون، وحدد تصور.

    بشكل افتراضي، يتم تحويل القيم في مكانها. إذا كنت تريد مقارنة القيم المحولة بالقيم الأصلية، فاستخدم مكون إضافة أعمدة لإعادة دمج مجموعات البيانات وعرض الأعمدة جنبا إلى جنب.

  • لحفظ التحويل بحيث يمكنك تطبيق نفس طريقة التطبيع على مجموعة بيانات أخرى، حدد المكون، وحدد تسجيل مجموعة البيانات ضمن علامة التبويب المخرجات في اللوحة اليمنى.

    يمكنك بعد ذلك تحميل التحويلات المحفوظة من مجموعة التحويلات في جزء التنقل الأيمن وتطبيقها على مجموعة بيانات بنفس المخطط باستخدام تطبيق التحويل.

الخطوات التالية

راجع مجموعة المكونات المتوفرة ل Azure التعلم الآلي.