تحليل البيانات باستخدام تجمع SQL بدون خادم

في هذا البرنامج التعليمي، سوف تتعلم كيفية تحليل البيانات مع تجمع SQL serverless.

تجمع SQL المضمن بدون خادم

تتيح لك تجمعات SQL بدون خادم استخدام SQL دون الحاجة إلى حجز السعة. يستند الفوترة لتجمع SQL بدون ملقم إلى مقدار البيانات التي تمت معالجتها لتشغيل الاستعلام وليس عدد العقد المستخدمة لتشغيل الاستعلام.

تأتي كل مساحة عمل مع تجمع SQL بدون خادم تم تكوينه مسبقا يسمى المدمج في.

تحليل بيانات سيارة أجرة مدينة نيويورك مع تجمع SQL بدون خادم

  1. في استوديو Synapse، انتقل إلى مركز التكامل.

  2. إنشاء برنامج نصي SQL جديد.

  3. ألصق التعليمات البرمجية التالية في البرنامج النصي.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    
  4. حدد ⁧⁩تشغيل⁧⁩.

استكشاف البيانات هو مجرد سيناريو مبسط حيث يمكنك فهم الخصائص الأساسية للبيانات الخاصة بك. تعرف على المزيد حول استكشاف البيانات وتحليلها في هذا البرنامج التعليمي.

إنشاء قاعدة بيانات استكشاف البيانات

يمكنك تصفح محتوى الملفات مباشرة عبر master قاعدة البيانات. بالنسبة لبعض سيناريوهات استكشاف البيانات البسيطة، لا تحتاج إلى إنشاء قاعدة بيانات منفصلة. ومع ذلك، أثناء متابعة استكشاف البيانات، قد تحتاج إلى إنشاء بعض الكائنات المساعدة، مثل:

  • مصادر البيانات الخارجية التي تمثل المراجع المسماة لحسابات التخزين.
  • بيانات اعتماد نطاق قاعدة البيانات التي تمكنك من تحديد كيفية المصادقة على مصدر بيانات خارجي.
  • مستخدمو قاعدة البيانات الذين لديهم أذونات للوصول إلى بعض مصادر البيانات أو كائنات قاعدة البيانات.
  • طرق عرض الأداة المساعدة والإجراءات والوظائف التي يمكنك استخدامها في الاستعلامات.
  1. استخدم قاعدة بيانات masterلإنشاء قاعدة بيانات منفصلة لكائنات قاعدة بيانات مخصصة. كائنات قاعدة بيانات مخصصة، لا يمكن إنشاؤها في master قاعدة البيانات.

    CREATE DATABASE DataExplorationDB 
                    COLLATE Latin1_General_100_BIN2_UTF8
    

    هام

    استخدم ترتيب نسخ مع _UTF8 لاحقة للتأكد من تحويل نص UTF-8 بشكل صحيح إلىVARCHAR أعمدة. Latin1_General_100_BIN2_UTF8 يوفر أفضل أداء في الاستعلامات التي تقرأ البيانات من ملفات Parquet وحاويات Azure Cosmos DB. لمزيد من المعلومات حول تغيير الترتيب، راجع أنواع الترتيب المدعومة ل Synapse SQL.

  2. قم بتبديل سياق قاعدة البيانات من master إلى DataExplorationDB باستخدام الأمر التالي. يمكنك أيضاً استخدام عنصر تحكم واجهة المستخدم use database لتبديل قاعدة البيانات الحالية:

    USE DataExplorationDB
    
  3. من DataExplorationDB، قم بإنشاء كائنات الأداة المساعدة مثل بيانات الاعتماد ومصادر البيانات.

    CREATE EXTERNAL DATA SOURCE ContosoLake
    WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')
    

    ملاحظة

    يمكنك إنشاء مصدر بيانات خارجي بدون بيانات اعتماد. في حال كانت بيانات الاعتماد غير موجودة، سيتم استخدام هوية المتصل للوصول إلى مصدر البيانات الخارجي.

  4. اختياريا، استخدم قاعدة البيانات التي تم إنشاؤها DataExplorationDB حديثا لإنشاء تسجيل دخول لمستخدم في DataExplorationDB الذي سيدخل إلى البيانات الخارجية:

    CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';
    

    بعد ذلك، أنشئ مستخدم قاعدة بيانات لتسجيل DataExplorationDB الدخول أعلاه وامنح ADMINISTER DATABASE BULK OPERATIONS الإذن.

    CREATE USER data_explorer FOR LOGIN data_explorer;
    GO
    GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer;
    GO
    
  5. استكشاف محتوى الملف باستخدام المسار النسبي ومصدر البيانات:

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
                BULK '/users/NYCTripSmall.parquet',
                DATA_SOURCE = 'ContosoLake',
                FORMAT='PARQUET'
        ) AS [result]
    
  6. انشر التغييرات التي أجريتها على مساحة العمل.

قاعدة بيانات استكشاف البيانات هو مجرد عنصر نائب بسيط حيث يمكنك تخزين كائنات الأداة المساعدة الخاصة بك. يتيح لك تجمع Synapse SQL القيام بأكثر من ذلك بكثير وإنشاء مستودع بيانات منطقي - طبقة علائقية مبنية فوق مصادر بيانات Azure. تعرف على المزيد حول إنشاء مستودع بيانات منطقي في هذا البرنامج التعليمي.

الخطوات التالية