منصات البيانات المدعومة على الجهاز الظاهري لعلوم البيانات

باستخدام الجهاز الظاهري لعلوم البيانات (DSVM)، يمكنك إنشاء تحليلاتك مقابل مجموعة واسعة من منصات البيانات. بالإضافة إلى واجهات لمنصات البيانات عن بعد ، يوفر DSVM مثالا محليا للتطوير السريع والنماذج الأولية.

يتم دعم أدوات النظام الأساسي للبيانات التالية على DSVM.

SQL Server إصدار المطور

الفئة القيمة
ما طبيعتها؟ مثيل قاعدة بيانات علائقية محلية
إصدارات DSVM المدعومة Windows 2019 ، أوبونتو 18.04 (SQL Server 2019)
الاستخدامات النموذجية
  • تطور سريع محليا مع مجموعة بيانات أصغر
  • تشغيل R داخل قاعدة البيانات
روابط إلى عينات
  • يتم تحميل عينة صغيرة من مجموعة بيانات مدينة نيويورك في قاعدة بيانات SQL:
    nyctaxi
  • يمكن العثور على عينة Jupyter التي تعرض Microsoft التعلم الآلي Server والتحليلات داخل قاعدة البيانات على:
    ~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb
الأدوات ذات الصلة على DSVM
  • SQL Server Management Studio
  • برامج تشغيل ODBC/JDBC
  • بيودبك، رودبك

ملاحظة

SQL Server يمكن استخدام إصدار المطور فقط لأغراض التطوير والاختبار. تحتاج إلى ترخيص أو أحد الأجهزة الظاهرية SQL Server لتشغيله في الإنتاج.

ملاحظة

سينتهي دعم خادم التعلم الآلي المستقل في 1 يوليو 2021. سنقوم بإزالته من صور DSVM بعد 30 يونيو. ستستمر عمليات النشر الحالية في الوصول إلى البرنامج ولكن نظرا لتاريخ انتهاء الدعم الذي تم الوصول إليه ، لن يكون هناك دعم له بعد 1 يوليو 2021.

ملاحظة

سنقوم بإزالة إصدار مطور SQL Server من صور DSVM بحلول نهاية نوفمبر 2021. ستستمر عمليات النشر الحالية في تثبيت إصدار المطور SQL Server. في عمليات النشر الجديدة، إذا كنت ترغب في الوصول إلى إصدار مطوري SQL Server فيمكنك تثبيته واستخدامه عبر دعم Docker راجع التشغيل السريع: تشغيل صور حاوية SQL Server باستخدام Docker

Windows

الإعداد

تم تكوين خادم قاعدة البيانات مسبقا بالفعل وتم تعيين الخدمات Windows المتعلقة SQL Server (مثلSQL Server (MSSQLSERVER)) ليتم تشغيلها تلقائيا. تتضمن الخطوة اليدوية الوحيدة تمكين التحليلات داخل قاعدة البيانات باستخدام Microsoft التعلم الآلي Server. يمكنك تمكين التحليلات عن طريق تشغيل الأمر التالي كإجراء لمرة واحدة في SQL Server Management Studio (SSMS). قم بتشغيل هذا الأمر بعد تسجيل الدخول كمسؤول الجهاز، وافتح استعلاما جديدا في SSMS، وتأكد من أن قاعدة البيانات المحددة هي master:

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS 

(استبدل ٪COMPUTERNAME٪ باسم الجهاز الظاهري.)

لتشغيل SQL Server Management Studio ، يمكنك البحث عن "SQL Server Management Studio" في قائمة البرامج ، أو استخدام Windows Search للعثور عليه وتشغيله. عند مطالبتك ببيانات الاعتماد، حدد مصادقة Windows واستخدم اسم الجهاز أو localhost في الحقل اسم SQL Server.

كيفية استخدامه وتشغيله

بشكل افتراضي، يتم تشغيل خادم قاعدة البيانات مع مثيل قاعدة البيانات الافتراضي تلقائيا. يمكنك استخدام أدوات مثل SQL Server Management Studio على الجهاز الظاهري للوصول إلى قاعدة بيانات SQL Server محليا. حسابات المسؤول المحلي لديها حق وصول المسؤول على قاعدة البيانات.

أيضا ، يأتي DSVM مع برامج تشغيل ODBC و JDBC للتحدث إلى SQL Server وقواعد بيانات Azure SQL و Azure Synapse Analytics من التطبيقات المكتوبة بلغات متعددة ، بما في ذلك Python و التعلم الآلي Server.

كيف يتم تكوينه وتثبيته على DSVM؟

يتم تثبيت SQL Server بالطريقة القياسية. يمكن العثور عليها في C:\Program Files\Microsoft SQL Server. تم العثور على مثيل خادم التعلم الآلي في قاعدة البيانات في C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. يحتوي DSVM أيضا على مثيل خادم التعلم الآلي مستقل منفصل ، والذي يتم تثبيته في C:\Program Files\Microsoft\R Server\R_SERVER. لا تشارك هاتان المثيلان التعلم الآلي Server المكتبات.

Ubuntu

لاستخدام SQL Server Developer Edition على Ubuntu DSVM ، تحتاج إلى تثبيته أولا. التشغيل السريع: تثبيت SQL Server وإنشاء قاعدة بيانات على Ubuntu يخبرك كيف.

أباتشي سبارك 2.x (مستقل)

الفئة القيمة
ما طبيعتها؟ مثيل مستقل (عقدة واحدة قيد المعالجة) لمنصة Apache Spark الشهيرة ؛ نظام لمعالجة البيانات بسرعة وعلى نطاق واسع والتعلم الآلي
إصدارات DSVM المدعومة Linux
الاستخدامات النموذجية
  • التطوير السريع لتطبيقات Spark/PySpark محليا مع مجموعة بيانات أصغر والنشر لاحقا على مجموعات Spark الكبيرة مثل Azure HDInsight
  • اختبار سياق شرارة خادم التعلم الآلي Microsoft
  • استخدم SparkML أو مكتبة MMLSpark مفتوحة المصدر من Microsoft لإنشاء تطبيقات ML
روابط إلى عينات عينة جوبيتر:
  • ~/أجهزة الكمبيوتر المحمولة/سباركML/pySpark
  • ~/أجهزة الكمبيوتر المحمولة/MMLSpark

خادم التعلم الآلي Microsoft (سياق الشرارة): /dsvm/samples/MRS/MRSSparkContextSample.R

الأدوات ذات الصلة على DSVM
  • بيسبارك، سكالا
  • Jupyter (حبات شرارة / PySpark)
  • مايكروسوفت التعلم الآلي سيرفر، سبارك، سباركلير
  • أباتشي دريل

كيفية استخدامه

يمكنك إرسال مهام Spark في سطر الأوامر عن طريق تشغيل spark-submit الأمر أو pyspark . يمكنك أيضا إنشاء دفتر ملاحظات Jupyter عن طريق إنشاء دفتر ملاحظات جديد باستخدام نواة Spark.

يمكنك استخدام Spark من R باستخدام مكتبات مثل SparkR وSparklyr وMicrosoft التعلم الآلي Server، المتوفرة على DSVM. راجع مؤشرات العينات في الجدول السابق.

الإعداد

قبل التشغيل في سياق Spark في Microsoft التعلم الآلي Server على إصدار Ubuntu Linux DSVM ، يجب إكمال خطوة إعداد لمرة واحدة لتمكين مثيل Hadoop HDFS و Yarn محلي أحادي العقدة. بشكل افتراضي ، يتم تثبيت خدمات Hadoop ولكن يتم تعطيلها على DSVM. لتمكينها، قم بتشغيل الأوامر التالية كجذر في المرة الأولى:

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

يمكنك إيقاف الخدمات المتعلقة ب Hadoop عندما لم تعد بحاجة إليها عن طريق التشغيل systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn.

يتم توفير عينة توضح كيفية تطوير MRS واختبارها في سياق Spark بعيد (وهو مثيل Spark المستقل على DSVM) ومتوفر في الدليل /dsvm/samples/MRS .

كيف يتم تكوينه وتثبيته على DSVM؟

النظام الأساسي موقع التثبيت ($SPARK_HOME)
Linux /dsvm/tools/spark-X.X.X-bin-hadoopX.X

المكتبات للوصول إلى البيانات من تخزين Azure Blob أو Azure Data Lake Storage، باستخدام مكتبات التعلم الآلي Microsoft MMLSpark، مثبتة مسبقا في $SPARK_HOME/jars. يتم تحميل هذه JARs تلقائيا عند بدء تشغيل Spark. بشكل افتراضي، يستخدم Spark البيانات الموجودة على القرص المحلي.

بالنسبة لمثيل Spark على DSVM للوصول إلى البيانات المخزنة في وحدة تخزين Blob أو Azure Data Lake Storage، يجب إنشاء الملف وتكوينه core-site.xml استنادا إلى القالب الموجود في $SPARK_HOME/conf/core-site.xml.template. يجب أن يكون لديك أيضا بيانات الاعتماد المناسبة للوصول إلى تخزين Blob Azure Data Lake Storage. (لاحظ أن ملفات القوالب تستخدم عناصر نائبة لتخزين Blob وتكوينات Azure Data Lake Storage.)

لمزيد من المعلومات التفصيلية حول إنشاء بيانات اعتماد خدمة Azure Data Lake Storage، راجع المصادقة باستخدام Azure Data Lake Storage Gen1. بعد إدخال بيانات اعتماد تخزين Blob أو Azure Data Lake Storage في ملف core-site.xml، يمكنك الرجوع إلى البيانات المخزنة في تلك المصادر من خلال بادئة URI wasb:// أو adl://.