المرجع: أوبونتو (لينكس) آلة افتراضية علوم البيانات
انظر أدناه للحصول على قائمة بالأدوات المتاحة على جهاز Ubuntu Data Science الظاهري.
مكتبات التعلم العميق
PyTorch
PyTorch هو إطار حوسبة علمي شائع مع دعم واسع لخوارزميات التعلم الآلي. إذا كان جهازك يحتوي على وحدة معالجة رسومات مضمنة ، فيمكنه الاستفادة من وحدة معالجة الرسومات هذه لتسريع التعلم العميق. PyTorch متاح في py38_pytorch البيئة.
H2O
H2O هي منصة سريعة وموزعة للتعلم الآلي والتحليلات التنبؤية في الذاكرة. يتم تثبيت حزمة Python في كل من بيئات الجذر و py35 Anaconda. يتم تثبيت حزمة R أيضا.
لفتح H2O من سطر الأوامر، قم بتشغيل java -jar /dsvm/tools/h2o/current/h2o.jar. هناك العديد من خيارات سطر الأوامر التي قد ترغب في تكوينها. يمكنك الوصول إلى واجهة مستخدم الويب Flow من خلال التصفح للبدءhttp://localhost:54321. تتوفر أيضا نماذج من أجهزة الكمبيوتر المحمولة في JupyterHub.
TensorFlow
TensorFlow هي مكتبة التعلم العميق من Google. إنها مكتبة برامج مفتوحة المصدر للحساب العددي باستخدام الرسوم البيانية لتدفق البيانات. إذا كان جهازك يحتوي على وحدة معالجة رسومات مضمنة ، فيمكنه الاستفادة من وحدة معالجة الرسومات هذه لتسريع التعلم العميق. يتوفر TensorFlow في py38_tensorflow بيئة الكوندا.
Python
يحتوي DSVM على بيئات Python متعددة مثبتة مسبقا ، حيث يكون إصدار Python إما Python 3.8 أو Python 3.6.
للاطلاع على القائمة الكاملة للبيئات المثبتة، قم بالتشغيل conda env list في سطر أوامر.
Jupyter
يأتي DSVM أيضا مع Jupyter ، وهي بيئة لمشاركة التعليمات البرمجية والتحليل. يتم تثبيت Jupyter على DSVM بنكهات مختلفة:
- مختبر جوبيتر
- دفتر ملاحظات Jupyter
- جوبيتر هب
لفتح Jupyter Lab ، افتح Jupyter من قائمة التطبيق أو انقر فوق رمز سطح المكتب. بدلا من ذلك ، يمكنك فتح Jupyter Lab عن طريق التشغيل jupyter lab من سطر الأوامر.
لفتح دفتر ملاحظات Jupyter، افتح سطر أوامر وقم بتشغيل jupyter notebook.
أعلى فتح Jupyter Hub ، افتح اسم DNS https://< VM أو عنوان IP:> 8000 / . سيطلب منك بعد ذلك اسم المستخدم وكلمة المرور المحليين لنظام التشغيل Linux.
ملاحظة
تابع إذا تلقيت أي تحذيرات من الشهادة.
ملاحظة
بالنسبة لصور Ubuntu ، يتم فتح المنفذ 8000 في جدار الحماية بشكل افتراضي عند توفير الجهاز الظاهري.
أباتشي سبارك مستقلة
يتم تثبيت مثيل مستقل من Apache Spark مسبقا على Linux DSVM لمساعدتك في تطوير تطبيقات Spark محليا قبل اختبارها ونشرها على مجموعات كبيرة.
يمكنك تشغيل برامج PySpark من خلال نواة Jupyter. عند فتح Jupyter ، حدد الزر جديد وسترى قائمة بالحبات المتاحة. Spark - Python هي نواة PySpark التي تتيح لك إنشاء تطبيقات Spark باستخدام لغة Python. يمكنك أيضا استخدام Python IDE مثل VS. رمز أو PyCharm لإنشاء برنامج Spark الخاص بك.
في هذا المثيل المستقل، يتم تشغيل مكدس Spark داخل برنامج عميل الاتصال. تعمل هذه الميزة على استكشاف المشكلات وإصلاحها بشكل أسرع وأسهل، مقارنة بالتطوير على مجموعة Spark.
IDEs والمحررين
لديك خيار من بين العديد من برامج تحرير التعليمات البرمجية ، بما في ذلك VS. كود, PyCharm, RStudio, IntelliJ, vi/Vim, Emacs.
مقابل. Code و PyCharm و RStudio و IntelliJ هم محررون رسوميون. لاستخدامها، تحتاج إلى تسجيل الدخول إلى سطح مكتب رسومي. يمكنك فتحها باستخدام اختصارات قائمة سطح المكتب والتطبيق.
Vim و Emacs هما محرران مستندان إلى النصوص. على Emacs ، تجعل حزمة الوظائف الإضافية ESS العمل مع R أسهل داخل محرر Emacs. يمكنك العثور على مزيد من المعلومات على موقع ESS على الويب.
قواعد البيانات
عميل SQL رسومي
يمكن ل SQuirrel SQL ، وهو عميل SQL رسومي ، الاتصال بقواعد بيانات مختلفة (مثل Microsoft SQL Server و MySQL) وتشغيل استعلامات SQL. أسرع طريقة لفتح SQL SQuirrel هي استخدام قائمة التطبيقات من جلسة سطح مكتب رسومية (من خلال عميل X2Go ، على سبيل المثال)
قبل الاستخدام الأول، قم بإعداد برامج التشغيل والأسماء المستعارة لقاعدة البيانات. توجد برامج تشغيل JDBC في /usr/share/java/jdbcdrivers.
لمزيد من المعلومات، راجع SQL SQuirrel.
أدوات سطر الأوامر للوصول إلى Microsoft SQL Server
تأتي حزمة برنامج تشغيل ODBC SQL Server أيضا مع أداتين لسطر الأوامر:
- bcp: تقوم أداة bcp بنسخ البيانات بشكل مجمع بين مثيل Microsoft SQL Server وملف بيانات بتنسيق محدد من قبل المستخدم. يمكنك استخدام أداة bcp لاستيراد أعداد كبيرة من الصفوف الجديدة إلى جداول SQL Server، أو لتصدير البيانات من الجداول إلى ملفات البيانات. لاستيراد البيانات إلى جدول، يجب عليك استخدام ملف تنسيق تم إنشاؤه لهذا الجدول. أو يجب أن تفهم بنية الجدول وأنواع البيانات الصالحة لأعمدته.
لمزيد من المعلومات، راجع الاتصال باستخدام bcp.
sqlcmd: يمكنك إدخال عبارات SQL المعاملات باستخدام أداة sqlcmd. يمكنك أيضا إدخال إجراءات النظام وملفات البرامج النصية في موجه الأوامر. تستخدم هذه الأداة ODBC لتشغيل دفعات SQL المعاملات.
لمزيد من المعلومات، راجع الاتصال باستخدام sqlcmd.
ملاحظة
هناك بعض الاختلافات في هذه الأداة بين نظامي التشغيل Linux و Windows. راجع الوثائق للحصول على التفاصيل.
مكتبات الوصول إلى قاعدة البيانات
تتوفر المكتبات في R و Python للوصول إلى قاعدة البيانات:
- في R، يمكنك استخدام حزمة RODBC أو حزمة dplyr للاستعلام عن عبارات SQL أو تشغيلها على خادم قاعدة البيانات.
- في Python ، توفر مكتبة pyodbc الوصول إلى قاعدة البيانات باستخدام ODBC كطبقة أساسية.
أدوات Azure
يتم تثبيت أدوات Azure التالية على الجهاز الظاهري:
Azure CLI: يمكنك استخدام واجهة سطر الأوامر في Azure لإنشاء موارد Azure وإدارتها من خلال أوامر shell. لفتح أدوات Azure، أدخل تعليمات azure. لمزيد من المعلومات، راجع صفحة وثائق Azure CLI.
Azure Storage Explorer: Azure Storage Explorer هي أداة رسومية يمكنك استخدامها لاستعراض الكائنات التي قمت بتخزينها في حساب تخزين Azure الخاص بك، ولتحميل البيانات وتنزيلها من وإلى نقاط Azure. يمكنك الوصول إلى "مستكشف التخزين" من أيقونة اختصار سطح المكتب. يمكنك أيضا فتحه من مطالبة shell عن طريق إدخال StorageExplorer. يجب تسجيل الدخول من عميل X2Go، أو إعداد إعادة توجيه X11.
مكتبات Azure: فيما يلي بعض المكتبات المثبتة مسبقا.
- Python: المكتبات ذات الصلة ب Azure في Python هي azure و azureml و pydocumentdb و pyodbc. باستخدام المكتبات الثلاث الأولى، يمكنك الوصول إلى خدمات تخزين Azure وAzure التعلم الآلي وAzure Cosmos DB (قاعدة بيانات NoSQL على Azure). تتيح المكتبة الرابعة ، pyodbc (جنبا إلى جنب مع برنامج تشغيل Microsoft ODBC SQL Server) ، الوصول إلى SQL Server وقاعدة بيانات Azure SQL و Azure Synapse Analytics من Python باستخدام واجهة ODBC. أدخل قائمة النقاط لرؤية جميع المكتبات المدرجة. تأكد من تشغيل هذا الأمر في كل من بيئات Python 2.7 و 3.5.
- R: المكتبات ذات الصلة ب Azure في R هي AzureML و RODBC.
- Java: يمكن العثور على قائمة مكتبات Azure Java في الدليل /dsvm/sdk/AzureSDKJava على الجهاز الظاهري. المكتبات الرئيسية هي واجهات برمجة تطبيقات Azure للتخزين والإدارة وAzure Cosmos DB وبرامج تشغيل JDBC SQL Server.
التعلم الآلي من Azure
Azure التعلم الآلي هي خدمة سحابية مدارة بالكامل تمكنك من إنشاء حلول التحليلات التنبؤية ونشرها ومشاركتها. يمكنك إنشاء تجاربك ونماذجك في استوديو Azure التعلم الآلي (المعاينة). يمكنك الوصول إليه من متصفح ويب على الجهاز الظاهري لعلوم البيانات من خلال زيارة التعلم الآلي من Microsoft Azure.
بعد تسجيل الدخول إلى استوديو Azure التعلم الآلي، يمكنك استخدام لوحة تجريبية لإنشاء تدفق منطقي لخوارزميات التعلم الآلي. يمكنك أيضا الوصول إلى دفتر ملاحظات Jupyter المستضاف على Azure التعلم الآلي ويمكنه العمل بسلاسة مع التجارب في استوديو Azure التعلم الآلي.
قم بتشغيل نماذج التعلم الآلي التي قمت بإنشائها عن طريق لفها في واجهة خدمة ويب. إن تفعيل نماذج التعلم الآلي يمكن العملاء المكتوبين بأي لغة من استدعاء التنبؤات من تلك النماذج. لمزيد من المعلومات، راجع وثائق التعلم الآلي.
يمكنك أيضا إنشاء نماذجك في R أو Python على الجهاز الظاهري، ثم نشرها في الإنتاج على Azure التعلم الآلي. لقد قمنا بتثبيت مكتبات في R (AzureML) و Python (azureml) لتمكين هذه الوظيفة.
ملاحظة
تمت كتابة هذه التعليمات للإصدار Windows من الجهاز الظاهري لعلوم البيانات. لكن المعلومات المقدمة هناك حول نشر النماذج إلى Azure التعلم الآلي قابلة للتطبيق على جهاز Linux الظاهري.
أدوات التعلم الآلي
يأتي الجهاز الظاهري مزودا بأدوات التعلم الآلي والخوارزميات التي تم تجميعها مسبقا وتثبيتها مسبقا محليا. وتشمل هذه القيود ما يلي:
Vowpal Wabbit: خوارزمية تعلم سريعة عبر الإنترنت.
xgboost: أداة توفر خوارزميات شجرة محسنة ومعززة.
Rattle: أداة رسومية قائمة على R لسهولة استكشاف البيانات ونمذجتها.
Python: Anaconda Python يأتي مزودا بخوارزميات التعلم الآلي مع مكتبات مثل Scikit-learn. يمكنك تثبيت مكتبات أخرى باستخدام الأمر
pip install.LightGBM: إطار عمل سريع وموزع وعالي الأداء لتعزيز التدرج يعتمد على خوارزميات شجرة القرار.
R: تتوفر مكتبة غنية من وظائف التعلم الآلي ل R. تشمل المكتبات المثبتة مسبقا lm و glm و randomForest و rpart. يمكنك تثبيت مكتبات أخرى عن طريق تشغيل هذا الأمر:
install.packages(<lib name>)
فيما يلي بعض المعلومات الإضافية حول أدوات التعلم الآلي الثلاث الأولى في القائمة.
فوبال وابيت
Vowpal Wabbit هو نظام للتعلم الآلي يستخدم تقنيات مثل الإنترنت ، التجزئة ، التقليل ، التخفيضات ، learning2search ، التعلم النشط ، والتعلم التفاعلي.
لتشغيل الأداة على مثال أساسي، استخدم الأوامر التالية:
cp -r /dsvm/tools/VowpalWabbit/demo vwdemo
cd vwdemo
vw house_dataset
هناك عروض توضيحية أخرى أكبر في هذا الدليل. لمزيد من المعلومات حول Vowpal Wabbit، راجع هذا القسم من GitHubوموقع Vowpal Wabbit wiki.
إكس جبوست
تم تصميم مكتبة xgboost وتحسينها للخوارزميات المعززة (الشجرة). الهدف من هذه المكتبة هو دفع حدود الحساب للآلات إلى أقصى الحدود اللازمة لتوفير تعزيز شجرة واسع النطاق قابل للتطوير ومحمول ودقيق.
يتم توفيره كسطر أوامر ومكتبة R. لاستخدام هذه المكتبة في R، يمكنك بدء جلسة عمل R تفاعلية (عن طريق إدخال R في shell) وتحميل المكتبة.
إليك مثال بسيط يمكنك تشغيله في مطالبة R:
library(xgboost)
data(agaricus.train, package='xgboost')
data(agaricus.test, package='xgboost')
train <- agaricus.train
test <- agaricus.test
bst <- xgboost(data = train$data, label = train$label, max.depth = 2,
eta = 1, nthread = 2, nround = 2, objective = "binary:logistic")
pred <- predict(bst, test$data)
لتشغيل سطر أوامر xgboost ، إليك الأوامر التي يجب تشغيلها في shell:
cp -r /dsvm/tools/xgboost/demo/binary_classification/ xgboostdemo
cd xgboostdemo
xgboost mushroom.conf
تتم كتابة ملف .model إلى الدليل المحدد. يمكنك العثور على معلومات حول هذا المثال التجريبي على GitHub.
لمزيد من المعلومات حول xgboost، راجع صفحة وثائق xgboostومستودع GitHub الخاص بها.
جلجل
يستخدم Rattle (Tool ToLearn Easily RAnalyticalToolEasily) استكشاف البيانات والنمذجة المستندة إلى واجهة المستخدم الرسومية. فهو يقدم ملخصات إحصائية وبصرية للبيانات، ويحول البيانات التي يمكن نمذجتها بسهولة، ويبني نماذج غير خاضعة للإشراف وخاضعة للإشراف من البيانات، ويعرض أداء النماذج بيانيا، ويسجل مجموعات بيانات جديدة. كما أنه يولد رمز R ، ويكرر العمليات في واجهة المستخدم التي يمكن تشغيلها مباشرة في R أو استخدامها كنقطة انطلاق لمزيد من التحليل.
لتشغيل Rattle ، يجب أن تكون في جلسة تسجيل دخول سطح مكتب رسومية. على المحطة الطرفية، أدخل R لفتح بيئة R. في موجه R، أدخل الأوامر التالية:
library(rattle)
rattle()
الآن يتم فتح واجهة رسومية مع مجموعة من علامات التبويب. استخدم خطوات البدء السريع التالية في Rattle لاستخدام مجموعة بيانات الطقس النموذجية وإنشاء نموذج. في بعض الخطوات، تتم مطالبتك بتثبيت بعض حزم R المطلوبة غير الموجودة بالفعل على النظام وتحميلها تلقائيا.
ملاحظة
إذا لم يكن لديك حق الوصول إلى تثبيت الحزمة في دليل النظام (الافتراضي)، فقد تظهر لك مطالبة في نافذة وحدة تحكم R لتثبيت الحزم في مكتبتك الشخصية. أجب y إذا رأيت هذه المطالبات.
- حدد «Execute».
- يظهر مربع حوار يسألك عما إذا كنت تريد استخدام مثال مجموعة بيانات الطقس. حدد نعم لتحميل المثال.
- حدد علامة التبويب نموذج .
- حدد تنفيذ لإنشاء شجرة قرار.
- حدد رسم لعرض شجرة القرار.
- حدد خيار الغابة ، وحدد تنفيذ لإنشاء مجموعة تفرعات عشوائية.
- حدد علامة التبويب تقييم .
- حدد خيار المخاطرة ، وحدد تنفيذ لعرض مخططي أداء المخاطر (الركاميين ).
- حدد علامة التبويب سجل لإظهار رمز R الذي تم إنشاؤه للعمليات السابقة. (بسبب وجود خطأ في الإصدار الحالي من Rattle ، تحتاج إلى إدراج # حرف أمام تصدير هذا السجل في نص السجل.)
- حدد الزر تصدير لحفظ ملف البرنامج النصي R المسمى weather_script. R إلى المجلد الرئيسي.
يمكنك الخروج من خشخشة و R. الآن يمكنك تعديل البرنامج النصي R الذي تم إنشاؤه. أو استخدم البرنامج النصي كما هو ، وقم بتشغيله في أي وقت لتكرار كل ما تم إجراؤه داخل واجهة مستخدم Rattle. خاصة بالنسبة للمبتدئين في R ، هذه طريقة للقيام بسرعة بالتحليل والتعلم الآلي في واجهة رسومية بسيطة ، مع إنشاء التعليمات البرمجية تلقائيا في R لتعديلها أو تعلمها.
الخطوات التالية
هل لديك أسئلة إضافية؟ فكر في إنشاء تذكرة دعم.