علم البيانات مع Windows آلة افتراضية لعلوم البيانات
تعد Windows Data Science Virtual Machine (DSVM) بيئة قوية لتطوير علوم البيانات حيث يمكنك تنفيذ مهام استكشاف البيانات ونمذجتها. تأتي البيئة مبنية بالفعل ومجمعة مع العديد من أدوات تحليل البيانات الشائعة التي تجعل من السهل البدء في تحليلك لعمليات النشر المحلية أو السحابية أو المختلطة.
يعمل DSVM بشكل وثيق مع خدمات Azure. يمكنه قراءة ومعالجة البيانات المخزنة بالفعل على Azure أو في Azure Synapse (سابقا SQL DW) أو Azure Data Lake أو Azure Storage أو Azure Cosmos DB. ويمكنه أيضا الاستفادة من أدوات التحليلات الأخرى، مثل Azure التعلم الآلي.
في هذه المقالة، ستتعرف على كيفية استخدام DSVM لتنفيذ مهام علوم البيانات والتفاعل مع خدمات Azure الأخرى. فيما يلي بعض الأشياء التي يمكنك القيام بها على DSVM:
استخدم دفتر ملاحظات Jupyter لتجربة بياناتك في مستعرض باستخدام Python 2 وPython 3 وMicrosoft R. (Microsoft R هو إصدار جاهز للمؤسسات من R مصمم للأداء.)
استكشف البيانات وقم بتطوير النماذج محليا على DSVM باستخدام Microsoft التعلم الآلي Server و Python.
قم بإدارة موارد Azure باستخدام مدخل Azure أو PowerShell.
يمكنك توسيع مساحة التخزين الخاصة بك ومشاركة مجموعات البيانات/التعليمات البرمجية واسعة النطاق عبر فريقك بأكمله من خلال إنشاء مشاركة Azure Files كمحرك أقراص قابل للتركيب على DSVM.
شارك التعليمات البرمجية مع فريقك باستخدام GitHub. يمكنك الوصول إلى المستودع الخاص بك باستخدام عملاء Git المثبتين مسبقا: Git Bash و Git GUI.
الوصول إلى خدمات Azure data and analytics مثل Azure Blob storage وAzure Cosmos DB وAzure Synapse (سابقا SQL DW) وAzure SQL Database.
أنشئ تقارير ولوحة معلومات باستخدام مثيل Power BI Desktop المثبت مسبقا على DSVM، وانشرها في السحابة.
قم بتثبيت أدوات إضافية على جهازك الظاهري.
ملاحظة
يتم تطبيق رسوم استخدام إضافية على العديد من خدمات تخزين البيانات والتحليلات المدرجة في هذه المقالة. للحصول على التفاصيل، راجع صفحة تسعير Azure .
المتطلبات الأساسية
- يلزم الحصول على اشتراك Azure. يمكنك الاشتراك للحصول على نسخة تجريبية مجانية.
- تتوفر إرشادات حول توفير جهاز ظاهري لعلوم البيانات على مدخل Azure في إنشاء جهاز ظاهري.
ملاحظة
تستخدم هذه المقالة الوحدة النمطية Azure Az PowerShell، وهي الوحدة النمطية PowerShell الموصى بها للتفاعل مع Azure. لبدء استخدام الوحدة النمطية Az PowerShell، راجع تثبيت Azure PowerShell. لمعرفة كيفية الترحيل إلى الوحدة النمطية Az PowerShell، راجع ترحيل Azure PowerShell من AzureRM إلى Az.
استخدام دفاتر Jupyter المحمولة
يوفر Jupyter Notebook بيئة تطوير متكاملة تستند إلى المستعرض لاستكشاف البيانات ونمذجتها. يمكنك استخدام Python 2 أو Python 3 أو R في دفتر ملاحظات Jupyter.
لبدء تشغيل دفتر ملاحظات Jupyter، حدد أيقونة دفتر ملاحظات Jupyter من القائمة ابدأ أو على سطح المكتب. في موجه الأوامر DSVM، يمكنك أيضا تشغيل الأمر jupyter notebook من الدليل حيث لديك دفاتر ملاحظات موجودة أو حيث تريد إنشاء دفاتر ملاحظات جديدة.
بعد بدء تشغيل Jupyter، انتقل إلى /notebooks الدليل على سبيل المثال دفاتر الملاحظات التي تم تعبئتها مسبقا في DSVM. يمكنك الآن:
- حدد دفتر الملاحظات لرؤية التعليمة البرمجية.
- قم بتشغيل كل خلية عن طريق تحديد Shift+Enter.
- قم بتشغيل دفتر الملاحظات بالكامل عن طريق تحديد CellRun>.
- قم بإنشاء دفتر ملاحظات جديد عن طريق تحديد أيقونة Jupyter (الزاوية العلوية اليمنى)، وتحديد الزر جديد على اليمين، ثم اختيار لغة دفتر الملاحظات (المعروفة أيضا باسم kernels).
ملاحظة
حاليا ، يتم دعم حبات Python 2.7 و Python 3.6 و R و Julia و PySpark في Jupyter. تدعم R kernel البرمجة في كل من R مفتوح المصدر و Microsoft R.
عندما تكون في دفتر الملاحظات، يمكنك استكشاف البيانات وإنشاء النموذج واختبار النموذج باستخدام المكتبات التي تختارها.
استكشاف البيانات وتطوير النماذج باستخدام Microsoft التعلم الآلي Server
ملاحظة
سينتهي دعم خادم التعلم الآلي المستقل في 1 يوليو 2021. سنقوم بإزالته من صور DSVM بعد 30 يونيو. ستستمر عمليات النشر الحالية في الوصول إلى البرنامج ولكن نظرا لتاريخ انتهاء الدعم الذي تم الوصول إليه ، لن يكون هناك دعم له بعد 1 يوليو 2021.
يمكنك استخدام لغات مثل R و Python لإجراء تحليلات البيانات الخاصة بك مباشرة على DSVM.
بالنسبة إلى R ، يمكنك استخدام IDE مثل RStudio الذي يمكن العثور عليه في قائمة البدء أو على سطح المكتب. أو يمكنك استخدام أدوات R Visual Studio. قدمت Microsoft مكتبات إضافية بالإضافة إلى CRAN R مفتوح المصدر لتمكين التحليلات القابلة للتطوير والقدرة على تحليل البيانات أكبر من حجم الذاكرة المسموح به في التحليل المتوازي المقطع.
بالنسبة إلى Python ، يمكنك استخدام IDE مثل Visual Studio Community Edition ، والذي يحتوي على ملحق Python Tools for Visual Studio (PTVS) مثبت مسبقا. بشكل افتراضي ، يتم تكوين Python 3.6 فقط ، بيئة Conda الجذر ، على PTVS. لتمكين Anaconda Python 2.7، اتبع الخطوات التالية:
- قم بإنشاء بيئات مخصصة لكل إصدار بالانتقال إلى ToolsPython ToolsPython>>Environments، ثم حدد + مخصص في إصدار المجتمع Visual Studio.
- أعط وصفا وقم بتعيين مسار بادئة البيئة ك c:\anaconda\envs\python2 ل Anaconda Python 2.7.
- حدد الكشف> التلقائي عن التطبيق لحفظ البيئة.
راجع وثائق PTVS لمزيد من التفاصيل حول كيفية إنشاء بيئات Python.
الآن أنت مستعد لإنشاء مشروع بايثون جديد. انتقل إلى FileNew>>Project> Python وحدد نوع تطبيق Python الذي تقوم بإنشائه. يمكنك تعيين بيئة Python للمشروع الحالي إلى الإصدار المطلوب (Python 2.7 أو 3.6) عن طريق النقر بزر الماوس الأيمن فوق بيئات Python ثم تحديد إضافة/إزالة بيئات Python. يمكنك العثور على مزيد من المعلومات حول العمل مع PTVS في وثائق المنتج.
إدارة موارد Azure
لا يسمح لك DSVM فقط بإنشاء حل التحليلات الخاص بك محليا على الجهاز الظاهري. كما يسمح لك بالوصول إلى الخدمات على النظام الأساسي السحابي Azure. يوفر Azure العديد من خدمات الحوسبة والتخزين وتحليلات البيانات وغيرها من الخدمات التي يمكنك إدارتها والوصول إليها من DSVM.
لإدارة اشتراك Azure وموارد السحابة، لديك خياران:
استخدم المستعرض وانتقل إلى مدخل Azure.
استخدم البرامج النصية PowerShell. قم بتشغيل Azure PowerShell من اختصار على سطح المكتب أو من القائمة ابدأ . راجع وثائق Microsoft Azure PowerShell للحصول على التفاصيل الكاملة.
توسيع مساحة التخزين باستخدام أنظمة الملفات المشتركة
يمكن لعلماء البيانات مشاركة مجموعات البيانات الكبيرة أو التعليمات البرمجية أو الموارد الأخرى داخل الفريق. يحتوي DSVM على حوالي 45 غيغابايت من المساحة المتاحة. لتوسيع مساحة التخزين الخاصة بك، يمكنك استخدام Azure Files وإما تثبيته على واحد أو أكثر من مثيلات DSVM أو الوصول إليه عبر واجهة برمجة تطبيقات REST. يمكنك أيضا استخدام مدخل Azure أو استخدام Azure PowerShell لإضافة أقراص بيانات مخصصة إضافية.
ملاحظة
الحد الأقصى للمساحة على مشاركة ملفات Azure هو 5 تيرابايت. الحد الأقصى لحجم كل ملف هو 1 تيرابايت.
يمكنك استخدام هذا البرنامج النصي في Azure PowerShell لإنشاء مشاركة ملفات Azure:
# Authenticate to Azure.
Connect-AzAccount
# Select your subscription
Get-AzSubscription –SubscriptionName "<your subscription name>" | Select-AzSubscription
# Create a new resource group.
New-AzResourceGroup -Name <dsvmdatarg>
# Create a new storage account. You can reuse existing storage account if you want.
New-AzStorageAccount -Name <mydatadisk> -ResourceGroupName <dsvmdatarg> -Location "<Azure Data Center Name For eg. South Central US>" -Type "Standard_LRS"
# Set your current working storage account
Set-AzCurrentStorageAccount –ResourceGroupName "<dsvmdatarg>" –StorageAccountName <mydatadisk>
# Create an Azure Files share
$s = New-AzStorageShare <<teamsharename>>
# Create a directory under the file share. You can give it any name
New-AzStorageDirectory -Share $s -Path <directory name>
# List the share to confirm that everything worked
Get-AzStorageFile -Share $s
الآن بعد أن قمت بإنشاء مشاركة Azure Files، يمكنك تركيبها في أي جهاز ظاهري في Azure. نوصي بوضع الجهاز الظاهري في مركز بيانات Azure نفسه مثل حساب التخزين، لتجنب رسوم زمن الوصول ونقل البيانات. فيما يلي أوامر Azure PowerShell لتحميل محرك الأقراص على DSVM:
# Get the storage key of the storage account that has the Azure Files share from the Azure portal. Store it securely on the VM to avoid being prompted in the next command.
cmdkey /add:<<mydatadisk>>.file.core.windows.net /user:<<mydatadisk>> /pass:<storage key>
# Mount the Azure Files share as drive Z on the VM. You can choose another drive letter if you want.
net use z: \\<mydatadisk>.file.core.windows.net\<<teamsharename>>
الآن يمكنك الوصول إلى محرك الأقراص هذا كما تفعل مع أي محرك أقراص عادي على الجهاز الظاهري.
مشاركة الرمز في GitHub
GitHub هو مستودع تعليمات برمجية حيث يمكنك العثور على عينات التعليمات البرمجية والمصادر لمختلف الأدوات باستخدام التقنيات التي يشاركها مجتمع المطورين. يستخدم Git كتقنية لتتبع وتخزين إصدارات ملفات التعليمات البرمجية. GitHub هو أيضا نظام أساسي حيث يمكنك إنشاء مستودع خاص بك لتخزين التعليمات البرمجية والوثائق المشتركة لفريقك ، وتنفيذ التحكم في الإصدار ، والتحكم في من لديه حق الوصول لعرض التعليمات البرمجية والمساهمة بها.
تفضل بزيارة صفحات مساعدة GitHub للحصول على مزيد من المعلومات حول استخدام Git. يمكنك استخدام GitHub كإحدى الطرق للتعاون مع فريقك، واستخدام التعليمات البرمجية التي طورها المجتمع، والمساهمة بالتعليمات البرمجية مرة أخرى في المجتمع.
يأتي DSVM محملا بأدوات العميل في سطر الأوامر وعلى واجهة المستخدم الرسومية للوصول إلى مستودع GitHub. تسمى أداة سطر الأوامر التي تعمل مع Git و GitHub Git Bash. يتم تثبيت Visual Studio على DSVM ويحتوي على ملحقات Git. يمكنك العثور على أيقونات لهذه الأدوات في القائمة " ابدأ" وعلى سطح المكتب.
لتنزيل التعليمات البرمجية من مستودع GitHub، يمكنك استخدام git clone الأمر. على سبيل المثال، لتنزيل مستودع علوم البيانات الذي نشرته Microsoft في الدليل الحالي، يمكنك تشغيل الأمر التالي في Git Bash:
git clone https://github.com/Azure/DataScienceVM.git
في Visual Studio ، يمكنك القيام بنفس عملية الاستنساخ. توضح لقطة الشاشة التالية كيفية الوصول إلى أدوات Git و GitHub في Visual Studio:

يمكنك العثور على مزيد من المعلومات حول استخدام Git للعمل مع مستودع GitHub من الموارد المتاحة على github.com. ورقة الغش هي مرجع مفيد.
الوصول إلى خدمات بيانات وتحليلات Azure
موقع تخزين Azure Blob
تخزين Azure Blob هو خدمة تخزين سحابي موثوقة واقتصادية للبيانات الكبيرة والصغيرة. يوضح هذا القسم كيفية نقل البيانات إلى تخزين Blob والوصول إلى البيانات المخزنة في نقطة Azure.
المتطلبات الأساسية
قم بإنشاء حساب تخزين Azure Blob الخاص بك من مدخل Azure.

تأكد من تثبيت أداة AzCopy لسطر الأوامر مسبقا:
C:\Program Files (x86)\Microsoft SDKs\Azure\AzCopy\azcopy.exe. الدليل الذي يحتوي على azcopy.exe موجود بالفعل على متغير بيئة PATH الخاص بك، بحيث يمكنك تجنب كتابة مسار الأوامر الكامل عند تشغيل هذه الأداة. لمزيد من المعلومات حول أداة AzCopy، راجع وثائق AzCopy.بدء تشغيل أداة Azure Storage Explorer. يمكنك تنزيله من صفحة ويب "مستكشف التخزين".

نقل البيانات من جهاز ظاهري إلى نقطة Azure: AzCopy
لنقل البيانات بين الملفات المحلية وتخزين Blob، يمكنك استخدام AzCopy في سطر الأوامر أو في PowerShell:
AzCopy /Source:C:\myfolder /Dest:https://<mystorageaccount>.blob.core.windows.net/<mycontainer> /DestKey:<storage account key> /Pattern:abc.txt
استبدل C:\myfolder بالمسار الذي يتم فيه تخزين ملفك، وحساب mystorageaccount باسم حساب تخزين Blob، وmycontainer باسم الحاوية، ومفتاح حساب التخزين بمفتاح الوصول إلى تخزين Blob. يمكنك العثور على بيانات اعتماد حساب التخزين الخاص بك في مدخل Azure.
قم بتشغيل الأمر AzCopy في PowerShell أو من موجه الأوامر. فيما يلي بعض الأمثلة على استخدام الأمر AzCopy:
# Copy *.sql from a local machine to an Azure blob
"C:\Program Files (x86)\Microsoft SDKs\Azure\AzCopy\azcopy" /Source:"c:\Aaqs\Data Science Scripts" /Dest:https://[ENTER STORAGE ACCOUNT].blob.core.windows.net/[ENTER CONTAINER] /DestKey:[ENTER STORAGE KEY] /S /Pattern:*.sql
# Copy back all files from an Azure blob container to a local machine
"C:\Program Files (x86)\Microsoft SDKs\Azure\AzCopy\azcopy" /Dest:"c:\Aaqs\Data Science Scripts\temp" /Source:https://[ENTER STORAGE ACCOUNT].blob.core.windows.net/[ENTER CONTAINER] /SourceKey:[ENTER STORAGE KEY] /S
بعد تشغيل الأمر AzCopy للنسخ إلى نقطة Azure، سيظهر ملفك في مستكشف تخزين Azure.

نقل البيانات من جهاز ظاهري إلى نقطة Azure: Azure Storage Explorer
يمكنك أيضا تحميل البيانات من الملف المحلي في الجهاز الظاهري باستخدام Azure Storage Explorer:
- لتحميل البيانات إلى حاوية، حدد الحاوية المستهدفة وحدد الزر Upload.

- حدد علامة الحذف (...) على يسار المربع ملفات، وحدد ملفا واحدا أو عدة ملفات لتحميلها من نظام الملفات، وحدد Upload لبدء تحميل الملفات.

قراءة البيانات من نقطة Azure: Python ODBC
يمكنك استخدام مكتبة BlobService لقراءة البيانات مباشرة من نقطة في دفتر ملاحظات Jupyter أو في برنامج Python.
أولا ، استيراد الحزم المطلوبة:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np
import matplotlib.pyplot as plt
from time import time
import pyodbc
import os
from azure.storage.blob import BlobService
import tables
import time
import zipfile
import random
بعد ذلك ، قم بتوصيل بيانات اعتماد حساب تخزين Blob وقراءة البيانات من النقطة:
CONTAINERNAME = 'xxx'
STORAGEACCOUNTNAME = 'xxxx'
STORAGEACCOUNTKEY = 'xxxxxxxxxxxxxxxx'
BLOBNAME = 'nyctaxidataset/nyctaxitrip/trip_data_1.csv'
localfilename = 'trip_data_1.csv'
LOCALDIRECTORY = os.getcwd()
LOCALFILE = os.path.join(LOCALDIRECTORY, localfilename)
#download from blob
t1 = time.time()
blob_service = BlobService(account_name=STORAGEACCOUNTNAME,account_key=STORAGEACCOUNTKEY)
blob_service.get_blob_to_path(CONTAINERNAME,BLOBNAME,LOCALFILE)
t2 = time.time()
print(("It takes %s seconds to download "+BLOBNAME) % (t2 - t1))
#unzip downloaded files if needed
#with zipfile.ZipFile(ZIPPEDLOCALFILE, "r") as z:
# z.extractall(LOCALDIRECTORY)
df1 = pd.read_csv(LOCALFILE, header=0)
df1.columns = ['medallion','hack_license','vendor_id','rate_code','store_and_fwd_flag','pickup_datetime','dropoff_datetime','passenger_count','trip_time_in_secs','trip_distance','pickup_longitude','pickup_latitude','dropoff_longitude','dropoff_latitude']
print 'the size of the data is: %d rows and %d columns' % df1.shape
تتم قراءة البيانات كإطار بيانات:

Azure Synapse Analytics and databases
Azure Synapse Analytics هو مستودع بيانات مرن كخدمة ذات تجربة SQL Server من فئة المؤسسات.
يمكنك توفير Azure Synapse Analytics باتباع الإرشادات الواردة في هذه المقالة. بعد توفير Azure Synapse Analytics، يمكنك استخدام هذه الإرشادات التفصيلية للقيام بتحميل البيانات واستكشافها ونمذجتها باستخدام البيانات داخل Azure Synapse Analytics.
Azure Cosmos DB
Azure Cosmos DB هي قاعدة بيانات NoSQL في السحابة. يمكنك استخدامه للعمل مع مستندات مثل JSON ولتخزين المستندات والاستعلام عنها.
استخدم خطوات المتطلبات الأساسية التالية للوصول إلى قاعدة بيانات Azure Cosmos من DSVM:
تم تثبيت Azure Cosmos DB Python SDK بالفعل على DSVM. لتحديثه، قم بتشغيله
pip install pydocumentdb --upgradeمن موجه الأوامر.إنشاء حساب قاعدة بيانات Azure Cosmos DB من مدخل Azure.
قم بتنزيل أداة ترحيل بيانات Azure Cosmos DB من مركز التنزيل ل Microsoft واستخراجها إلى دليل من اختيارك.
استيراد بيانات JSON (بيانات البركان) المخزنة في نقطة عامة إلى Azure Cosmos DB باستخدام معلمات الأوامر التالية إلى أداة الترحيل. (استخدم dtui.exe من الدليل حيث قمت بتثبيت أداة ترحيل بيانات Azure Cosmos DB.) أدخل المصدر والموقع المستهدف باستخدام هذه المعلمات:
/s:JsonFile /s.Files:https://data.humdata.org/dataset/a60ac839-920d-435a-bf7d-25855602699d/resource/7234d067-2d74-449a-9c61-22ae6d98d928/download/volcano.json /t:DocumentDBBulk /t.ConnectionString:AccountEndpoint=https://[DocDBAccountName].documents.azure.com:443/;AccountKey=[[KEY];Database=volcano /t.Collection:volcano1
بعد استيراد البيانات، يمكنك الانتقال إلى Jupyter وفتح دفتر الملاحظات بعنوان DocumentDBSample. يحتوي على رمز Python للوصول إلى Azure Cosmos DB وإجراء بعض الاستعلام الأساسي. يمكنك معرفة المزيد حول Azure Cosmos DB من خلال زيارة صفحة وثائق الخدمة.
استخدام تقارير Power BI ولوحات المعلومات
يمكنك تصور ملف Volcano JSON من مثال Azure Cosmos DB السابق في Power BI Desktop للحصول على رؤى مرئية حول البيانات. تتوفر خطوات مفصلة في مقالة Power BI. فيما يلي الخطوات عالية المستوى:
- افتح Power BI Desktop وحدد الحصول على البيانات. حدد عنوان URL على النحو التالي:
https://cahandson.blob.core.windows.net/samples/volcano.json. - من المفترض أن تشاهد سجلات JSON التي تم استيرادها كقائمة. قم بتحويل القائمة إلى جدول حتى يتمكن Power BI من العمل معها.
- قم بتوسيع الأعمدة عن طريق تحديد أيقونة التوسيع (السهم).
- لاحظ أن الموقع هو حقل سجل . قم بتوسيع السجل وحدد الإحداثيات فقط. الإحداثيات هي عمود قائمة.
- أضف عمودا جديدا لتحويل عمود إحداثيات القائمة إلى عمود LatLong مفصول بفواصل. تسلسل العنصرين في حقل قائمة الإحداثيات باستخدام الصيغة
Text.From([coordinates]{1})&","&Text.From([coordinates]{0}). - قم بتحويل عمود الارتفاع إلى عشري وحدد الزرين إغلاقوتطبيق .
بدلا من الخطوات السابقة، يمكنك لصق التعليمة البرمجية التالية. يقوم ببرمجة الخطوات المستخدمة في "المحرر المتقدم" في Power BI لكتابة تحويلات البيانات بلغة استعلام.
let
Source = Json.Document(Web.Contents("https://cahandson.blob.core.windows.net/samples/volcano.json")),
#"Converted to Table" = Table.FromList(Source, Splitter.SplitByNothing(), null, null, ExtraValues.Error),
#"Expanded Column1" = Table.ExpandRecordColumn(#"Converted to Table", "Column1", {"Volcano Name", "Country", "Region", "Location", "Elevation", "Type", "Status", "Last Known Eruption", "id"}, {"Volcano Name", "Country", "Region", "Location", "Elevation", "Type", "Status", "Last Known Eruption", "id"}),
#"Expanded Location" = Table.ExpandRecordColumn(#"Expanded Column1", "Location", {"coordinates"}, {"coordinates"}),
#"Added Custom" = Table.AddColumn(#"Expanded Location", "LatLong", each Text.From([coordinates]{1})&","&Text.From([coordinates]{0})),
#"Changed Type" = Table.TransformColumnTypes(#"Added Custom",{{"Elevation", type number}})
in
#"Changed Type"
لديك الآن البيانات في نموذج بيانات Power BI. يجب أن يظهر مثيل Power BI Desktop الخاص بك كما يلي:

يمكنك البدء في إنشاء التقارير والمرئيات باستخدام نموذج البيانات. يمكنك اتباع الخطوات الواردة في مقالة Power BI هذه لإنشاء تقرير.
توسيع نطاق DSVM ديناميكيا
يمكنك توسيع نطاق DSVM وتقليصه لتلبية احتياجات مشروعك. إذا لم تكن بحاجة إلى استخدام الجهاز الظاهري في المساء أو في عطلات نهاية الأسبوع، فيمكنك إيقاف تشغيل الجهاز الظاهري من مدخل Azure.
ملاحظة
تتحمل رسوم الحوسبة إذا كنت تستخدم فقط زر إيقاف التشغيل لنظام التشغيل على الجهاز الظاهري. بدلا من ذلك ، يجب عليك تحديد موقع DSVM الخاص بك باستخدام مدخل Azure أو Cloud Shell.
قد تحتاج إلى التعامل مع بعض التحليلات واسعة النطاق وتحتاج إلى المزيد من سعة وحدة المعالجة المركزية أو الذاكرة أو القرص. إذا كان الأمر كذلك ، فيمكنك العثور على مجموعة من أحجام VM من حيث نوى وحدة المعالجة المركزية والمثيلات المستندة إلى وحدة معالجة الرسومات للتعلم العميق وسعة الذاكرة وأنواع الأقراص (بما في ذلك محركات الأقراص ذات الحالة الصلبة) التي تلبي احتياجات الحوسبة والميزانية. تتوفر القائمة الكاملة للأجهزة الظاهرية، إلى جانب تسعير الحوسبة كل ساعة، على صفحة تسعير Azure Virtual Machines .
إضافة المزيد من الأدوات
يمكن للأدوات المضمنة مسبقا في DSVM تلبية العديد من احتياجات تحليلات البيانات الشائعة. هذا يوفر لك الوقت لأنك لست مضطرا إلى تثبيت وتكوين بيئاتك واحدة تلو الأخرى. كما أنه يوفر لك المال ، لأنك تدفع مقابل الموارد التي تستخدمها فقط.
يمكنك استخدام بيانات Azure وخدمات التحليلات الأخرى التي تم تعريفها في هذه المقالة لتحسين بيئة التحليلات الخاصة بك. في بعض الحالات، قد تحتاج إلى أدوات إضافية، بما في ذلك بعض أدوات الشركاء الخاصة. لديك حق الوصول الإداري الكامل على الجهاز الظاهري لتثبيت الأدوات الجديدة التي تحتاجها. يمكنك أيضا تثبيت حزم إضافية في Python و R غير مثبتة مسبقا. بالنسبة إلى بايثون ، يمكنك استخدام إما conda أو pip. بالنسبة إلى R، يمكنك استخدامها install.packages() في وحدة تحكم R أو استخدام IDE وتحديد حزم>تثبيت الحزم.
التعلم العميق
بالإضافة إلى العينات المستندة إلى إطار العمل، يمكنك الحصول على مجموعة من الإرشادات التفصيلية الشاملة التي تم التحقق من صحتها على DSVM. تساعدك هذه الإرشادات التفصيلية على بدء تطوير تطبيقات التعلم العميق في مجالات مثل فهم الصور والنصوص / اللغة.
تشغيل الشبكات العصبية عبر أطر عمل مختلفة: توضح هذه الإرشادات التفصيلية كيفية ترحيل التعليمات البرمجية من إطار عمل إلى آخر. كما يوضح كيفية مقارنة النماذج وأداء وقت التشغيل عبر الأطر.
دليل إرشادي لبناء حل شامل للكشف عن المنتجات داخل الصور: اكتشاف الصور هو تقنية يمكنها تحديد موقع الكائنات وتصنيفها داخل الصور. هذه التكنولوجيا لديها القدرة على جلب مكافآت ضخمة في العديد من مجالات الأعمال الواقعية. على سبيل المثال ، يمكن لتجار التجزئة استخدام هذه التقنية لتحديد المنتج الذي التقطه العميل من الرف. هذه المعلومات بدورها تساعد المتاجر على إدارة مخزون المنتجات.
التعلم العميق للصوت: يوضح هذا البرنامج التعليمي كيفية تدريب نموذج التعلم العميق للكشف عن الأحداث الصوتية على مجموعة بيانات الأصوات الحضرية. كما يوفر نظرة عامة على كيفية العمل مع البيانات الصوتية.
تصنيف المستندات النصية: توضح هذه الإرشادات التفصيلية كيفية بناء وتدريب بنيتين للشبكة العصبية: شبكة الانتباه الهرمي وشبكة الذاكرة القصيرة المدى الطويلة (LSTM). تستخدم هذه الشبكات العصبية واجهة برمجة تطبيقات Keras للتعلم العميق لتصنيف المستندات النصية.
الملخص
توضح هذه المقالة بعض الأشياء التي يمكنك القيام بها على الجهاز الظاهري لعلوم البيانات ل Microsoft. هناك العديد من الأشياء الأخرى التي يمكنك القيام بها لجعل DSVM بيئة تحليلات فعالة.