Azure HDInsight 'ta ML Hizmetleri nedir?What is ML Services in Azure HDInsight

Microsoft Machine Learning Server, Azure 'da HDInsight kümeleri oluştururken dağıtım seçeneği olarak kullanılabilir.Microsoft Machine Learning Server is available as a deployment option when you create HDInsight clusters in Azure. Bu seçeneği sağlayan küme türü ml Hizmetleriolarak adlandırılır.The cluster type that provides this option is called ML Services. Bu özellik, HDInsight 'ta uyarlanmayan analiz yöntemlerine yönelik isteğe bağlı erişim sağlar.This capability provides on-demand access to adaptable, distributed methods of analytics on HDInsight.

HDInsight üzerinde ML Hizmetleri, neredeyse her boyuttaki veri kümelerinde R tabanlı analizler için en son özellikleri sağlar.ML Services on HDInsight provides the latest capabilities for R-based analytics on datasets of virtually any size. Veri kümeleri, Azure Blob veya Data Lake Storage 'a yüklenebilir.The datasets can be loaded to either Azure Blob or Data Lake storage. R tabanlı uygulamalarınızın 8000 + açık kaynaklı R paketleri kullanılabilir.Your R-based applications can use the 8000+ open-source R packages. ScaleR 'daki yordamlar, Microsoft 'un büyük veri analizi paketi de mevcuttur.The routines in ScaleR, Microsoft's big data analytics package are also available.

Edge düğümü, kümeye bağlanmak ve R betiklerinizi çalıştırmak için uygun bir yer sağlar.The edge node provides a convenient place to connect to the cluster and run your R scripts. Edge düğümü, sunucunun çekirdekleri genelinde ScaleR paralelleştirilmiş dağıtılan işlevlerin çalıştırılmasına izin verir.The edge node allows running the ScaleR parallelized distributed functions across the cores of the server. Ayrıca, ScaleR 'nın Hadoop Haritası ' nı kullanarak bunları kümenin düğümleri arasında çalıştırabilirsiniz.You can also run them across the nodes of the cluster by using ScaleR's Hadoop Map Reduce. Apache Spark işlem bağlamlarını da kullanabilirsiniz.You can also use Apache Spark compute contexts.

Analizden kaynaklanan modeller veya tahminler, şirket içi kullanım için indirilebilirler.The models or predictions that result from analysis can be downloaded for on-premises use. operationalizedAzure 'da başka bir yerde de olabilirler.They can also be operationalized elsewhere in Azure. Özellikle, Azure Machine Learning Studio (klasik)ve Web hizmetiaracılığıyla.In particular, through Azure Machine Learning Studio (classic), and web service.

HDInsight 'ta ML hizmetlerini kullanmaya başlamaGet started with ML Services on HDInsight

HDInsight 'ta bir ML Hizmetleri kümesi oluşturmak için ml Hizmetleri küme türünü seçin.To create an ML Services cluster in HDInsight, select the ML Services cluster type. ML Hizmetleri küme türü, veri düğümleri ve kenar düğümüne ML Server içerir.The ML Services cluster type includes ML Server on the data nodes, and edge node. Edge düğümü, ML Hizmetleri tabanlı analizler için bir giriş bölgesi görevi görür.The edge node serves as a landing zone for ML Services-based analytics. Kümenin nasıl oluşturulacağı hakkında yönergeler için Azure Portal kullanarak Apache Hadoop kümeleri oluşturma konusuna bakın.See Create Apache Hadoop clusters using the Azure portal for a walkthrough on how to create the cluster.

HDInsight 'ta neden ML Hizmetleri seçmeliyim?Why choose ML Services in HDInsight?

HDInsight 'ta ML Hizmetleri aşağıdaki avantajları sağlar:ML Services in HDInsight provides the following benefits:

Microsoft ve açık kaynaklı AI yeniliğiAI innovation from Microsoft and open-source

ML Hizmetleri, geri alınamaz, geri alınamaz, Iptal edilebilirve microsoftmlgibi dağıtılmış algoritmaların bir kümesini içerir.ML Services includes highly adaptable, distributed set of algorithms such as RevoscaleR, revoscalepy, and microsoftML. Bu algoritmalar, fiziksel belleğin boyutundan daha büyük olan veri boyutları üzerinde çalışabilir.These algorithms can work on data sizes larger than the size of physical memory. Bunlar, dağıtılmış bir şekilde çok çeşitli platformlar üzerinde de çalışır.They also run on a wide variety of platforms in a distributed manner. Microsoft 'un özel R paketleri ve ürünle birlikte bulunan Python paketlerinin koleksiyonu hakkında daha fazla bilgi edinin.Learn more about the collection of Microsoft's custom R packages and Python packages included with the product.

ML Hizmetleri, bu Microsoft yeniliklerini ve katkılarını açık kaynaklı topluluktan (R, Python ve AI araç takımları) köprüler.ML Services bridges these Microsoft innovations and contributions coming from the open-source community (R, Python, and AI toolkits). Tümü tek bir kurumsal sınıf platformun üzerine.All on top of a single enterprise-grade platform. Tüm R veya Python açık kaynaklı makine öğrenimi paketleri, Microsoft 'un herhangi bir özel yeniliği ile yan yana çalışabilir.Any R or Python open-source machine learning package can work side by side with any proprietary innovation from Microsoft.

Basit, güvenli ve yüksek ölçekli işlemleştirme ve yönetimSimple, secure, and high-scale operationalization and administration

Geleneksel paradigmalarına ve ortamlara bağlı olan kuruluşlar, işlem için çok zaman ve çaba harcamaya yatırım sağlar.Enterprises relying on traditional paradigms and environments invest much time and effort towards operationalization. Bu eylem, aşağıdakiler için çeviri süresi dahil olmak üzere önceden yapılan maliyetlere ve gecikmelere neden olur: modeller, yineleme ve geçerli tutmak için yinelemeler, mevzuat onayı ve izinleri yönetme.This action results in inflated costs and delays including the translation time for: models, iterations to keep them valid and current, regulatory approval, and managing permissions.

ML hizmetleri kurumsal düzeyde kullanımsağlar.ML Services offers enterprise grade operationalization. Machine Learning modeli tamamlandıktan sonra, Web Hizmetleri API 'Leri oluşturmak için yalnızca birkaç tıklama sürer.After a machine learning model completes, it takes just a few clicks to generate web services APIs. Bu Web Hizmetleri , buluttaki bir sunucu kılavuzunda barındırılır ve iş kolu uygulamalarıyla tümleştirilebilir.These web services are hosted on a server grid in the cloud and can be integrated with line-of-business applications. Elastik bir kılavuza dağıtım özelliği, hem Batch hem de gerçek zamanlı Puanlama için işletmenizin ihtiyaçlarına sorunsuz şekilde ölçeklendirmenize olanak tanır.The ability to deploy to an elastic grid lets you scale seamlessly with the needs of your business, both for batch and real-time scoring. Yönergeler için bkz. HDInsight ÜZERINDE ml Hizmetleri'ni kullanma.For instructions, see Operationalize ML Services on HDInsight.

Not

HDInsight üzerinde ML Hizmetleri küme türü yalnızca HDInsight 3,6 ' de desteklenir.The ML Services cluster type on HDInsight is supported only on HDInsight 3.6. HDInsight 3,6, 31 Aralık 2020 tarihinde devre dışı bırakılacak şekilde zamanlandı.HDInsight 3.6 is scheduled to retire on December 31, 2020.

HDInsight üzerinde ML Hizmetleri 'nin temel özellikleriKey features of ML Services on HDInsight

Aşağıdaki özellikler, HDInsight üzerinde ML hizmetlerine eklenmiştir.The following features are included in ML Services on HDInsight.

Özellik kategorisiFeature category DescriptionDescription
R-etkinR-enabled R 'de yazılmış çözümler için r ve betik yürütme için çalışma zamanı altyapısını içeren r için r paketleri .R packages for solutions written in R, with an open-source distribution of R, and run-time infrastructure for script execution.
Python etkinPython-enabled Python 'da yazılmış çözümler için Python modülleri , Python 'un açık kaynaklı bir dağıtımı ve betik yürütme için çalışma zamanı altyapısı.Python modules for solutions written in Python, with an open-source distribution of Python, and run-time infrastructure for script execution.
Önceden eğitilen modellerPre-trained models Görsel analiz ve metin yaklaşımı analizi için sağladığınız verileri puanlamaya hazırlanın.For visual analysis and text sentiment analysis, ready to score data you provide.
Dağıtma ve kullanmaDeploy and consume Operationalizesunucunuz ve Web hizmeti olarak çözüm dağıtın.Operationalize your server and deploy solutions as a web service.
Uzaktan yürütmeRemote execution İstemci iş istasyonunuzdan ağınızdaki ML Hizmetleri kümesinde uzak oturumlar başlatın.Start remote sessions on ML Services cluster on your network from your client workstation.

HDInsight üzerinde ML Hizmetleri için veri depolama seçenekleriData storage options for ML Services on HDInsight

Bir Azure depolama hesabı veya Azure Data Lake Storage, bu dosya sistemi için varsayılan depolama alanı olabilir.Default storage for the HDFS file system can be an Azure Storage account or Azure Data Lake Storage. Analiz sırasında küme depolamaya karşıya yüklenen veriler kalıcı hale getirilir.Uploaded data to cluster storage during analysis is made persistent. Veriler, küme silindikten sonra bile kullanılabilir.The data is available even after the cluster is deleted. Çeşitli araçlar, depolama alanına veri aktarımını işleyebilir.Various tools can handle the data transfer to storage. Araçlar, depolama hesabı ve AzCopy yardımcı programının portal tabanlı karşıya yükleme özelliğini içerir.The tools include the portal-based upload facility of the storage account and the AzCopy utility.

Küme oluşturma sırasında ek blob ve Data Lake mağazalarına erişimi etkinleştirebilirsiniz.You can enable access to additional Blob and Data lake stores during cluster creation. Kullanılan birincil depolama seçeneğiyle sınırlı değilsiniz.You aren't limited by the primary storage option in use. Birden çok depolama hesabı kullanma hakkında daha fazla bilgi edinmek için bkz. HDInsight 'TA ml Hizmetleri Için Azure depolama seçenekleri makalesi.See Azure Storage options for ML Services on HDInsight article to learn more about using multiple storage accounts.

Azure dosyalarını, kenar düğümünde kullanmak üzere bir depolama seçeneği olarak da kullanabilirsiniz.You can also use Azure Files as a storage option for use on the edge node. Azure dosyaları, Azure depolama 'da oluşturulan dosya paylaşımlarının Linux dosya sistemine olanak sağlar.Azure Files enables file shares created in Azure Storage to the Linux file system. Daha fazla bilgi için bkz. HDInsight 'TA ml Hizmetleri Için Azure depolama seçenekleri.For more information, see Azure Storage options for ML Services on HDInsight.

ML Hizmetleri kenar düğümüne erişinAccess ML Services edge node

Bir tarayıcı veya SSH/PuTTY kullanarak kenar düğümündeki Microsoft ML Server 'a bağlanabilirsiniz.You can connect to Microsoft ML Server on the edge node using a browser, or SSH/PuTTY. R konsolu, küme oluşturma sırasında varsayılan olarak yüklenir.The R console is installed by default during cluster creation.

R betikleri geliştirme ve çalıştırmaDevelop and run R scripts

R betikleriniz 8000 + açık kaynaklı R paketlerinden herhangi birini kullanabilir.Your R scripts can use any of the 8000+ open-source R packages. Ayrıca, ScaleR kitaplığından paralelleştirilmiş ve dağıtılmış yordamları da kullanabilirsiniz.You can also use the parallelized and distributed routines from the ScaleR library. Edge düğümünde çalıştırılan betikler, söz konusu düğümdeki R yorumlayıcısı içinde çalışır.Scripts run on the edge node run within the R interpreter on that node. ScaleR işlevlerini eşleme ile çağıran adımlar dışında (RxHadoopMR) veya Spark (RxSpark) işlem bağlamını azaltır.Except for steps that call ScaleR functions with a Map Reduce (RxHadoopMR) or Spark (RxSpark) compute context. İşlevler, verilerle ilişkili veri düğümleri arasında dağıtılmış bir biçimde çalışır.The functions run in a distributed fashion across the data nodes that are associated with the data. Bağlam seçenekleri hakkında daha fazla bilgi için bkz. HDInsight 'TA ml Hizmetleri Için işlem bağlamı seçenekleri.For more information about context options, see Compute context options for ML Services on HDInsight.

OperationalizeModelOperationalize a model

Veri modellemesi tamamlandığında, operationalize Azure 'dan veya şirket içinde yeni veriler için tahmine dayalı hale getirmek üzere bir modeldir.When your data modeling is complete, operationalize the model to make predictions for new data either from Azure or on-premises. Bu işlem Puanlama olarak bilinir.This process is known as scoring. Puanlama, HDInsight, Azure Machine Learning veya şirket içinde yapılabilir.Scoring can be done in HDInsight, Azure Machine Learning, or on-premises.

HDInsight 'ta puanScore in HDInsight

HDInsight 'ta puan vermek için bir R işlevi yazın.To score in HDInsight, write an R function. İşlevi, depolama hesabınıza yüklediğiniz yeni bir veri dosyası için tahminleri yapmak üzere modelinizi çağırır.The function calls your model to make predictions for a new data file that you've loaded to your storage account. Ardından, tahminleri depolama hesabına geri kaydedin.Then, save the predictions back to the storage account. Bu yordamı, kümenizin kenar düğümünde veya zamanlanan bir iş ile isteğe bağlı olarak çalıştırabilirsiniz.You can run this routine on-demand on the edge node of your cluster or by using a scheduled job.

Azure Machine Learning puan (AML)Score in Azure Machine Learning (AML)

Azure Machine Learning kullanarak puan almak için, modelinizi bir Azure Web hizmeti olarak yayımlamak üzere AzureML olarak bilinen açık kaynaklı Azure Machine Learning R paketini kullanın.To score using Azure Machine Learning, use the open-source Azure Machine Learning R package known as AzureML to publish your model as an Azure web service. Kolaylık olması için, bu paket kenar düğümüne önceden yüklenmiştir.For convenience, this package is pre-installed on the edge node. Daha sonra, Web hizmeti için bir kullanıcı arabirimi oluşturmak üzere Azure Machine Learning ' deki olanakları kullanın ve ardından Web hizmetini Puanlama için gereken şekilde çağırın.Next, use the facilities in Azure Machine Learning to create a user interface for the web service, and then call the web service as needed for scoring. Ardından, Web hizmeti ile kullanmak üzere ScaleR model nesnelerini eşdeğer açık kaynaklı Model nesnelerine dönüştürün.Then convert ScaleR model objects to equivalent open-source model objects for use with the web service. as.randomForest()Bu dönüştürme için ensesıya tabanlı modeller gibi ScaleR zorlama işlevlerini kullanın.Use ScaleR coercion functions, such as as.randomForest() for ensemble-based models, for this conversion.

Şirket içi puanScore on-premises

Modelinizi oluşturduktan sonra şirket içinde puan almak için: modeli R 'de serileştirme, indirme, serbest bırakma, seri hale getirme ve ardından yeni veri Puanlama için kullanma.To score on-premises after creating your model: serialize the model in R, download it, de-serialize it, then use it for scoring new data. Daha önce HDInsight 'ta veya Web Hizmetleri'ni kullanarak, daha önce açıklanan yaklaşımı kullanarak yeni verileri puanlandırın.You can score new data by using the approach described earlier in Score in HDInsight or by using web services.

Kümeyi korumaMaintain the cluster

R paketlerini yükleyip bakımını yapmaInstall and maintain R packages

R betiklerinizin birçok adımı üzerinde çalıştığı için, kullandığınız R paketlerinin çoğu Edge düğümünde gereklidir.Most of the R packages that you use are required on the edge node since most steps of your R scripts run there. Edge düğümüne ek R paketleri yüklemek için, bu install.packages() yöntemi R 'de kullanabilirsiniz.To install additional R packages on the edge node, you can use the install.packages() method in R.

Yalnızca ScaleR kitaplık yordamlarını kullanıyorsanız, genellikle ek R paketlerine gerek kalmaz.If you're just using ScaleR library routines, you don't usually need additional R packages. Veri düğümlerinde Rxexec veya Rxdatastep yürütmesi için ek paketlere ihtiyacınız bulunabilir.You might need additional packages for rxExec or RxDataStep execution on the data nodes.

Kümeyi oluşturduktan sonra ek paketler bir betik eylemiyle yüklenebilir.The additional packages can be installed with a script action after you create the cluster. Daha fazla bilgi için bkz. HDInsight KÜMESINDE ml hizmetlerini yönetme.For more information, see Manage ML Services in HDInsight cluster.

MapReduce bellek ayarlarını Apache Hadoop değiştirmeChange Apache Hadoop MapReduce memory settings

ML Hizmetleri için kullanılabilir bellek, bir MapReduce işi çalıştırıldığında değiştirilebilir.Available memory to ML Services can be modified when it's running a MapReduce job. Bir kümeyi değiştirmek için kümeniz için Apache ambarı Kullanıcı arabirimini kullanın.To modify a cluster, use the Apache Ambari UI for your cluster. Ambarı Kullanıcı arabirimi yönergeleri için bkz. ambarı Web Kullanıcı arabirimini kullanarak HDInsight kümelerini yönetme.For Ambari UI instructions, see Manage HDInsight clusters using the Ambari Web UI.

ML Hizmetleri için kullanılabilir bellek, RxHadoopMRçağrısında bulunan Hadoop anahtarları kullanılarak değiştirilebilir:Available memory to ML Services can be changed by using Hadoop switches in the call to RxHadoopMR:

hadoopSwitches = "-libjars /etc/hadoop/conf -Dmapred.job.map.memory.mb=6656"

Kümenizi ölçeklendirinScale your cluster

HDInsight 'ta mevcut bir ML Hizmetleri kümesi, Portal üzerinden yukarı veya aşağı ölçeklendirilebilir.An existing ML Services cluster on HDInsight can be scaled up or down through the portal. Ölçeği yukarı ölçeklendirerek daha büyük işleme görevleri için ek kapasite elde edersiniz.By scaling up, you gain additional capacity for larger processing tasks. Boşta kaldığında, bir kümeyi geri ölçeklendirebilirsiniz.You can scale back a cluster when it's idle. Bir kümenin ölçeklendirilmesi hakkında yönergeler için bkz. HDInsight kümelerini yönetme.For instructions about how to scale a cluster, see Manage HDInsight clusters.

Sistemi korumaMaintain the system

İşletim sistemi bakımı, bir HDInsight kümesinde çalışan Linux VM 'lerinde, çalışma saatleri dışında yapılır.OS Maintenance is done on the underlying Linux VMs in an HDInsight cluster during off-hours. Genellikle, bakım her Pazartesi ve Perşembe 3:30 (VM 'nin yerel saati) ile yapılır.Typically, maintenance is done at 3:30 AM (VM's local time) every Monday and Thursday. Güncelleştirmeler, kümenin bir çeyreğinin her seferinde fazlasını etkilemez.Updates don't impact more than a quarter of the cluster at a time.

Çalışan işler bakım sırasında yavaşlayabilir.Running jobs might slow down during maintenance. Ancak, hala tamamlanmayı çalıştırmaları gerekir.However, they should still run to completion. Bir küme yeniden oluşturma gerektiren çok zararlı bir hata oluşmadığı takdirde, bu bakım olayları genelinde korunan özel yazılım veya yerel veriler.Any custom software or local data that you've is preserved across these maintenance events unless a catastrophic failure occurs that requires a cluster rebuild.

HDInsight üzerinde ML Hizmetleri için IDE seçenekleriIDE options for ML Services on HDInsight

HDInsight kümesinin Linux Edge düğümü, R tabanlı analize yönelik giriş bölgesidir.The Linux edge node of an HDInsight cluster is the landing zone for R-based analysis. HDInsight 'ın son sürümleri Edge düğümünde RStudio Server 'ın tarayıcı tabanlı bir IDE 'si sağlar.Recent versions of HDInsight provide a browser-based IDE of RStudio Server on the edge node. RStudio Server, geliştirme ve yürütme için R konsolundan daha üretken.RStudio Server is more productive than the R console for development and execution.

Masaüstü IDE, kümeye uzak MapReduce veya Spark işlem bağlamı aracılığıyla erişebilir.A desktop IDE can access the cluster through a remote MapReduce or Spark compute context. Seçenekler şunlardır: Microsoft 'un Visual Studio için R araçları (rtvs), rstudio ve walware 'in tutulma tabanlı stateT.Options include: Microsoft's R Tools for Visual Studio (RTVS), RStudio, and Walware's Eclipse-based StatET.

Komut istemine r yazarak kenar düğümündeki r konsoluna erişin.Access the R console on the edge node by typing R at the command prompt. Konsol arabirimini kullanırken, bir metin düzenleyicisinde R betiği geliştirmek kullanışlı olur.When using the console interface, it's convenient to develop R script in a text editor. Ardından, gerekli olduğu gibi betiğinizin bölümlerini R konsoluna kesip yapıştırın.Then cut and paste sections of your script into the R console as needed.

FiyatlandırmaPricing

Bir ML Hizmetleri HDInsight kümesiyle ilişkili fiyatlar, diğer HDInsight küme türlerine benzer şekilde yapılandırılmıştır.The prices associated with an ML Services HDInsight cluster are structured similarly to other HDInsight cluster types. Bunlar, temel alınan VM 'lerin ad, veri ve kenar düğümleri genelinde boyutlandırılmasına dayalıdır.They're based on the sizing of the underlying VMs across the name, data, and edge nodes. Çekirdek saat ön ek.Core-hour uplifts as well. Daha fazla bilgi için bkz. HDInsight fiyatlandırması.For more information, see HDInsight pricing.

Sonraki adımlarNext steps

HDInsight kümelerinde ML Hizmetleri kullanma hakkında daha fazla bilgi edinmek için aşağıdaki makalelere bakın:To learn more about how to use ML Services on HDInsight clusters, see the following articles: