Azure HDInsight 'ta ML Hizmetleri nedir?What is ML Services in Azure HDInsight

Microsoft Machine Learning Server, Azure 'da HDInsight kümeleri oluştururken dağıtım seçeneği olarak kullanılabilir.Microsoft Machine Learning Server is available as a deployment option when you create HDInsight clusters in Azure. Bu seçeneği sağlayan küme türü ml Hizmetleriolarak adlandırılır.The cluster type that provides this option is called ML Services. Bu özellik, HDInsight üzerinde ölçeklenebilir ve dağıtılmış analiz yöntemlerine isteğe bağlı erişim sağlayan veri bilimcileri, İstatistikçilerin ve R programcıları sağlar.This capability provides data scientists, statisticians, and R programmers with on-demand access to scalable, distributed methods of analytics on HDInsight.

HDInsight üzerinde ML Hizmetleri, Azure Blob veya Data Lake depolama alanına yüklenmiş, neredeyse her boyuttaki veri kümelerinde R tabanlı analizler için en son özellikleri sağlar.ML Services on HDInsight provides the latest capabilities for R-based analytics on datasets of virtually any size, loaded to either Azure Blob or Data Lake storage. ML Hizmetleri kümesi açık kaynak R üzerine inşa edildiğinden, oluşturduğunuz R tabanlı uygulamalar 8000 + açık kaynaklı R paketlerinden herhangi birini kullanabilir.Since ML Services cluster is built on open-source R, the R-based applications you build can leverage any of the 8000+ open-source R packages. ScaleR 'daki yordamlar, Microsoft 'un büyük veri analizi paketi de mevcuttur.The routines in ScaleR, Microsoft’s big data analytics package are also available.

Bir kümenin kenar düğümü, kümeye bağlanmak ve R betiklerinizi çalıştırmak için uygun bir yer sağlar.The edge node of a cluster provides a convenient place to connect to the cluster and to run your R scripts. Edge düğümü ile, kenar düğüm sunucusunun çekirdekleri arasında Koraler 'ın paralelleştirilmiş dağıtılmış işlevlerini çalıştırma seçeneğiniz vardır.With an edge node, you have the option of running the parallelized distributed functions of ScaleR across the cores of the edge node server. Ayrıca, ScaleR 'ın Hadoop haritasını azaltma veya Apache Spark işlem bağlamlarını kullanarak bunları kümenin düğümleri arasında çalıştırabilirsiniz.You can also run them across the nodes of the cluster by using ScaleR’s Hadoop Map Reduce or Apache Spark compute contexts.

Analizden kaynaklanan modeller veya tahminler, şirket içi kullanım için indirilebilirler.The models or predictions that result from analysis can be downloaded for on-premises use. Ayrıca, Azure 'da Azure Machine Learning Studio Web hizmetiaracılığıyla başka bir yerde de gerçekleştirilebilir.They can also be operationalized elsewhere in Azure, in particular through Azure Machine Learning Studio web service.

HDInsight 'ta ML hizmetlerini kullanmaya başlamaGet started with ML Services on HDInsight

Azure HDInsight 'ta bir ML Hizmetleri kümesi oluşturmak için, Azure portal kullanarak bir HDInsight kümesi oluştururken ml Hizmetleri küme türünü seçin.To create an ML Services cluster in Azure HDInsight, select the ML Services cluster type when creating an HDInsight cluster using the Azure portal. ML Hizmetleri küme türü, kümenin veri düğümlerinde ve ML Hizmetleri tabanlı analizler için bir giriş bölgesi görevi gören bir kenar düğümünde ML Server içerir.The ML Services cluster type includes ML Server on the data nodes of the cluster and on an edge node, which serves as a landing zone for ML Services-based analytics. Kümenin nasıl oluşturulacağı hakkında yönergeler için Azure Portal kullanarak Apache Hadoop kümeleri oluşturma konusuna bakın.See Create Apache Hadoop clusters using the Azure portal for a walkthrough on how to create the cluster.

HDInsight 'ta neden ML Hizmetleri seçmeliyim?Why choose ML Services in HDInsight?

HDInsight 'ta ML Hizmetleri aşağıdaki avantajları sağlar:ML Services in HDInsight provides the following benefits:

Microsoft ve açık kaynaklı AI yeniliğiAI innovation from Microsoft and open-source

ML Hizmetleri, fiziksel belleğin boyutundan daha büyük olan veri boyutları üzerinde çalışabilen ve ' deki çok çeşitli platformlar üzerinde çalışabilen, geri alınamaz, geri alınamaz, iptaledilebilir ve bir dağıtılmış şekilde.ML Services includes highly scalable, distributed set of algorithms such as RevoscaleR, revoscalepy, and microsoftML that can work on data sizes larger than the size of physical memory, and run on a wide variety of platforms in a distributed manner. Microsoft 'un özel R paketleri ve ürünle birlikte bulunan Python paketlerinin koleksiyonu hakkında daha fazla bilgi edinin.Learn more about the collection of Microsoft's custom R packages and Python packages included with the product.

ML Hizmetleri, bu Microsoft yeniliklerini ve katkılarını açık kaynaklı topluluktan (R, Python ve AI araç takımları), hepsi de tek bir kurumsal sınıf platformun üzerine köprüler.ML Services bridges these Microsoft innovations and contributions coming from the open-source community (R, Python, and AI toolkits) all on top of a single enterprise-grade platform. Tüm R veya Python açık kaynaklı makine öğrenimi paketleri, Microsoft 'un herhangi bir özel yeniliği ile yan yana çalışabilir.Any R or Python open-source machine learning package can work side by side with any proprietary innovation from Microsoft.

Basit, güvenli ve yüksek ölçekli işlemleştirme ve yönetimSimple, secure, and high-scale operationalization and administration

Geleneksel paradigmalarına ve ortamlara bağlı olan kuruluşlar, işlem için çok zaman ve çaba harcamaya yatırım sağlar.Enterprises relying on traditional paradigms and environments invest much time and effort towards operationalization. Bu durum, modellerle ilgili çeviri süresi, geçerli ve geçerli, mevzuata onay ve operationalization aracılığıyla izinleri yönetme gibi maliyetler ve gecikmelerle sonuçlanır.This results in inflated costs and delays including the translation time for models, iterations to keep them valid and current, regulatory approval, and managing permissions through operationalization.

ML hizmetleri kurumsal düzeyde kullanımsağlar. Bu, bir makine öğrenimi modeli tamamlandığında, Web Hizmetleri API 'leri oluşturmak için yalnızca birkaç tıklamayla yararlanır.ML Services offers enterprise grade operationalization, in that, after a machine learning model is completed, it takes just a few clicks to generate web services APIs. Bu Web Hizmetleri , buluttaki bir sunucu kılavuzunda barındırılır ve iş kolu uygulamalarıyla tümleştirilebilir.These web services are hosted on a server grid in the cloud and can be integrated with line-of-business applications. Elastik bir kılavuza dağıtım özelliği, hem Batch hem de gerçek zamanlı Puanlama için işletmenizin ihtiyaçlarına sorunsuz şekilde ölçeklendirmenize olanak tanır.The ability to deploy to an elastic grid lets you scale seamlessly with the needs of your business, both for batch and real-time scoring. Yönergeler için bkz. HDInsight ÜZERINDE ml Hizmetleri'ni kullanma.For instructions, see Operationalize ML Services on HDInsight.

HDInsight üzerinde ML Hizmetleri 'nin temel özellikleriKey features of ML Services on HDInsight

Aşağıdaki özellikler, HDInsight üzerinde ML hizmetlerine eklenmiştir.The following features are included in ML Services on HDInsight.

Özellik kategorisiFeature category AçıklamaDescription
R-etkinR-enabled R 'de yazılmış çözümler için r paketleri ve betik yürütme için çalışma zamanı altyapısının bulunduğu r.R packages for solutions written in R, with an open source distribution of R, and run-time infrastructure for script execution.
Python etkinPython-enabled Python 'da yazılmış çözümler için Python modülleri , Python 'un açık kaynaklı bir dağıtımı ve betik yürütme için çalışma zamanı altyapısı.Python modules for solutions written in Python, with an open source distribution of Python, and run-time infrastructure for script execution.
Önceden eğitilen modellerPre-trained models Görsel analiz ve metin yaklaşımı analizi için sağladığınız verileri puanlamaya hazırlanın.For visual analysis and text sentiment analysis, ready to score data you provide.
Dağıtma ve kullanmaDeploy and consume Sunucunuzu çalıştırın ve Web hizmeti olarak çözüm dağıtın.Operationalize your server and deploy solutions as a web service.
Uzaktan yürütmeRemote execution İstemci iş istasyonunuzdan ağınızdaki ML Hizmetleri kümesinde uzak oturumlar başlatın.Start remote sessions on ML Services cluster on your network from your client workstation.

HDInsight üzerinde ML Hizmetleri için veri depolama seçenekleriData storage options for ML Services on HDInsight

HDInsight kümelerinin varsayılan depolama alanı, Azure depolama hesabıyla veya bir Azure Data Lake Storage ilişkilendirilebilir.Default storage for the HDFS file system of HDInsight clusters can be associated with either an Azure Storage account or an Azure Data Lake Storage. Bu ilişki, analiz sırasında küme depolamaya hangi verilerin yüklendiğini ve küme silindikten sonra bile verilerin kullanılabilir olmasını sağlar.This association ensures that whatever data is uploaded to the cluster storage during analysis is made persistent and the data is available even after the cluster is deleted. Depolama hesabının ve AzCopy yardımcı programının portal tabanlı karşıya yükleme özelliği de dahil olmak üzere, seçtiğiniz depolama seçeneğine veri aktarımını işlemeye yönelik çeşitli araçlar vardır.There are various tools for handling the data transfer to the storage option that you select, including the portal-based upload facility of the storage account and the AzCopy utility.

Kullanılan birincil depolama seçeneğinden bağımsız olarak, Küme sağlama işlemi sırasında ek blob ve Data Lake depolarına erişimi etkinleştirme seçeneğiniz vardır.You have the option of enabling access to additional Blob and Data lake stores during the cluster provisioning process regardless of the primary storage option in use. Birden çok depolama hesabı kullanma hakkında daha fazla bilgi edinmek için bkz. HDInsight 'TA ml Hizmetleri Için Azure depolama seçenekleri makalesi.See Azure Storage options for ML Services on HDInsight article to learn more about using multiple storage accounts.

Azure dosyalarını , kenar düğümünde kullanmak üzere bir depolama seçeneği olarak da kullanabilirsiniz.You can also use Azure Files as a storage option for use on the edge node. Azure dosyaları, Azure depolama 'da oluşturulmuş bir dosya paylaşımının Linux dosya sistemine takabilmesini sağlar.Azure Files enables you to mount a file share that was created in Azure Storage to the Linux file system. HDInsight kümesindeki ML Hizmetleri için bu veri depolama seçenekleri hakkında daha fazla bilgi için bkz. HDInsight 'TA ml Hizmetleri Için Azure depolama seçenekleri.For more information about these data storage options for ML Services on HDInsight cluster, see Azure Storage options for ML Services on HDInsight.

ML Hizmetleri kenar düğümüne erişinAccess ML Services edge node

Bir tarayıcı kullanarak Edge düğümündeki Microsoft ML Server 'a bağlanabilirsiniz.You can connect to Microsoft ML Server on the edge node using a browser. Küme oluşturma sırasında varsayılan olarak yüklenir.It is installed by default during cluster creation. Ayrıca, R konsoluna erişmek için SSH/PuTTY kullanarak komut satırından küme kenar düğümüne bağlanabilirsiniz.You can also connect to the cluster edge node from the command line by using SSH/PuTTY to access the R console.

R betikleri geliştirme ve çalıştırmaDevelop and run R scripts

Oluşturduğunuz ve çalıştırdığınız R betikleri, bir 8000 + açık kaynaklı R paketlerinden herhangi birini, ScaleR kitaplığındaki kullanılabilir paralelleştirilmiş ve dağıtılmış yordamlara ek olarak kullanabilir.The R scripts you create and run can use any of the 8000+ open-source R packages in addition to the parallelized and distributed routines available in the ScaleR library. Genel olarak, uç düğümünde ML Hizmetleri ile çalıştırılan bir betik, o düğümdeki R yorumlayıcısı içinde çalışır.In general, a script that is run with ML Services on the edge node runs within the R interpreter on that node. Özel durumlar, Hadoop Haritası ' nı (RxHadoopMR) veya Spark (RxSpark) olarak ayarlanmış bir işlem bağlamı ile bir ScaleR işlevi çağırma ihtiyacı olan adımlardır.The exceptions are those steps that need to call a ScaleR function with a compute context that is set to Hadoop Map Reduce (RxHadoopMR) or Spark (RxSpark). Bu durumda, işlev başvurulan verilerle ilişkili kümenin bu veri (görev) düğümleri arasında dağıtılmış bir biçimde çalışır.In this case, the function runs in a distributed fashion across those data (task) nodes of the cluster that are associated with the data referenced. Farklı işlem bağlamı seçenekleri hakkında daha fazla bilgi için bkz. HDInsight 'TA ml Hizmetleri Için işlem bağlamı seçenekleri.For more information about the different compute context options, see Compute context options for ML Services on HDInsight.

Bir modeli kullanıma hazır hale getirmeOperationalize a model

Veri modellemesi tamamlandığında, Azure 'dan ya da şirket içinde yeni veriler için tahmine dayalı hale getirmek üzere modeli çalıştırabilirsiniz.When your data modeling is complete, you can operationalize the model to make predictions for new data either from Azure or on-premises. Bu işlem Puanlama olarak bilinir.This process is known as scoring. Puanlama, HDInsight, Azure Machine Learning veya şirket içinde yapılabilir.Scoring can be done in HDInsight, Azure Machine Learning, or on-premises.

HDInsight 'ta puanScore in HDInsight

HDInsight 'ta puan vermek için, depolama hesabınıza yüklediğiniz yeni bir veri dosyası için tahminleri yapmak üzere modelinize çağrı yapan bir R işlevi yazın.To score in HDInsight, write an R function that calls your model to make predictions for a new data file that you've loaded to your storage account. Ardından, tahminleri depolama hesabına geri kaydedin.Then, save the predictions back to the storage account. Bu yordamı, kümenizin kenar düğümünde veya zamanlanan bir iş ile isteğe bağlı olarak çalıştırabilirsiniz.You can run this routine on-demand on the edge node of your cluster or by using a scheduled job.

Azure Machine Learning puan (AML)Score in Azure Machine Learning (AML)

Azure Machine Learning kullanarak puan almak için, modelinizi bir Azure Web hizmeti olarak yayımlamak üzere AzureML olarak bilinen açık kaynaklı Azure Machine Learning R paketini kullanın.To score using Azure Machine Learning, use the open-source Azure Machine Learning R package known as AzureML to publish your model as an Azure web service. Kolaylık olması için, bu paket kenar düğümüne önceden yüklenmiştir.For convenience, this package is pre-installed on the edge node. Daha sonra, Web hizmeti için bir kullanıcı arabirimi oluşturmak üzere Azure Machine Learning ' deki olanakları kullanın ve ardından Web hizmetini Puanlama için gereken şekilde çağırın.Next, use the facilities in Azure Machine Learning to create a user interface for the web service, and then call the web service as needed for scoring.

Bu seçeneği belirlerseniz, herhangi bir ScaleR model nesnesini Web hizmeti ile kullanmak üzere eşdeğer açık kaynaklı Model nesnelerine dönüştürmeniz gerekir.If you choose this option, you must convert any ScaleR model objects to equivalent open-source model objects for use with the web service. Bu dönüştürme için ensesıya tabanlı modeller as.randomForest() gibi Scaler zorlama işlevlerini kullanın.Use ScaleR coercion functions, such as as.randomForest() for ensemble-based models, for this conversion.

Şirket içi puanScore on-premises

Modelinizi oluşturduktan sonra şirket içinde puan almak için modeli R 'de seri hale getirebilirsiniz, indirebilir, seri durumdan çıkarılamıyor ve ardından yeni veri Puanlama için kullanabilirsiniz.To score on-premises after creating your model, you can serialize the model in R, download it, de-serialize it, and then use it for scoring new data. Daha önce HDInsight 'ta veya Web Hizmetleri'ni kullanarak, daha önce açıklanan yaklaşımı kullanarak yeni verileri puanlandırın.You can score new data by using the approach described earlier in Score in HDInsight or by using web services.

Kümeyi korumaMaintain the cluster

R paketlerini yükleyip bakımını yapmaInstall and maintain R packages

R betiklerinizin birçok adımı üzerinde çalıştığı için, kullandığınız R paketlerinin çoğu Edge düğümünde gereklidir.Most of the R packages that you use are required on the edge node since most steps of your R scripts run there. Edge düğümüne ek r paketleri yüklemek için, bu install.packages() yöntemi R 'de kullanabilirsiniz.To install additional R packages on the edge node, you can use the install.packages() method in R.

Yalnızca küme genelinde ScaleR kitaplığından yordamlar kullanıyorsanız, genellikle veri düğümlerine ek R paketleri yüklemeniz gerekmez.If you are just using routines from the ScaleR library across the cluster, you do not usually need to install additional R packages on the data nodes. Ancak, veri düğümlerinde Rxexec veya Rxdatastep yürütmesinin kullanımını desteklemek için ek paketlere ihtiyaç duyabilirsiniz.However, you might need additional packages to support the use of rxExec or RxDataStep execution on the data nodes.

Bu gibi durumlarda, kümeyi oluşturduktan sonra ek paketler bir betik eylemiyle yüklenebilir.In such cases, the additional packages can be installed with a script action after you create the cluster. Daha fazla bilgi için bkz. HDInsight KÜMESINDE ml hizmetlerini yönetme.For more information, see Manage ML Services in HDInsight cluster.

MapReduce bellek ayarlarını Apache Hadoop değiştirmeChange Apache Hadoop MapReduce memory settings

Bir küme, MapReduce işi çalıştırıldığında ML Hizmetleri için kullanılabilir bellek miktarını değiştirecek şekilde değiştirilebilir.A cluster can be modified to change the amount of memory that is available to ML Services when it is running a MapReduce job. Bir kümeyi değiştirmek için, kümenizin Azure portal dikey penceresinde bulunan Apache ambarı Kullanıcı arabirimini kullanın.To modify a cluster, use the Apache Ambari UI that's available through the Azure portal blade for your cluster. Kümeniz için ambarı Kullanıcı arabirimine erişme hakkında yönergeler için, bkz. Web arabirimi kullanarak HDInsight kümelerini yönetme.For instructions about how to access the Ambari UI for your cluster, see Manage HDInsight clusters using the Ambari Web UI.

Ayrıca, RxHadoopMR çağrısında bulunan Hadoop ANAHTARLARıNı kullanarak ml Hizmetleri için kullanılabilir bellek miktarını aşağıdaki şekilde değiştirebilirsiniz:It is also possible to change the amount of memory that is available to ML Services by using Hadoop switches in the call to RxHadoopMR as follows:

hadoopSwitches = "-libjars /etc/hadoop/conf -Dmapred.job.map.memory.mb=6656"  

Kümenizi ölçeklendirmeScale your cluster

HDInsight 'ta mevcut bir ML Hizmetleri kümesi, Portal üzerinden yukarı veya aşağı ölçeklendirilebilir.An existing ML Services cluster on HDInsight can be scaled up or down through the portal. Ölçeği büyüerek, daha büyük işlem görevleri için ihtiyaç duyduğunuz ek kapasiteyi elde edebilir veya boşta kaldığında bir kümeyi geri ölçeklendirebilirsiniz.By scaling up, you can gain the additional capacity that you might need for larger processing tasks, or you can scale back a cluster when it is idle. Bir kümenin ölçeklendirilmesi hakkında yönergeler için bkz. HDInsight kümelerini yönetme.For instructions about how to scale a cluster, see Manage HDInsight clusters.

Sistemi korumaMaintain the system

İşletim sistemi düzeltme ekleri uygulama bakımı ve diğer güncelleştirmeler, bir HDInsight kümesindeki temel Linux VM 'lerinde, çalışma saatleri dışında gerçekleştirilir.Maintenance to apply OS patches and other updates is performed on the underlying Linux VMs in an HDInsight cluster during off-hours. Genellikle bakım, her Pazartesi ve Perşembe 3:30 (VM 'nin yerel saatine göre) ile yapılır.Typically, maintenance is done at 3:30 AM (based on the local time for the VM) every Monday and Thursday. Güncelleştirmeler, kümenin bir çeyreğinin her seferinde daha fazlasını etkilemeyeceğinden bu şekilde gerçekleştirilir.Updates are performed in such a way that they don't impact more than a quarter of the cluster at a time.

Baş düğümler gereksiz olduğundan ve tüm veri düğümleri etkilenmediğinden, bu süre boyunca çalışan tüm işler yavaşlayabilir.Since the head nodes are redundant and not all data nodes are impacted, any jobs that are running during this time might slow down. Ancak, hala tamamlanmayı çalıştırmaları gerekir.However, they should still run to completion. Bir küme yeniden oluşturma gerektiren çok zararlı bir hata oluşmadığı takdirde, sahip olduğunuz herhangi bir özel yazılım veya yerel veri, bu bakım olayları arasında korunur.Any custom software or local data that you have is preserved across these maintenance events unless a catastrophic failure occurs that requires a cluster rebuild.

HDInsight üzerinde ML Hizmetleri için IDE seçenekleriIDE options for ML Services on HDInsight

HDInsight kümesinin Linux Edge düğümü, R tabanlı analize yönelik giriş bölgesidir.The Linux edge node of an HDInsight cluster is the landing zone for R-based analysis. HDInsight 'ın son sürümleri, bir tarayıcı tabanlı IDE olarak uç düğümüne varsayılan bir RStudio Server yüklemesi sağlar.Recent versions of HDInsight provide a default installation of RStudio Server on the edge node as a browser-based IDE. R betiklerinin geliştirilmesi ve yürütülmesi için IDE olarak RStudio Server kullanımı, yalnızca R konsolu kullanmaktan çok daha üretken olabilir.Use of RStudio Server as an IDE for the development and execution of R scripts can be considerably more productive than just using the R console.

Ayrıca, bir masaüstü IDE yükleyebilir ve bunu, uzak MapReduce veya Spark işlem bağlamını kullanarak kümeye erişmek için kullanabilirsiniz.Additionally, you can install a desktop IDE and use it to access the cluster through use of a remote MapReduce or Spark compute context. Seçenekler Microsoft 'un Visual Studio için R araçları (rtvs), rstudio ve walware 'in tutulma tabanlı stateT' i içerir.Options include Microsoft’s R Tools for Visual Studio (RTVS), RStudio, and Walware’s Eclipse-based StatET.

Ayrıca, SSH veya PuTTY aracılığıyla bağlandıktan sonra, Linux komut isteminde r yazarak r konsoluna da erişebilirsiniz.Additionally, you can access the R console on the edge node by typing R at the Linux command prompt after connecting via SSH or PuTTY. Konsol arabirimini kullanırken, R betiği geliştirmesi için bir metin düzenleyicisini başka bir pencerede çalıştırmak ve gerekirse betiğinizin bölümlerini R konsoluna kesmek ve yapıştırmak kullanışlıdır.When using the console interface, it is convenient to run a text editor for R script development in another window, and cut and paste sections of your script into the R console as needed.

FiyatlandırmaPricing

Bir ML Hizmetleri HDInsight kümesiyle ilişkili fiyatlar, diğer HDInsight küme türleri için fiyatlara benzer şekilde yapılandırılır.The prices that are associated with an ML Services HDInsight cluster are structured similarly to the prices for other HDInsight cluster types. Bunlar, temel alınan VM 'lerin ad, veri ve kenar düğümleri genelinde boyutlandırılmasına dayalıdır ve bu da çekirdek saatlik bir yükseltme eklenmesiyle yapılır.They are based on the sizing of the underlying VMs across the name, data, and edge nodes, with the addition of a core-hour uplift. Daha fazla bilgi için bkz. HDInsight fiyatlandırması.For more information, see HDInsight pricing.

Sonraki adımlarNext steps

HDInsight kümelerinde ML Hizmetleri kullanma hakkında daha fazla bilgi edinmek için aşağıdaki konulara bakın:To learn more about how to use ML Services on HDInsight clusters, see the following topics: