Co to jest usługa ML w usłudze Azure HDInsightWhat is ML Services in Azure HDInsight

Microsoft Machine Learning Server jest dostępna jako opcja wdrażania podczas tworzenia klastrów usługi HDInsight na platformie Azure.Microsoft Machine Learning Server is available as a deployment option when you create HDInsight clusters in Azure. Typ klastra, który zapewnia tę opcję, nosi nazwę usługi ml.The cluster type that provides this option is called ML Services. Ta funkcja zapewnia analitykom danych, statystyków i programistom języka R dostęp na żądanie do skalowalnych, dystrybuowanych metod analizy w usłudze HDInsight.This capability provides data scientists, statisticians, and R programmers with on-demand access to scalable, distributed methods of analytics on HDInsight.

Usługi ML w usłudze HDInsight zapewniają najnowsze możliwości analizy opartej na języku R na zestawach danych praktycznie dowolnego rozmiaru, ładowanych do usługi Azure Blob lub magazynu Data Lake.ML Services on HDInsight provides the latest capabilities for R-based analytics on datasets of virtually any size, loaded to either Azure Blob or Data Lake storage. Ze względu na to, że klaster usługi ML jest oparty na języku R typu "open source", tworzone aplikacje oparte na języku R mogą korzystać z dowolnych pakietów języka R typu "open source".Since ML Services cluster is built on open-source R, the R-based applications you build can leverage any of the 8000+ open-source R packages. Dostępne są również procedury w ramach skalowania, czyli pakiet do analizy danych Big Data firmy Microsoft.The routines in ScaleR, Microsoft’s big data analytics package are also available.

Węzeł brzegowy klastra zapewnia wygodne miejsce do łączenia się z klastrem i uruchamiania skryptów języka R.The edge node of a cluster provides a convenient place to connect to the cluster and to run your R scripts. W węźle brzegowym można uruchamiać równoległe funkcje rozproszone skalowania na wielu rdzeniach serwera węzła brzegowego.With an edge node, you have the option of running the parallelized distributed functions of ScaleR across the cores of the edge node server. Można je również uruchamiać w węzłach klastra przy użyciu mapy usługi Hadoop skalowania w celu zmniejszenia lub Apache Spark kontekstów obliczeniowych.You can also run them across the nodes of the cluster by using ScaleR’s Hadoop Map Reduce or Apache Spark compute contexts.

Modele lub przewidywania powstałe w wyniku analizy mogą być pobierane do użytku lokalnego.The models or predictions that result from analysis can be downloaded for on-premises use. Mogą również działać w innym miejscu na platformie Azure, w szczególności za pomocą usługi sieci web Azure Machine Learning Studio .They can also be operationalized elsewhere in Azure, in particular through Azure Machine Learning Studio web service.

Wprowadzenie do usługi l Services w usłudze HDInsightGet started with ML Services on HDInsight

Aby utworzyć klaster usług ML w usłudze Azure HDInsight, podczas tworzenia klastra usługi HDInsight przy użyciu Azure Portal wybierz typ klastra usług ml .To create an ML Services cluster in Azure HDInsight, select the ML Services cluster type when creating an HDInsight cluster using the Azure portal. Typ klastra usługi ML zawiera ML Server w węzłach danych klastra i w węźle brzegowym, który służy jako strefa docelowa dla analiz opartych na usługach ML.The ML Services cluster type includes ML Server on the data nodes of the cluster and on an edge node, which serves as a landing zone for ML Services-based analytics. Zobacz Tworzenie klastrów Apache Hadoop przy użyciu Azure Portal, aby zapoznać się z przewodnikiem dotyczącym tworzenia klastra.See Create Apache Hadoop clusters using the Azure portal for a walkthrough on how to create the cluster.

Dlaczego warto wybrać usługi ML w usłudze HDInsight?Why choose ML Services in HDInsight?

Usługi ML w usłudze HDInsight zapewniają następujące korzyści:ML Services in HDInsight provides the following benefits:

Innowacje AI firmy Microsoft i Open-SourceAI innovation from Microsoft and open-source

Usługa l Services obejmuje wysoce skalowalny, rozproszony zestaw algorytmów, takich jak kolekcję funkcji revoscaler, biblioteki revoscalepyi microsoftML , które mogą pracować z rozmiarem danych większym od rozmiaru pamięci fizycznej i uruchamiać na wielu różnych platformach w sposób dystrybuowany.ML Services includes highly scalable, distributed set of algorithms such as RevoscaleR, revoscalepy, and microsoftML that can work on data sizes larger than the size of physical memory, and run on a wide variety of platforms in a distributed manner. Dowiedz się więcej na temat kolekcji niestandardowych pakietów języka R firmy Microsoft i pakietów Python zawartych w produkcie.Learn more about the collection of Microsoft's custom R packages and Python packages included with the product.

Usługi ML mostkuje te innowacje i wkłady firmy Microsoft pochodzące z społeczności typu "open source" (zestawu narzędzi języka R, Python i AI) na jednej platformie klasy korporacyjnej.ML Services bridges these Microsoft innovations and contributions coming from the open-source community (R, Python, and AI toolkits) all on top of a single enterprise-grade platform. Każdy pakiet uczenia maszynowego "open source" w języku R lub Python może współpracować ze wszystkimi zastrzeżonymi innowacyjnymi firmy Microsoft.Any R or Python open-source machine learning package can work side by side with any proprietary innovation from Microsoft.

Proste, bezpieczne i wysoce skalowane operacjonalizacji i administracjaSimple, secure, and high-scale operationalization and administration

Przedsiębiorstwa opierają się na tradycyjnych odmianach i środowiskach inwestycji dużo czasu i wysiłku na operacjonalizacji.Enterprises relying on traditional paradigms and environments invest much time and effort towards operationalization. Wynika to z niezryczałtowanych kosztów i opóźnień, w tym czasu tłumaczenia dla modeli, iteracji, aby zachować ich ważność i bieżące, zatwierdzać prawa i zarządzać uprawnieniami za pomocą operacjonalizacji.This results in inflated costs and delays including the translation time for models, iterations to keep them valid and current, regulatory approval, and managing permissions through operationalization.

Usługi Virtual Services oferują operacjonalizacjiklasy korporacyjnej w tym przypadku, gdy model uczenia maszynowego zostanie ukończony, zajmie zaledwie kilka kliknięć, aby generować interfejsy API usług sieci Web.ML Services offers enterprise grade operationalization, in that, after a machine learning model is completed, it takes just a few clicks to generate web services APIs. Te usługi sieci Web są hostowane w sieci na serwerze w chmurze i mogą być zintegrowane z aplikacjami biznesowymi.These web services are hosted on a server grid in the cloud and can be integrated with line-of-business applications. Możliwość wdrażania w elastycznej siatce umożliwia bezproblemowe skalowanie z potrzebami firmy zarówno w przypadku partii, jak i w czasie rzeczywistym.The ability to deploy to an elastic grid lets you scale seamlessly with the needs of your business, both for batch and real-time scoring. Aby uzyskać instrukcje, zobacz OPERACJONALIZOWAĆ ml Services w usłudze HDInsight.For instructions, see Operationalize ML Services on HDInsight.

Najważniejsze funkcje usługi ML Services w usłudze HDInsightKey features of ML Services on HDInsight

Poniższe funkcje są zawarte w usłudze ML w usłudze HDInsight.The following features are included in ML Services on HDInsight.

Kategoria funkcjiFeature category OpisDescription
Język R — włączonyR-enabled Pakiety języka r dla rozwiązań pisanych w języku r, z dystrybucją typu open source dla języka r i infrastruktury czasu wykonywania na potrzeby wykonywania skryptów.R packages for solutions written in R, with an open source distribution of R, and run-time infrastructure for script execution.
Python — włączonoPython-enabled Moduły języka Python dla rozwiązań utworzonych w języku Python, z dystrybucją typu open source dla języka Python i infrastruktury czasu wykonywania na potrzeby wykonywania skryptów.Python modules for solutions written in Python, with an open source distribution of Python, and run-time infrastructure for script execution.
Modele wstępnie nauczonePre-trained models Na potrzeby analizy wizualizacji i tekstu tonacji można przystąpić do oceny danych, które zapewniasz.For visual analysis and text sentiment analysis, ready to score data you provide.
Wdrażanie i korzystanie zDeploy and consume Operacjonalizować serwer i wdrażaj rozwiązania jako usługę sieci Web.Operationalize your server and deploy solutions as a web service.
Zdalne wykonywanieRemote execution Uruchom sesje zdalne w klastrze usługi ML w sieci z poziomu stacji roboczej klienta.Start remote sessions on ML Services cluster on your network from your client workstation.

Opcje przechowywania danych dla usług ML w usłudze HDInsightData storage options for ML Services on HDInsight

Magazyn domyślny dla systemu plików HDFS klastrów usługi HDInsight można skojarzyć z kontem usługi Azure Storage lub Azure Data Lake Storage.Default storage for the HDFS file system of HDInsight clusters can be associated with either an Azure Storage account or an Azure Data Lake Storage. To skojarzenie gwarantuje, że dane przesyłane do magazynu klastra podczas analizy są trwałe, a dane są dostępne nawet po usunięciu klastra.This association ensures that whatever data is uploaded to the cluster storage during analysis is made persistent and the data is available even after the cluster is deleted. Istnieją różne narzędzia do obsługi transferu danych do wybranej opcji magazynu, w tym funkcji przekazywania opartej na portalu dla konta magazynu i narzędzia AzCopy .There are various tools for handling the data transfer to the storage option that you select, including the portal-based upload facility of the storage account and the AzCopy utility.

Istnieje możliwość włączenia dostępu do dodatkowych obiektów blob i usług Data Lake Store podczas procesu aprowizacji klastra niezależnie od opcji magazynu podstawowego w użyciu.You have the option of enabling access to additional Blob and Data lake stores during the cluster provisioning process regardless of the primary storage option in use. Aby dowiedzieć się więcej o używaniu wielu kont magazynu, zobacz temat Opcje usługi Azure Storage dla usług ml w usłudze HDInsight .See Azure Storage options for ML Services on HDInsight article to learn more about using multiple storage accounts.

Możesz również użyć Azure Files jako opcji magazynu do użycia w węźle brzegowym.You can also use Azure Files as a storage option for use on the edge node. Azure Files umożliwia zainstalowanie udziału plików utworzonego w usłudze Azure Storage w systemie plików Linux.Azure Files enables you to mount a file share that was created in Azure Storage to the Linux file system. Aby uzyskać więcej informacji na temat tych opcji przechowywania danych dla usług ML w klastrze usługi HDInsight, zobacz Opcje usługi Azure Storage dla usług ml w usłudze HDInsight.For more information about these data storage options for ML Services on HDInsight cluster, see Azure Storage options for ML Services on HDInsight.

Węzeł brzegowy usługi Access ServicesAccess ML Services edge node

Można nawiązać połączenie z usługą Microsoft ML Server w węźle brzegowym przy użyciu przeglądarki.You can connect to Microsoft ML Server on the edge node using a browser. Jest instalowana domyślnie podczas tworzenia klastra.It is installed by default during cluster creation. Możesz również połączyć się z węzłem brzegowym klastra z poziomu wiersza polecenia, używając protokołu SSH/wykreśleń w celu uzyskania dostępu do konsoli języka R.You can also connect to the cluster edge node from the command line by using SSH/PuTTY to access the R console.

Opracowywanie i uruchamianie skryptów języka RDevelop and run R scripts

Tworzone i uruchamiane skrypty języka R mogą korzystać z dowolnych z pakietów języka R typu "open source", oprócz równoległych i rozproszonych procedur dostępnych w bibliotece skalowania.The R scripts you create and run can use any of the 8000+ open-source R packages in addition to the parallelized and distributed routines available in the ScaleR library. Ogólnie rzecz biorąc, skrypt, który jest uruchamiany z usługami ML w węźle brzegowym, działa w obrębie interpretera języka R w tym węźle.In general, a script that is run with ML Services on the edge node runs within the R interpreter on that node. Wyjątkami są te kroki, które muszą wywołać funkcję skalowania z kontekstem obliczeniowym ustawionym na wartość ograniczenia mapy Hadoop (RxHadoopMR) lub Spark (obliczeniowego rxspark).The exceptions are those steps that need to call a ScaleR function with a compute context that is set to Hadoop Map Reduce (RxHadoopMR) or Spark (RxSpark). W takim przypadku funkcja jest uruchamiana w sposób rozproszony przez węzły danych (zadania) klastra, które są skojarzone z odwołaniami do danych.In this case, the function runs in a distributed fashion across those data (task) nodes of the cluster that are associated with the data referenced. Aby uzyskać więcej informacji na temat różnych opcji kontekstu obliczeniowego, zobacz Opcje kontekstu obliczeniowego dla usług w usłudze ml w usłudze HDInsight.For more information about the different compute context options, see Compute context options for ML Services on HDInsight.

Operacjonalizowanie modeluOperationalize a model

Po zakończeniu modelowania danych można operacjonalizować model, aby utworzyć prognozy dla nowych danych na platformie Azure lub lokalnie.When your data modeling is complete, you can operationalize the model to make predictions for new data either from Azure or on-premises. Ten proces jest znany jako ocenianie.This process is known as scoring. Ocenianie może odbywać się w usłudze HDInsight, Azure Machine Learning lub lokalnie.Scoring can be done in HDInsight, Azure Machine Learning, or on-premises.

Wyniki w usłudze HDInsightScore in HDInsight

Aby wypróbować w usłudze HDInsight, napisz funkcję języka R, która wywołuje model, aby utworzyć prognozy dla nowego pliku danych, który został załadowany do konta magazynu.To score in HDInsight, write an R function that calls your model to make predictions for a new data file that you've loaded to your storage account. Następnie Zapisz przewidywania z powrotem na koncie magazynu.Then, save the predictions back to the storage account. Tę procedurę można uruchomić na żądanie na węźle brzegowym klastra lub przy użyciu zaplanowanego zadania.You can run this routine on-demand on the edge node of your cluster or by using a scheduled job.

Wynik w Azure Machine Learning (AML)Score in Azure Machine Learning (AML)

Aby wypróbować Azure Machine Learning, Użyj pakietu języka R "Open Azure Machine Learning source", który jest znany jako Azure , aby opublikować model jako usługę sieci Web platformy Azure.To score using Azure Machine Learning, use the open-source Azure Machine Learning R package known as AzureML to publish your model as an Azure web service. Dla wygody ten pakiet jest wstępnie zainstalowany w węźle brzegowym.For convenience, this package is pre-installed on the edge node. Następnie użyj funkcji w Azure Machine Learning, aby utworzyć interfejs użytkownika dla usługi sieci Web, a następnie Wywołaj usługę sieci Web zgodnie z wymaganiami dla oceny.Next, use the facilities in Azure Machine Learning to create a user interface for the web service, and then call the web service as needed for scoring.

Jeśli wybierzesz tę opcję, musisz przekonwertować wszystkie obiekty modelu skalowania na równoważne obiekty modelu "open source", które będą używane z usługą sieci Web.If you choose this option, you must convert any ScaleR model objects to equivalent open-source model objects for use with the web service. W przypadku tej konwersji Użyj funkcji przekształcania skalowania, as.randomForest() na przykład dla modeli opartych na modelu.Use ScaleR coercion functions, such as as.randomForest() for ensemble-based models, for this conversion.

Ocena w środowisku lokalnymScore on-premises

Aby oceniać lokalne po utworzeniu modelu, można serializować model w języku R, pobrać go, deserializować, a następnie użyć go do oceny nowych danych.To score on-premises after creating your model, you can serialize the model in R, download it, de-serialize it, and then use it for scoring new data. Nowe dane można wystawić przy użyciu opisanego wcześniej podejścia do oceny usługi HDInsight lub usług sieci Web.You can score new data by using the approach described earlier in Score in HDInsight or by using web services.

Obsługa klastraMaintain the cluster

Instalowanie i konserwowanie pakietów języka RInstall and maintain R packages

Większość używanych pakietów języka R jest wymagana w węźle brzegowym, ponieważ większość kroków skryptów języka R jest w tej chwili uruchamiana.Most of the R packages that you use are required on the edge node since most steps of your R scripts run there. Aby zainstalować dodatkowe pakiety języka r w węźle brzegowym, można użyć install.packages() metody w języku R.To install additional R packages on the edge node, you can use the install.packages() method in R.

Jeśli używasz tylko procedur z biblioteki skalowania w klastrze, zazwyczaj nie musisz instalować dodatkowych pakietów R w węzłach danych.If you are just using routines from the ScaleR library across the cluster, you do not usually need to install additional R packages on the data nodes. Mogą jednak być potrzebne dodatkowe pakiety do obsługi rxExec lub RxDataStep wykonywania w węzłach danych.However, you might need additional packages to support the use of rxExec or RxDataStep execution on the data nodes.

W takich przypadkach dodatkowe pakiety mogą być instalowane z akcją skryptu po utworzeniu klastra.In such cases, the additional packages can be installed with a script action after you create the cluster. Aby uzyskać więcej informacji, zobacz Zarządzanie usługami ml w klastrze usługi HDInsight.For more information, see Manage ML Services in HDInsight cluster.

Zmień ustawienia pamięci Apache Hadoop MapReduceChange Apache Hadoop MapReduce memory settings

Klaster można zmodyfikować, aby zmienić ilość pamięci dostępnej dla usług ML, gdy jest uruchomione zadanie MapReduce.A cluster can be modified to change the amount of memory that is available to ML Services when it is running a MapReduce job. Aby zmodyfikować klaster, użyj interfejsu użytkownika Apache Ambari, który jest dostępny za pomocą bloku Azure Portal w klastrze.To modify a cluster, use the Apache Ambari UI that's available through the Azure portal blade for your cluster. Aby uzyskać instrukcje dotyczące uzyskiwania dostępu do interfejsu użytkownika Ambari dla klastra, zobacz Zarządzanie klastrami usługi HDInsight przy użyciu interfejsu użytkownika sieci Web Ambari.For instructions about how to access the Ambari UI for your cluster, see Manage HDInsight clusters using the Ambari Web UI.

Istnieje również możliwość zmiany ilości pamięci dostępnej dla usług ML przy użyciu przełączników Hadoop w wywołaniu RxHadoopMR w następujący sposób:It is also possible to change the amount of memory that is available to ML Services by using Hadoop switches in the call to RxHadoopMR as follows:

hadoopSwitches = "-libjars /etc/hadoop/conf -Dmapred.job.map.memory.mb=6656"  

Skalowanie klastraScale your cluster

Istniejący klaster usług ML w usłudze HDInsight można skalować w górę lub w dół w portalu.An existing ML Services cluster on HDInsight can be scaled up or down through the portal. Skalowanie w górę pozwala uzyskać dodatkową pojemność, która może być potrzebna w przypadku większych zadań przetwarzania lub można skalować klaster w stan bezczynności.By scaling up, you can gain the additional capacity that you might need for larger processing tasks, or you can scale back a cluster when it is idle. Aby uzyskać instrukcje dotyczące skalowania klastra, zobacz Zarządzanie klastrami usługi HDInsight.For instructions about how to scale a cluster, see Manage HDInsight clusters.

Obsługa systemuMaintain the system

Konserwacja w celu zastosowania poprawek systemu operacyjnego i innych aktualizacji jest wykonywana na podstawowych maszynach wirtualnych z systemem Linux w klastrze usługi HDInsight w ciągu kilku godzin.Maintenance to apply OS patches and other updates is performed on the underlying Linux VMs in an HDInsight cluster during off-hours. Zwykle konserwacja odbywa się o godzinie 3:30 (na podstawie czasu lokalnego dla maszyny wirtualnej) co poniedziałek i czwartek.Typically, maintenance is done at 3:30 AM (based on the local time for the VM) every Monday and Thursday. Aktualizacje są wykonywane w taki sposób, że nie wpływają na więcej niż jeden kwartał klastra jednocześnie.Updates are performed in such a way that they don't impact more than a quarter of the cluster at a time.

Ponieważ węzły główne są nadmiarowe i nie mają wpływu na wszystkie węzły danych, wszystkie zadania, które są uruchomione w tym czasie, mogą spowalniać działanie.Since the head nodes are redundant and not all data nodes are impacted, any jobs that are running during this time might slow down. Jednak powinny one nadal działać.However, they should still run to completion. Wszelkie niestandardowe oprogramowanie lub dane lokalne są zachowywane w ramach tych zdarzeń konserwacyjnych, chyba że wystąpi błąd krytyczny, który wymaga ponownego skompilowania klastra.Any custom software or local data that you have is preserved across these maintenance events unless a catastrophic failure occurs that requires a cluster rebuild.

Opcje środowiska IDE dla usług ML w usłudze HDInsightIDE options for ML Services on HDInsight

Węzeł brzegowy systemu Linux klastra usługi HDInsight jest strefą docelową analizy na podstawie języka R.The Linux edge node of an HDInsight cluster is the landing zone for R-based analysis. Najnowsze wersje usługi HDInsight zapewniają domyślną instalację serwera RStudio na węźle brzegowym jako środowisko IDE oparte na przeglądarce.Recent versions of HDInsight provide a default installation of RStudio Server on the edge node as a browser-based IDE. Korzystanie z serwera RStudio jako środowiska IDE do tworzenia i wykonywania skryptów języka R może być znacznie bardziej wydajne niż w przypadku korzystania z konsoli języka R.Use of RStudio Server as an IDE for the development and execution of R scripts can be considerably more productive than just using the R console.

Ponadto można zainstalować środowisko IDE pulpitu i używać go do uzyskiwania dostępu do klastra za pomocą zdalnego kontekstu obliczeniowego MapReduce lub Spark.Additionally, you can install a desktop IDE and use it to access the cluster through use of a remote MapReduce or Spark compute context. Dostępne opcje to: R Tools for Visual Studio firmy Microsoft (RTVS), RStudio i Walware. Options include Microsoft’s R Tools for Visual Studio (RTVS), RStudio, and Walware’s Eclipse-based StatET.

Ponadto możesz uzyskać dostęp do konsoli języka R w węźle brzegowym, wpisując R w wierszu polecenia systemu Linux po nawiązaniu połączenia za pośrednictwem protokołu SSH lub wyciągania.Additionally, you can access the R console on the edge node by typing R at the Linux command prompt after connecting via SSH or PuTTY. W przypadku korzystania z interfejsu konsoli można uruchomić Edytor tekstu dla tworzenia skryptów języka R w innym oknie, a następnie wyciąć i wkleić sekcje skryptu do konsoli języka R zgodnie z potrzebami.When using the console interface, it is convenient to run a text editor for R script development in another window, and cut and paste sections of your script into the R console as needed.

CennikPricing

Ceny skojarzone z klastrem usługi HDInsight usług w usłudze ML mają strukturę podobną do cen dla innych typów klastrów HDInsight.The prices that are associated with an ML Services HDInsight cluster are structured similarly to the prices for other HDInsight cluster types. Są one oparte na wymiarach podstawowych maszyn wirtualnych w obrębie nazwy, danych i węzłów brzegowych, z dodaniem wzroście-godzinowego.They are based on the sizing of the underlying VMs across the name, data, and edge nodes, with the addition of a core-hour uplift. Aby uzyskać więcej informacji, zobacz Cennik usługi HDInsight.For more information, see HDInsight pricing.

Następne krokiNext steps

Aby dowiedzieć się więcej na temat korzystania z usług ML w klastrach usługi HDInsight, zobacz następujące tematy:To learn more about how to use ML Services on HDInsight clusters, see the following topics: