Co je služba ML Services ve službě Azure HDInsightWhat is ML Services in Azure HDInsight

Microsoft Machine Learning Server je k dispozici jako možnost nasazení při vytváření clusterů HDInsight v Azure.Microsoft Machine Learning Server is available as a deployment option when you create HDInsight clusters in Azure. Typ clusteru, který poskytuje tuto možnost, se nazývá ml Services.The cluster type that provides this option is called ML Services. Tato funkce poskytuje odborníkům na data, statistiku a programátory R s přístupem na vyžádání ke škálovatelným distribuovaným metodám analýz v HDInsight.This capability provides data scientists, statisticians, and R programmers with on-demand access to scalable, distributed methods of analytics on HDInsight.

Služba ML Services v HDInsight poskytuje nejnovější funkce pro analýzy založené na jazyce R v datových sadách prakticky libovolné velikosti, načtené do úložiště objektů blob Azure nebo Data Lake.ML Services on HDInsight provides the latest capabilities for R-based analytics on datasets of virtually any size, loaded to either Azure Blob or Data Lake storage. Vzhledem k tomu, že cluster služby ML Services je postaven na Open Source R, aplikace založené na jazyce R můžou využívat kterýkoli z balíčků 8000 a open-source R.Since ML Services cluster is built on open-source R, the R-based applications you build can leverage any of the 8000+ open-source R packages. K dispozici jsou také rutiny nástroje pro škálování a analýzu velkých objemů dat od Microsoftu.The routines in ScaleR, Microsoft’s big data analytics package are also available.

Hraniční uzel clusteru poskytuje vhodné místo pro připojení ke clusteru a spouštění skriptů jazyka R.The edge node of a cluster provides a convenient place to connect to the cluster and to run your R scripts. Pomocí hraničního uzlu máte možnost spouštět paralelní distribuované funkce nástroje pro horizontální navýšení kapacity napříč jádry serveru hraničního uzlu.With an edge node, you have the option of running the parallelized distributed functions of ScaleR across the cores of the edge node server. Můžete je také spouštět v uzlech clusteru pomocí mapy Hadoop pro škálování zmenšení nebo Apache Spark výpočetních kontextů.You can also run them across the nodes of the cluster by using ScaleR’s Hadoop Map Reduce or Apache Spark compute contexts.

Modely nebo předpovědi, které vyplývají z analýzy, se dají stáhnout pro místní použití.The models or predictions that result from analysis can be downloaded for on-premises use. Můžou být taky v Azure fungující jinde, zejména prostřednictvím Azure Machine Learning Studio webové služby.They can also be operationalized elsewhere in Azure, in particular through Azure Machine Learning Studio web service.

Začínáme se službami ML v HDInsightGet started with ML Services on HDInsight

Pokud chcete v Azure HDInsight vytvořit cluster služeb ML, vyberte typ clusteru služby ml Services při vytváření clusteru HDInsight pomocí Azure Portal.To create an ML Services cluster in Azure HDInsight, select the ML Services cluster type when creating an HDInsight cluster using the Azure portal. Typ clusteru služby ML obsahuje ML Server v datových uzlech clusteru a na hraničním uzlu, který slouží jako cílová zóna pro analýzu na základě služby ML.The ML Services cluster type includes ML Server on the data nodes of the cluster and on an edge node, which serves as a landing zone for ML Services-based analytics. Návod, jak vytvořit cluster, najdete v tématu vytvoření Apache Hadoop clusterů pomocí Azure Portal .See Create Apache Hadoop clusters using the Azure portal for a walkthrough on how to create the cluster.

Proč zvolit služby ML v HDInsight?Why choose ML Services in HDInsight?

Služby ML ve službě HDInsight přináší následující výhody:ML Services in HDInsight provides the following benefits:

Inovace AI z Microsoftu a open sourceAI innovation from Microsoft and open-source

Služba ML Services zahrnuje vysoce škálovatelnou, distribuovanou sadu algoritmů, jako jsou RevoscaleR, revoscalepya microsoftML , které můžou pracovat na velikostech dat větších než velikost fyzické paměti a spouštět na nejrůznějších platformách. distribuovaný způsob.ML Services includes highly scalable, distributed set of algorithms such as RevoscaleR, revoscalepy, and microsoftML that can work on data sizes larger than the size of physical memory, and run on a wide variety of platforms in a distributed manner. Přečtěte si další informace o shromažďování vlastních balíčků R a balíčků Pythonu společnosti Microsoft, které jsou součástí produktu.Learn more about the collection of Microsoft's custom R packages and Python packages included with the product.

Služby ML přemostění těchto inovací a příspěvků od společnosti Microsoft pocházejících z open source komunity (R, Python a AI) jsou zcela na jedné platformě na podnikové úrovni.ML Services bridges these Microsoft innovations and contributions coming from the open-source community (R, Python, and AI toolkits) all on top of a single enterprise-grade platform. Libovolný otevřený zdrojový balíček R nebo Python může fungovat vedle všech vlastnických inovací od Microsoftu.Any R or Python open-source machine learning package can work side by side with any proprietary innovation from Microsoft.

Jednoduché, zabezpečené a vysoce škálovatelné zprovoznění a SprávaSimple, secure, and high-scale operationalization and administration

Podniky spoléhají na tradiční paradigma a prostředí, které investují mnohem dlouho a úsilí k provozuschopnosti.Enterprises relying on traditional paradigms and environments invest much time and effort towards operationalization. Výsledkem je neploché náklady a zpoždění, včetně doby překladu pro modely, iterace, aby byly platné a aktuální, zákonné schválení a Správa oprávnění prostřednictvím provozuschopnosti.This results in inflated costs and delays including the translation time for models, iterations to keep them valid and current, regulatory approval, and managing permissions through operationalization.

Služba ML Services nabízí provozuschopnostna podnikové úrovni. v takovém případě je po dokončení modelu strojového učení několik kliknutí, které vygenerují rozhraní API webových služeb.ML Services offers enterprise grade operationalization, in that, after a machine learning model is completed, it takes just a few clicks to generate web services APIs. Tyto webové služby jsou hostovány v serverové mřížce v cloudu a je možné je integrovat s podnikovými aplikacemi.These web services are hosted on a server grid in the cloud and can be integrated with line-of-business applications. Možnost nasazení do elastické mřížky vám umožní plynule škálovat požadavky vaší firmy, a to jak pro účely bodování dávky, tak i v reálném čase.The ability to deploy to an elastic grid lets you scale seamlessly with the needs of your business, both for batch and real-time scoring. Pokyny najdete v tématu zprovoznění ml Services ve službě HDInsight.For instructions, see Operationalize ML Services on HDInsight.

Klíčové funkce služby ML v HDInsightKey features of ML Services on HDInsight

Následující funkce jsou součástí ML Services v HDInsight.The following features are included in ML Services on HDInsight.

Kategorie funkceFeature category PopisDescription
R – povolenoR-enabled Balíčky r pro řešení napsané v jazyce r s využitím open source distribuce r a běhové infrastruktury pro spuštění skriptu.R packages for solutions written in R, with an open source distribution of R, and run-time infrastructure for script execution.
Python-enabledPython-enabled Moduly Pythonu pro řešení napsané v Pythonu s využitím otevřené distribuce zdrojového kódu Pythonu a běhové infrastruktury pro provádění skriptu.Python modules for solutions written in Python, with an open source distribution of Python, and run-time infrastructure for script execution.
Předem připravené modelyPre-trained models Pro vizuální analýzu a analýzu textu mínění připravené k určení skóre dat, která zadáte.For visual analysis and text sentiment analysis, ready to score data you provide.
Nasazení a využitíDeploy and consume Zprovoznění svůj server a nasaďte řešení jako webovou službu.Operationalize your server and deploy solutions as a web service.
Vzdálené spuštěníRemote execution Z pracovní stanice klienta spusťte vzdálené relace v clusteru služby ML Services ve vaší síti.Start remote sessions on ML Services cluster on your network from your client workstation.

Možnosti úložiště dat pro služby ML v HDInsightData storage options for ML Services on HDInsight

Výchozím úložištěm systému souborů HDFS v clusterech HDInsight je možné přidružit účet Azure Storage nebo Azure Data Lake Storage.Default storage for the HDFS file system of HDInsight clusters can be associated with either an Azure Storage account or an Azure Data Lake Storage. Toto přidružení zajišťuje trvalé nahrávání všech dat do úložiště clusteru během analýzy a data jsou k dispozici i po odstranění clusteru.This association ensures that whatever data is uploaded to the cluster storage during analysis is made persistent and the data is available even after the cluster is deleted. Existují různé nástroje pro zpracování přenosu dat do vybrané možnosti úložiště, včetně nahrávání na základě portálu účtu úložiště a nástroje AzCopy .There are various tools for handling the data transfer to the storage option that you select, including the portal-based upload facility of the storage account and the AzCopy utility.

Máte možnost povolit přístup k dalším objektům blob a datům Lake Store během procesu zřizování clusteru bez ohledu na použitou možnost primárního úložiště.You have the option of enabling access to additional Blob and Data lake stores during the cluster provisioning process regardless of the primary storage option in use. Další informace o používání více účtů úložiště najdete v článku možnosti Azure Storage služby ml Services na HDInsight .See Azure Storage options for ML Services on HDInsight article to learn more about using multiple storage accounts.

Soubory Azure můžete použít také jako možnost úložiště pro použití na hraničním uzlu.You can also use Azure Files as a storage option for use on the edge node. Služba soubory Azure umožňuje připojit sdílenou složku, která byla vytvořena v Azure Storage do systému souborů Linux.Azure Files enables you to mount a file share that was created in Azure Storage to the Linux file system. Další informace o těchto možnostech úložiště dat pro služby ML Services na clusteru HDInsight najdete v tématu možnosti Azure Storage pro služby ml Services v HDInsight.For more information about these data storage options for ML Services on HDInsight cluster, see Azure Storage options for ML Services on HDInsight.

Hraniční uzel služeb Access MLAccess ML Services edge node

Pomocí prohlížeče se můžete připojit k Microsoft ML Server na hraničním uzlu.You can connect to Microsoft ML Server on the edge node using a browser. Ve výchozím nastavení se instaluje při vytváření clusteru.It is installed by default during cluster creation. K přístupu ke konzole R se taky můžete připojit k hraničnímu uzlu clusteru z příkazového řádku pomocí SSH/výstupu.You can also connect to the cluster edge node from the command line by using SSH/PuTTY to access the R console.

Vývoj a spouštění skriptů RDevelop and run R scripts

Skripty jazyka R, které vytvoříte a spustíte, mohou kromě paralelních a distribuovaných rutin, které jsou k dispozici v knihovně škálování, použít libovolný z balíčků 8000 a open-source.The R scripts you create and run can use any of the 8000+ open-source R packages in addition to the parallelized and distributed routines available in the ScaleR library. Obecně platí, že skript, který se spouští se službami ML na hraničním uzlu, běží v překladači R na tomto uzlu.In general, a script that is run with ML Services on the edge node runs within the R interpreter on that node. Výjimkou jsou kroky, které vyžadují volání funkce škálování s výpočetním kontextem, který je nastaven na RxHadoopMR (Hadoop map COMPUTE) nebo Spark (výpočetního rxspark).The exceptions are those steps that need to call a ScaleR function with a compute context that is set to Hadoop Map Reduce (RxHadoopMR) or Spark (RxSpark). V takovém případě je funkce spouštěna v distribuovaném uzlu mezi těmito uzly dat (Task) clusteru, které jsou přidruženy k odkazovanému dat.In this case, the function runs in a distributed fashion across those data (task) nodes of the cluster that are associated with the data referenced. Další informace o různých možnostech výpočetního kontextu najdete v tématu Možnosti výpočetního kontextu pro služby ml v HDInsight.For more information about the different compute context options, see Compute context options for ML Services on HDInsight.

Zprovoznění modeluOperationalize a model

Po dokončení modelování dat můžete zprovoznění model a vytvořit předpovědi pro nová data z Azure nebo místního prostředí.When your data modeling is complete, you can operationalize the model to make predictions for new data either from Azure or on-premises. Tento proces se označuje jako bodování.This process is known as scoring. Bodování se dá udělat v HDInsight, Azure Machine Learning nebo v místním prostředí.Scoring can be done in HDInsight, Azure Machine Learning, or on-premises.

Skóre v HDInsightScore in HDInsight

Pokud chcete dosáhnout skóre v HDInsight, napište funkci R, která volá váš model, aby předpovědi nový datový soubor, který jste načetli do svého účtu úložiště.To score in HDInsight, write an R function that calls your model to make predictions for a new data file that you've loaded to your storage account. Pak předpovědi uložte zpátky do účtu úložiště.Then, save the predictions back to the storage account. Tuto rutinu můžete spustit na vyžádání na hraničním uzlu clusteru nebo pomocí naplánované úlohy.You can run this routine on-demand on the edge node of your cluster or by using a scheduled job.

Skóre v Azure Machine Learning (AML)Score in Azure Machine Learning (AML)

Pokud chcete určit skóre pomocí Azure Machine Learning, použijte Open Source Azure Machine Learning R známý jako AzureML k publikování modelu jako webové služby Azure.To score using Azure Machine Learning, use the open-source Azure Machine Learning R package known as AzureML to publish your model as an Azure web service. Pro usnadnění práce je tento balíček předem nainstalován na hraničním uzlu.For convenience, this package is pre-installed on the edge node. Dále pomocí zařízení v Azure Machine Learning vytvořte uživatelské rozhraní webové služby a potom zavolejte webovou službu podle potřeby pro vyhodnocování.Next, use the facilities in Azure Machine Learning to create a user interface for the web service, and then call the web service as needed for scoring.

Pokud zvolíte tuto možnost, musíte převést objekty modelu nástroje pro horizontální navýšení kapacity na ekvivalentní objekty Open Source modelu pro použití s webovou službou.If you choose this option, you must convert any ScaleR model objects to equivalent open-source model objects for use with the web service. Pro tento převod použijte funkce pro vynucení as.randomForest() škálování, například pro modely založené na kompletech.Use ScaleR coercion functions, such as as.randomForest() for ensemble-based models, for this conversion.

Místní skóreScore on-premises

Chcete-li po vytvoření modelu vyhodnotit místní skóre, můžete model serializovat v jazyce R, stáhnout jej, zrušit jeho serializaci a potom ho použít pro vyhodnocování nových dat.To score on-premises after creating your model, you can serialize the model in R, download it, de-serialize it, and then use it for scoring new data. Můžete vyhodnotit nová data pomocí výše popsaného přístupu v tématu skóre v HDInsight nebo pomocí webových služeb.You can score new data by using the approach described earlier in Score in HDInsight or by using web services.

Údržba clusteruMaintain the cluster

Instalace a údržba balíčků RInstall and maintain R packages

Většina balíčků R, které použijete, se na hraničním uzlu vyžaduje, protože tam běží většina kroků v skriptech jazyka R.Most of the R packages that you use are required on the edge node since most steps of your R scripts run there. Chcete-li nainstalovat další balíčky R na hraničním uzlu, můžete použít install.packages() metodu v jazyce R.To install additional R packages on the edge node, you can use the install.packages() method in R.

Pokud pouze používáte rutiny z knihovny škálování v clusteru, nemusíte většinou na datových uzlech instalovat další balíčky R.If you are just using routines from the ScaleR library across the cluster, you do not usually need to install additional R packages on the data nodes. Je však možné, že budete potřebovat další balíčky pro podporu použití rxExec nebo RxDataStep provádění na datových uzlech.However, you might need additional packages to support the use of rxExec or RxDataStep execution on the data nodes.

V takových případech lze další balíčky nainstalovat pomocí akce skriptu po vytvoření clusteru.In such cases, the additional packages can be installed with a script action after you create the cluster. Další informace najdete v tématu Správa služeb ml v clusteru HDInsight.For more information, see Manage ML Services in HDInsight cluster.

Změnit nastavení Apache Hadoop paměti MapReduceChange Apache Hadoop MapReduce memory settings

Cluster se dá změnit tak, aby se změnila velikost paměti, která je dostupná pro služby ML při spuštění úlohy MapReduce.A cluster can be modified to change the amount of memory that is available to ML Services when it is running a MapReduce job. Pokud chcete upravit cluster, použijte uživatelské rozhraní Apache Ambari, které je dostupné v okně Azure Portal pro váš cluster.To modify a cluster, use the Apache Ambari UI that's available through the Azure portal blade for your cluster. Pokyny k přístupu k uživatelskému rozhraní Ambari pro váš cluster najdete v tématu Správa clusterů HDInsight pomocí webového uživatelského rozhraní Ambari.For instructions about how to access the Ambari UI for your cluster, see Manage HDInsight clusters using the Ambari Web UI.

Velikost paměti, která je k dispozici pro služby ML, je také možné změnit pomocí přepínačů Hadoop ve volání RxHadoopMR následujícím způsobem:It is also possible to change the amount of memory that is available to ML Services by using Hadoop switches in the call to RxHadoopMR as follows:

hadoopSwitches = "-libjars /etc/hadoop/conf -Dmapred.job.map.memory.mb=6656"  

Škálování clusteruScale your cluster

Existující cluster služeb ML v HDInsight se dá škálovat nahoru nebo dolů na portálu.An existing ML Services cluster on HDInsight can be scaled up or down through the portal. Horizontálním škálováním můžete získat další kapacitu, kterou můžete potřebovat pro úlohy většího zpracování, nebo můžete škálovat cluster zpátky, pokud je nečinný.By scaling up, you can gain the additional capacity that you might need for larger processing tasks, or you can scale back a cluster when it is idle. Pokyny, jak škálovat cluster, najdete v tématu Správa clusterů HDInsight.For instructions about how to scale a cluster, see Manage HDInsight clusters.

Údržba systémuMaintain the system

Údržba pro použití oprav operačního systému a další aktualizace se provádí na základních virtuálních počítačích se systémem Linux v clusteru HDInsight mimo špičku.Maintenance to apply OS patches and other updates is performed on the underlying Linux VMs in an HDInsight cluster during off-hours. Údržba se obvykle provádí v 3:30 ráno (na základě místního času pro virtuální počítač) každé pondělí a čtvrtek.Typically, maintenance is done at 3:30 AM (based on the local time for the VM) every Monday and Thursday. Aktualizace se provádí takovým způsobem, že neovlivňují více než čtvrtou dobu clusteru.Updates are performed in such a way that they don't impact more than a quarter of the cluster at a time.

Vzhledem k tomu, že hlavní uzly jsou redundantní a nejsou ovlivněny všechny datové uzly, mohou všechny úlohy, které jsou spuštěny během této doby, fungovat pomalu.Since the head nodes are redundant and not all data nodes are impacted, any jobs that are running during this time might slow down. Měli byste je ale pořád spouštět až po dokončení.However, they should still run to completion. Jakékoli vlastní software nebo místní data, která jste zachovali mezi tyto události údržby, pokud nedojde k závažné chybě, která vyžaduje opětovné sestavení clusteru.Any custom software or local data that you have is preserved across these maintenance events unless a catastrophic failure occurs that requires a cluster rebuild.

Možnosti IDE pro služby ML ve službě HDInsightIDE options for ML Services on HDInsight

Hraniční uzel Linux clusteru HDInsight je cílová zóna pro analýzu založenou na jazyce R.The Linux edge node of an HDInsight cluster is the landing zone for R-based analysis. Poslední verze HDInsight poskytují výchozí instalaci serveru RStudio na hraničním uzlu jako integrované vývojové prostředí (IDE) založené na prohlížeči.Recent versions of HDInsight provide a default installation of RStudio Server on the edge node as a browser-based IDE. Použití serveru RStudio jako integrovaného vývojového prostředí (IDE) pro vývoj a spouštění skriptů R může výrazně zvýšit produktivitu, než jenom pomocí konzoly R.Use of RStudio Server as an IDE for the development and execution of R scripts can be considerably more productive than just using the R console.

Kromě toho můžete nainstalovat integrované vývojové prostředí (IDE) pro Desktop a použít ho pro přístup ke clusteru prostřednictvím použití vzdáleného výpočetního kontextu MapReduce nebo Sparku.Additionally, you can install a desktop IDE and use it to access the cluster through use of a remote MapReduce or Spark compute context. Možnosti zahrnují stavRTVS ( nástroje R pro Visual Studio Microsoft), RStudio a Walware na základě zatmění.Options include Microsoft’s R Tools for Visual Studio (RTVS), RStudio, and Walware’s Eclipse-based StatET.

Kromě toho můžete ke konzole R na hraničním uzlu přejít zadáním R na příkazovém řádku systému Linux po připojení přes protokol SSH nebo výstup.Additionally, you can access the R console on the edge node by typing R at the Linux command prompt after connecting via SSH or PuTTY. Při použití rozhraní konzoly je vhodné spustit textový editor pro vývoj skriptů R v jiném okně a podle potřeby vyjímat a vkládat oddíly skriptu do konzoly jazyka R.When using the console interface, it is convenient to run a text editor for R script development in another window, and cut and paste sections of your script into the R console as needed.

CenyPricing

Ceny, které jsou přidružené k clusteru HDInsight služby ML Services, jsou strukturované podobně jako ceny pro ostatní typy clusterů HDInsight.The prices that are associated with an ML Services HDInsight cluster are structured similarly to the prices for other HDInsight cluster types. Jsou založené na velikosti příslušných virtuálních počítačů v názvech, datech a hraničních uzlech, a to s přidáním oprotia na základě základní hodiny.They are based on the sizing of the underlying VMs across the name, data, and edge nodes, with the addition of a core-hour uplift. Další informace najdete v tématu ceny služby HDInsight.For more information, see HDInsight pricing.

Další postupNext steps

Další informace o tom, jak používat služby ML v clusterech HDInsight, najdete v následujících tématech:To learn more about how to use ML Services on HDInsight clusters, see the following topics: