O que são os Serviços ML em Azure HDInsightWhat is ML Services in Azure HDInsight

O Microsoft Machine Learning Server está disponível como opção de implementação quando cria clusters HDInsight em Azure.Microsoft Machine Learning Server is available as a deployment option when you create HDInsight clusters in Azure. O tipo de cluster que fornece esta opção chama-se ML Services.The cluster type that provides this option is called ML Services. Esta capacidade proporciona acesso a pedido a métodos de análise adaptáveis e distribuídos em HDInsight.This capability provides on-demand access to adaptable, distributed methods of analytics on HDInsight.

ML Services on HDInsight fornece as mais recentes capacidades para análise baseada em R em conjuntos de dados de praticamente qualquer tamanho.ML Services on HDInsight provides the latest capabilities for R-based analytics on datasets of virtually any size. Os conjuntos de dados podem ser carregados para o armazenamento de Azure Blob ou Data Lake.The datasets can be loaded to either Azure Blob or Data Lake storage. As suas aplicações baseadas em R podem utilizar os pacotes R de código aberto com mais de 8000.Your R-based applications can use the 8000+ open-source R packages. As rotinas no ScaleR, o pacote de análise de dados da Microsoft também estão disponíveis.The routines in ScaleR, Microsoft's big data analytics package are also available.

O nó de borda fornece um lugar conveniente para ligar ao cluster e executar os seus scripts R.The edge node provides a convenient place to connect to the cluster and run your R scripts. O nó de borda permite executar as funções distribuídas paralelas do ScaleR através dos núcleos do servidor.The edge node allows running the ScaleR parallelized distributed functions across the cores of the server. Também pode executá-los através dos nós do cluster usando o Hadoop Map Reduce da ScaleR.You can also run them across the nodes of the cluster by using ScaleR's Hadoop Map Reduce. Também pode utilizar contextos de computação Apache Spark.You can also use Apache Spark compute contexts.

Os modelos ou previsões que resultam da análise podem ser descarregados para uso no local.The models or predictions that result from analysis can be downloaded for on-premises use. Também podem estar operationalized em outro lugar em Azure.They can also be operationalized elsewhere in Azure. Em particular, através do Azure Machine Learning Studio (clássico)e do serviço web.In particular, through Azure Machine Learning Studio (classic), and web service.

Começar com os Serviços ML em HDInsightGet started with ML Services on HDInsight

Para criar um cluster ML Services em HDInsight, selecione o tipo de cluster ML Services.To create an ML Services cluster in HDInsight, select the ML Services cluster type. O tipo de cluster ML Services inclui o ML Server nos nós de dados e no nó de borda.The ML Services cluster type includes ML Server on the data nodes, and edge node. O nó de borda serve como uma zona de aterragem para análise baseada em serviços ML.The edge node serves as a landing zone for ML Services-based analytics. Consulte os clusters Create Apache Hadoop utilizando o portal Azure para uma passagem sobre como criar o cluster.See Create Apache Hadoop clusters using the Azure portal for a walkthrough on how to create the cluster.

Porquê escolher os Serviços ML em HDInsight?Why choose ML Services in HDInsight?

Os serviços ML em HDInsight proporcionam os seguintes benefícios:ML Services in HDInsight provides the following benefits:

Inovação em IA da Microsoft e open-sourceAI innovation from Microsoft and open-source

O ML Services inclui um conjunto de algoritmos altamente adaptáveis e distribuídos, tais como RevoscaleR, revoscalepye microsoftML.ML Services includes highly adaptable, distributed set of algorithms such as RevoscaleR, revoscalepy, and microsoftML. Estes algoritmos podem funcionar em tamanhos de dados maiores do que o tamanho da memória física.These algorithms can work on data sizes larger than the size of physical memory. Também funcionam em uma grande variedade de plataformas de forma distribuída.They also run on a wide variety of platforms in a distributed manner. Saiba mais sobre a recolha dos pacotes R personalizados da Microsoft e pacotes Python incluídos com o produto.Learn more about the collection of Microsoft's custom R packages and Python packages included with the product.

A ML Services faz a ponte com estas inovações e contribuições da Microsoft provenientes da comunidade de código aberto (R, Python e kits de ferramentas de IA).ML Services bridges these Microsoft innovations and contributions coming from the open-source community (R, Python, and AI toolkits). Tudo em cima de uma única plataforma de nível empresarial.All on top of a single enterprise-grade platform. Qualquer pacote de aprendizagem automática de código aberto R ou Python pode funcionar lado a lado com qualquer inovação proprietária da Microsoft.Any R or Python open-source machine learning package can work side by side with any proprietary innovation from Microsoft.

Operacionalização e administração simples, segura e de alta escalaSimple, secure, and high-scale operationalization and administration

As empresas que dependem de paradigmas e ambientes tradicionais investem muito tempo e esforço para a operacionalização.Enterprises relying on traditional paradigms and environments invest much time and effort towards operationalization. Esta ação resulta em custos e atrasos inflacionados, incluindo o tempo de tradução para: modelos, iterações para mantê-los válidos e atuais, aprovação regulamentar e permissões de gestão.This action results in inflated costs and delays including the translation time for: models, iterations to keep them valid and current, regulatory approval, and managing permissions.

A ML Services oferece operacionalização de nível empresarial.ML Services offers enterprise grade operationalization. Depois de um modelo de machine learning estar concluído, são precisos apenas alguns cliques para gerar APIs de serviços web.After a machine learning model completes, it takes just a few clicks to generate web services APIs. Estes serviços web estão hospedados numa grelha de servidor na nuvem e podem ser integrados com aplicações de linha de negócio.These web services are hosted on a server grid in the cloud and can be integrated with line-of-business applications. A capacidade de implantação para uma grelha elástica permite-lhe escalar perfeitamente com as necessidades do seu negócio, tanto para pontuação em lote como em tempo real.The ability to deploy to an elastic grid lets you scale seamlessly with the needs of your business, both for batch and real-time scoring. Para obter instruções, consulte Operacionalizar os Serviços ML em HDInsight.For instructions, see Operationalize ML Services on HDInsight.

Nota

O tipo de cluster ML Services em HDInsight é suportado apenas em HDInsight 3.6.The ML Services cluster type on HDInsight is supported only on HDInsight 3.6. O HDInsight 3.6 está previsto reformar-se a 31 de dezembro de 2020.HDInsight 3.6 is scheduled to retire on December 31, 2020.

Principais funcionalidades dos Serviços ML em HDInsightKey features of ML Services on HDInsight

As seguintes funcionalidades estão incluídas nos Serviços ML em HDInsight.The following features are included in ML Services on HDInsight.

Categoria de recursoFeature category DescriptionDescription
Ativado por RR-enabled Pacotes R para soluções escritas em R, com uma distribuição de código aberto de R, e infraestruturas de tempo de execução para execução de scripts.R packages for solutions written in R, with an open-source distribution of R, and run-time infrastructure for script execution.
Ativado por pythonPython-enabled Módulos Python para soluções escritas em Python, com uma distribuição de código aberto de Python, e infraestruturas de tempo de execução para execução de scripts.Python modules for solutions written in Python, with an open-source distribution of Python, and run-time infrastructure for script execution.
Modelos pré-treinadosPre-trained models Para análise visual e análise de sentimento de texto, pronto para marcar dados que fornece.For visual analysis and text sentiment analysis, ready to score data you provide.
Implantar e consumirDeploy and consume Operationalizeo seu servidor e implementar soluções como um serviço web.Operationalize your server and deploy solutions as a web service.
Execução remotaRemote execution Inicie sessões remotas no cluster ML Services na sua rede a partir da sua estação de trabalho do cliente.Start remote sessions on ML Services cluster on your network from your client workstation.

Opções de armazenamento de dados para serviços ML em HDInsightData storage options for ML Services on HDInsight

O armazenamento predefinido para o sistema de ficheiros HDFS pode ser uma conta de Armazenamento Azure ou armazenamento de data lake Azure.Default storage for the HDFS file system can be an Azure Storage account or Azure Data Lake Storage. Os dados enviados para armazenamento de cluster durante a análise são tornados persistentes.Uploaded data to cluster storage during analysis is made persistent. Os dados estão disponíveis mesmo depois de o cluster ser eliminado.The data is available even after the cluster is deleted. Várias ferramentas podem lidar com a transferência de dados para o armazenamento.Various tools can handle the data transfer to storage. As ferramentas incluem a instalação de upload baseada no portal da conta de armazenamento e o utilitário AzCopy.The tools include the portal-based upload facility of the storage account and the AzCopy utility.

Você pode permitir o acesso a lojas adicionais blob e data lake durante a criação de cluster.You can enable access to additional Blob and Data lake stores during cluster creation. Não se limita a opção de armazenamento primário em uso.You aren't limited by the primary storage option in use. Consulte as opções de Armazenamento Azure para Serviços ML em artigo HDInsight para saber mais sobre a utilização de várias contas de armazenamento.See Azure Storage options for ML Services on HDInsight article to learn more about using multiple storage accounts.

Também pode utilizar os Ficheiros Azure como opção de armazenamento para utilização no nó de borda.You can also use Azure Files as a storage option for use on the edge node. O Azure Files permite ações de ficheiros criadas no Azure Storage para o sistema de ficheiros Linux.Azure Files enables file shares created in Azure Storage to the Linux file system. Para obter mais informações, consulte as opções de Armazenamento Azure para Serviços ML em HDInsight.For more information, see Azure Storage options for ML Services on HDInsight.

Acesso ML Services nó de bordaAccess ML Services edge node

Pode ligar-se ao Microsoft ML Server no nó de borda utilizando um browser ou SSH/PuTTY.You can connect to Microsoft ML Server on the edge node using a browser, or SSH/PuTTY. A consola R é instalada por padrão durante a criação do cluster.The R console is installed by default during cluster creation.

Desenvolver e executar scripts RDevelop and run R scripts

Os seus scripts R podem utilizar qualquer um dos mais de 8000 pacotes R de código aberto.Your R scripts can use any of the 8000+ open-source R packages. Também pode utilizar as rotinas paralelas e distribuídas da biblioteca ScaleR.You can also use the parallelized and distributed routines from the ScaleR library. Os scripts são executados no nó de borda dentro do intérprete R nesse nó.Scripts run on the edge node run within the R interpreter on that node. Exceto para etapas que chamam scaler funções com um contexto de cálculo de Redução de Mapa (RxHadoopMR) ou Spark (RxSpark).Except for steps that call ScaleR functions with a Map Reduce (RxHadoopMR) or Spark (RxSpark) compute context. As funções funcionam de forma distribuída através dos nós de dados que estão associados aos dados.The functions run in a distributed fashion across the data nodes that are associated with the data. Para obter mais informações sobre opções de contexto, consulte opções de contexto computacional para serviços ML em HDInsight.For more information about context options, see Compute context options for ML Services on HDInsight.

Operationalizeum modeloOperationalize a model

Quando a modelação dos seus dados estiver concluída, operationalize o modelo para fazer previsões para novos dados, quer a partir do Azure, quer no local.When your data modeling is complete, operationalize the model to make predictions for new data either from Azure or on-premises. Este processo é conhecido como pontuação.This process is known as scoring. A pontuação pode ser feita em HDInsight, Azure Machine Learning ou no local.Scoring can be done in HDInsight, Azure Machine Learning, or on-premises.

Pontuação em HDInsightScore in HDInsight

Para marcar em HDInsight, escreva uma função R.To score in HDInsight, write an R function. A função chama o seu modelo para fazer previsões para um novo ficheiro de dados que carregou na sua conta de armazenamento.The function calls your model to make predictions for a new data file that you've loaded to your storage account. Em seguida, guarde as previsões de volta para a conta de armazenamento.Then, save the predictions back to the storage account. Pode executar esta rotina a pedido no nó de borda do seu cluster ou utilizando um trabalho programado.You can run this routine on-demand on the edge node of your cluster or by using a scheduled job.

Pontuação em Azure Machine Learning (AML)Score in Azure Machine Learning (AML)

Para marcar usando o Azure Machine Learning, utilize o pacote Azure Machine Learning R de código aberto conhecido como AzureML para publicar o seu modelo como um serviço web Azure.To score using Azure Machine Learning, use the open-source Azure Machine Learning R package known as AzureML to publish your model as an Azure web service. Por conveniência, este pacote está pré-instalado no nó de borda.For convenience, this package is pre-installed on the edge node. Em seguida, utilize as instalações em Azure Machine Learning para criar uma interface de utilizador para o serviço web e, em seguida, ligue para o serviço web conforme necessário para a pontuação.Next, use the facilities in Azure Machine Learning to create a user interface for the web service, and then call the web service as needed for scoring. Em seguida, converta os objetos do modelo ScaleR em objetos de modelo de código aberto equivalentes para utilização com o serviço web.Then convert ScaleR model objects to equivalent open-source model objects for use with the web service. Utilize funções de coação ScaleR, tais como as.randomForest() modelos baseados em conjunto, para esta conversão.Use ScaleR coercion functions, such as as.randomForest() for ensemble-based models, for this conversion.

Pontuação no localScore on-premises

Para marcar no local depois de criar o seu modelo: serialize o modelo em R, descarregue-o, desescute-o e, em seguida, use-o para obter novos dados.To score on-premises after creating your model: serialize the model in R, download it, de-serialize it, then use it for scoring new data. Pode obter novos dados utilizando a abordagem descrita anteriormente no Score in HDInsight ou utilizando serviços web.You can score new data by using the approach described earlier in Score in HDInsight or by using web services.

Manter o clusterMaintain the cluster

Instalar e manter pacotes RInstall and maintain R packages

A maioria dos pacotes R que utiliza são necessários no nó de borda, uma vez que a maioria dos passos dos seus scripts R são executados lá.Most of the R packages that you use are required on the edge node since most steps of your R scripts run there. Para instalar pacotes R adicionais no nó de borda, pode utilizar o install.packages() método em R.To install additional R packages on the edge node, you can use the install.packages() method in R.

Se estiver apenas a usar rotinas de biblioteca ScaleR, normalmente não precisa de pacotes R adicionais.If you're just using ScaleR library routines, you don't usually need additional R packages. Poderá necessitar de pacotes adicionais para a execução do RxExec ou do RxDataStep nos nós de dados.You might need additional packages for rxExec or RxDataStep execution on the data nodes.

Os pacotes adicionais podem ser instalados com uma ação de script depois de criar o cluster.The additional packages can be installed with a script action after you create the cluster. Para obter mais informações, consulte Gerir os Serviços ML no cluster HDInsight.For more information, see Manage ML Services in HDInsight cluster.

Alterar configurações de memória De Mapa de Apache HadoopChange Apache Hadoop MapReduce memory settings

A memória disponível para os Serviços ML pode ser modificada quando está a executar um trabalho mapReduce.Available memory to ML Services can be modified when it's running a MapReduce job. Para modificar um cluster, use a UI Apache Ambari para o seu cluster.To modify a cluster, use the Apache Ambari UI for your cluster. Para obter instruções sobre a UI Ambari, consulte os clusters HDInsight utilizando o Ambari Web UI.For Ambari UI instructions, see Manage HDInsight clusters using the Ambari Web UI.

A memória disponível para os Serviços ML pode ser alterada utilizando interruptores Hadoop na chamada para RxHadoopMR:Available memory to ML Services can be changed by using Hadoop switches in the call to RxHadoopMR:

hadoopSwitches = "-libjars /etc/hadoop/conf -Dmapred.job.map.memory.mb=6656"

Dimensione o seu clusterScale your cluster

Um cluster de Serviços ML existente em HDInsight pode ser dimensionado para cima ou para baixo através do portal.An existing ML Services cluster on HDInsight can be scaled up or down through the portal. Ao aumentar, ganha-se capacidade adicional para tarefas de processamento maiores.By scaling up, you gain additional capacity for larger processing tasks. Pode reduzir um aglomerado quando está inativo.You can scale back a cluster when it's idle. Para obter instruções sobre como escalar um cluster, consulte os clusters HdInsight .For instructions about how to scale a cluster, see Manage HDInsight clusters.

Manter o sistemaMaintain the system

A manutenção do OS é feita nos VMs Linux subjacentes num cluster HDInsight durante o período de folga.OS Maintenance is done on the underlying Linux VMs in an HDInsight cluster during off-hours. Normalmente, a manutenção é feita às 3:30 da manhã (hora local da VM) todas as segundas e quintas-feiras.Typically, maintenance is done at 3:30 AM (VM's local time) every Monday and Thursday. As atualizações não afetam mais de um quarto do cluster de cada vez.Updates don't impact more than a quarter of the cluster at a time.

Trabalhar pode abrandar durante a manutenção.Running jobs might slow down during maintenance. No entanto, ainda devem estar concluídos.However, they should still run to completion. Qualquer software personalizado ou dados locais que tenha preservado através destes eventos de manutenção, a menos que ocorra uma falha catastrófica que exija uma reconstrução de cluster.Any custom software or local data that you've is preserved across these maintenance events unless a catastrophic failure occurs that requires a cluster rebuild.

Opções IDE para Serviços ML em HDInsightIDE options for ML Services on HDInsight

O nó de borda Linux de um cluster HDInsight é a zona de aterragem para análise baseada em R.The Linux edge node of an HDInsight cluster is the landing zone for R-based analysis. Versões recentes do HDInsight fornecem um IDE baseado no navegador do RStudio Server no nó de borda.Recent versions of HDInsight provide a browser-based IDE of RStudio Server on the edge node. O RStudio Server é mais produtivo do que a consola R para desenvolvimento e execução.RStudio Server is more productive than the R console for development and execution.

Um IDE de ambiente de trabalho pode aceder ao cluster através de um contexto remoto de cálculo MapReduce ou Spark.A desktop IDE can access the cluster through a remote MapReduce or Spark compute context. As opções incluem: As Ferramentas R para Estúdio Visual (RTVS), RStudio e StatET baseado em Eclipse da Walware.Options include: Microsoft's R Tools for Visual Studio (RTVS), RStudio, and Walware's Eclipse-based StatET.

Aceda à consola R no nó de borda digitando R na origem do comando.Access the R console on the edge node by typing R at the command prompt. Ao utilizar a interface da consola, é conveniente desenvolver script R num editor de texto.When using the console interface, it's convenient to develop R script in a text editor. Em seguida, corte e cole secções do seu script na consola R, conforme necessário.Then cut and paste sections of your script into the R console as needed.

PreçosPricing

Os preços associados a um cluster ML Services HDInsight são estruturados de forma semelhante a outros tipos de cluster HDInsight.The prices associated with an ML Services HDInsight cluster are structured similarly to other HDInsight cluster types. Baseiam-se no tamanho dos VMs subjacentes através do nome, dados e nós de borda.They're based on the sizing of the underlying VMs across the name, data, and edge nodes. Elevações de horas de núcleo também.Core-hour uplifts as well. Para obter mais informações, consulte os preços da HDInsight.For more information, see HDInsight pricing.

Passos seguintesNext steps

Para saber mais sobre como utilizar os Serviços ML em clusters HDInsight, consulte os seguintes artigos:To learn more about how to use ML Services on HDInsight clusters, see the following articles: