R-Entwicklerleitfaden für AzureR developer's guide to Azure

R logo

Viele Datenanalysten müssen ständig wachsende Datenmengen verarbeiten und suchen nach Möglichkeiten, die Leistung von Cloud Computing für ihre Analysen nutzen.Many data scientists dealing with ever-increasing volumes of data are looking for ways to harness the power of cloud computing for their analyses. Dieser Artikel enthält eine Übersicht über die verschiedenen Möglichkeiten, die Datenanalysten offen stehen, um ihre vorhandenen Fähigkeiten mit der Programmiersprache R in Azure zu nutzen.This article provides an overview of the various ways that data scientists can use their existing skills with the R programming language in Azure.

Microsoft hat die Programmiersprache R als erstklassiges Tool für Data Scientists vollständig einbezogen.Microsoft has fully embraced the R programming language as a first-class tool for data scientists. Durch die Bereitstellung vieler verschiedener Optionen für R-Entwickler zur Ausführung ihres Codes in Azure ermöglicht das Unternehmen den Data Scientists, ihre Data Science-Workloads bei umfangreichen Projekten auf die Cloud auszuweiten.By providing many different options for R developers to run their code in Azure, the company is enabling data scientists to extend their data science workloads into the cloud when tackling large-scale projects.

Sehen wir uns die verschiedenen Optionen und die jeweils passendsten Szenarien an.Let's examine the various options and the most compelling scenarios for each one.

Azure-Dienste mit Unterstützung der Sprache RAzure services with R language support

Dieser Artikel behandelt die folgenden Azure-Dienste, die die R-Sprache unterstützen:This article covers the following Azure services that support the R language:

DienstService BESCHREIBUNGDescription
Azure: Machine Learning ServerAzure Machine Learning Server Unternehmenssoftware für Data Science-Zwecke mit Bereitstellung von R- und Python-Interpreternenterprise software for data science, providing R and Python interpreters
Virtueller Computer für Data ScienceData Science Virtual Machine Eine benutzerdefinierte VM, die als Data Science-Arbeitsstation oder als benutzerdefiniertes Computeziel verwendet wirda customized VM to use as a data science workstation or as a custom compute target
ML Services in HDInsightML Services on HDInsight Clusterbasiertes System für die Ausführung von R-Analysen für große Datasets auf zahlreichen Knotencluster-based system for running R analyses on large datasets across many nodes
Azure DatabricksAzure Databricks Spark-Umgebung zur Zusammenarbeit, die R und andere Sprachen unterstütztcollaborative Spark environment that supports R and other languages
Azure Machine LearningAzure Machine Learning Ein Clouddienst, den Sie zum Trainieren, Bereitstellen, Automatisieren und Verwalten von Machine Learning-Modellen verwenden.cloud service that you use to train, deploy, automate, and manage machine learning models
Machine Learning Studio (klassisch)Machine Learning Studio (classic) Ausführung benutzerdefinierter R-Skripts in Azure Machine Learning-Experimentenrun custom R scripts in Azure's machine learning experiments
Azure BatchAzure Batch Angebot einer Vielzahl von Optionen zur wirtschaftlichen Ausführung von R-Code auf vielen Knoten in einem Clusteroffers a variety options for economically running R code across many nodes in a cluster
Azure NotebooksAzure Notebooks Eine kostenfreie cloudbasierte Version von Jupyter-Notebooksa no-cost cloud-based version of Jupyter notebooks
Azure SQL-DatenbankAzure SQL Database Ausführung von R-Skripts innerhalb der SQL Server-Datenbank-Enginerun R scripts inside of the SQL Server database engine

Virtueller Computer für Data ScienceData Science Virtual Machine

Data Science Virtual Machine (DSVM) ist ein benutzerdefiniertes VM-Image auf der Microsoft Azure-Cloudplattform, das speziell für Data Science erstellt wurde.The Data Science Virtual Machine (DSVM) is a customized VM image on Microsoft’s Azure cloud platform built specifically for doing data science. Dieses Image umfasst viele gängige Data Science-Tools:It has many popular data science tools, including:

DSVM kann entweder mit Windows oder Linux als Betriebssystem bereitgestellt werden.The DSVM can be provisioned with either Windows or Linux as the operating system. Sie können DSVM auf zwei unterschiedliche Arten verwenden: als interaktive Arbeitsstation oder als Computeplattform für einen benutzerdefinierten Cluster.You can use the DSVM in two different ways: as an interactive workstation or as a compute platform for a custom cluster.

Als ArbeitsstationAs a workstation

Wenn Sie schnell und einfach mit R in der Cloud beginnen möchten, ist dies die beste Lösung.If you want to get started with R in the cloud quickly and easily, this is your best bet. Die Umgebung ist jedem vertraut, der mit R auf einer lokalen Arbeitsstation gearbeitet hat.The environment will be familiar to anyone who has worked with R on a local workstation. Statt lokale Ressourcen zu verwenden, wird die R-Umgebung jedoch auf einem virtuellen Computer in der Cloud ausgeführt.However, instead of using local resources, the R environment runs on a VM in the cloud. Wenn Ihre Daten bereits in Azure gespeichert sind, hat dies den zusätzlichen Vorteil, dass Ihre R-Skripts näher an den Daten ausgeführt werden.If your data is already stored in Azure, this has the added benefit of allowing your R scripts to run "closer to the data." Statt die Daten über das Internet zu übertragen, kann der Zugriff über das interne Azure-Netzwerk erfolgen, welches viel schneller Zugriffszeiten bietet.Instead of transferring the data across the Internet, the data can be accessed over Azure's internal network, which provides much faster access times.

DSVM kann besonders für kleine Teams von R-Entwicklern nützlich sein.The DSVM can be particularly useful to small teams of R developers. Anstatt in leistungsfähige Arbeitsstationen für jeden einzelnen Entwickler zu investieren, sodass Teammitglieder sich über die zu verwendenden Versionen der verschiedenen Softwarepakete abstimmen müssen, kann jeder Entwickler ganz nach Bedarf eine Instanz von DSVM einrichten.Instead of investing in powerful workstations for each developer and requiring team members to synchronize on which versions of the various software packages they will use, each developer can spin up an instance of the DSVM whenever needed.

Als ComputeplattformAs a compute platform

Zusätzlich zur Verwendung als Arbeitsstation wird DSVM auch als elastisch skalierbare Computeplattform für R-Projekte verwendet werden.In addition to being used as a workstation, the DSVM is also used as an elastically scalable compute platform for R projects. Mit dem AzureDSVM-R-Paket können Sie das Erstellen und Löschen von DSVM-Instanzen programmgesteuert verwalten.Using the AzureDSVM R package, you can programmatically control the creation and deletion of DSVM instances. Sie können die Instanzen in einem Cluster zusammenfassen und eine verteilte Analyse zur Durchführung in der Cloud bereitstellen.You can form the instances into a cluster and deploy a distributed analysis to be performed in the cloud. Dieser gesamte Prozess kann durch R-Code gesteuert werden, der auf Ihrer lokalen Arbeitsstation ausgeführt wird.This entire process can be controlled by R code running on your local workstation.

Weitere Informationen zu DSVM finden Sie unter Einführung in Azure Data Science Virtual Machine für Linux und Windows.To learn more about the DSVM, see Introduction to Azure Data Science Virtual Machine for Linux and Windows.

ML Services in HDInsightML Services on HDInsight

Microsoft ML Services ermöglicht Data Scientists, Statistikern und R-Programmierern bei Bedarf den Zugriff auf skalierbare, verteilte Analysemethoden in HDInsight.Microsoft ML Services provide data scientists, statisticians, and R programmers with on-demand access to scalable, distributed methods of analytics on HDInsight. Diese Lösung bietet die neuesten Funktionen für die R-basierte Analyse praktisch beliebig großer Datasets, die entweder in Azure-Blobspeicher oder Data Lake Storage geladen wurden.This solution provides the latest capabilities for R-based analytics on datasets of virtually any size, loaded to either Azure Blob or Data Lake storage.

Dies ist eine Lösung auf Unternehmensniveau, die Ihnen das Skalieren Ihres R-Codes auf einen Cluster ermöglicht.This is an enterprise-grade solution that allows you to scale your R code across a cluster. Durch Verwenden von Funktionen im RevoScaleR-Paket von Microsoft können Ihre R-Skripts für HDInsight Funktionen zur Datenverarbeitung auf zahlreichen Knoten in einem Cluster parallel ausführen.By using functions in Microsoft's RevoScaleR package, your R scripts on HDInsight can run data processing functions in parallel across many nodes in a cluster. Dadurch kann R Daten in einem viel größeren Maßstab verarbeiten, als dies mit Singlethread-R auf einer Arbeitsstation möglich ist.This allows R to crunch data on a much larger scale than is possible with single-threaded R running on a workstation.

Diese Skalierungsmöglichkeit macht ML Services in HDInsight zu einer hervorragenden Option für R-Entwickler mit riesigen Datasets.This ability to scale makes ML Services on HDInsight a great option for R developers with massive data sets. Es bietet eine flexible und skalierbare Plattform für die Ausführung Ihrer R-Skripts in der Cloud.It provides a flexible and scalable platform for running your R scripts in the cloud.

Eine exemplarische Vorgehensweise zum Erstellen eines ML Services-Clusters finden Sie unter Erste Schritte mit ML Services in Azure HDInsight.For a walk-through on creating an ML Services cluster, see Get started with ML Services on Azure HDInsight.

Azure DatabricksAzure Databricks

Azure Databricks ist eine Apache Spark-basierte Analyseplattform, die für die Microsoft Azure-Clouddienstplattform optimiert ist.Azure Databricks is an Apache Spark-based analytics platform optimized for the Microsoft Azure cloud services platform. Databricks wurde zusammen mit den Gründern von Apache Spark entworfen und ist in Azure integriert, um Folgendes zu ermöglichen: Einrichtung mit nur einem Klick, optimierte Workflows und einen interaktiven Arbeitsbereich für die Zusammenarbeit von Datenspezialisten, Data Engineers und Business Analysts.Designed with the founders of Apache Spark, Databricks is integrated with Azure to provide one-click setup, streamlined workflows, and an interactive workspace that enables collaboration between data scientists, data engineers, and business analysts.

Die Zusammenarbeit in Databricks wird durch das Notebook-System der Plattform ermöglicht.The collaboration in Databricks is enabled by the platform's notebook system. Benutzer können Notebooks zusammen mit anderen Benutzern der Systeme erstellen, freigeben und bearbeiten.Users can create, share, and edit notebooks with other users of the systems. Mit diesen Notebooks können Benutzer Code schreiben, der für Spark-Cluster ausgeführt wird, die in der Databricks-Umgebung verwaltet werden.These notebooks allow users to write code that executes against Spark clusters managed in the Databricks environment. Diese Notebooks bieten vollständige Unterstützung für R und erteilen Benutzern den Zugriff auf Spark über die Pakete SparkR und sparklyr.These notebooks fully support R and give users access to Spark through both the SparkR and sparklyr packages.

Da Databricks auf Spark basiert und einen starken Fokus auf die Zusammenarbeit legt, wird die Plattform häufig von Teams aus Data Scientists verwendet, die zusammen an komplexen Analysen umfangreicher Datasets arbeiten.Since Databricks is built on Spark and has a strong focus on collaboration, the platform is often used by teams of data scientists that work together on complex analyses of large data sets. Da die Notebooks in Databricks zusätzlich zu R auch andere Sprachen unterstützen, eignen sich diese Lösung besonders für Teams, in denen die Analysten verschiedene Sprachen für ihre primäre Arbeit verwenden.Because the notebooks in Databricks support other languages in addition to R, it is especially useful for teams where analysts use different languages for their primary work.

Im Artikel Was ist Azure Databricks? finden Sie weitere Details zur Plattform sowie Unterstützung bei den ersten Schritten.The article What is Azure Databricks? can provide more details about the platform and help you get started.

Azure Machine LearningAzure Machine Learning

Azure Machine Learning kann für alle Arten von maschinellem Lernen verwendet werden – von klassischem Machine Learning bis zu Deep Learning und für überwachtes und nicht überwachtes Lernen.Azure Machine Learning can be used for any kind of machine learning, from classical machine learning to deep learning, supervised and unsupervised learning. Unabhängig davon, ob Sie das Schreiben von Python- oder R-Code oder die Nutzung von Optionen ohne bzw. mit nur wenig Code (z.B. per Designer) bevorzugen, können Sie in einem Azure Machine Learning-Arbeitsbereich hochpräzise Machine Learning- und Deep Learning-Modelle erstellen, trainieren und nachverfolgen.Whether you prefer to write Python or R code or zero-code/low-code options such as the designer, you can build, train and track highly accurate machine learning and deep-learning models in an Azure Machine Learning Workspace.

Beginnen Sie auf Ihrem lokalen Computer mit dem Training, und führen Sie dann eine Aufskalierung auf die Cloud durch.Start training on your local machine and then scale out to the cloud. Trainieren Sie Ihr erstes Modells in R noch heute mit Azure Machine Learning.Train your first model in R with Azure Machine Learning today.

Azure Machine Learning Studio (klassisch)Azure Machine Learning Studio (classic)

Machine Learning Studio (klassisch) ist ein Drag & Drop-Tool für Kollaboration, mit dem Sie Lösungen für Vorhersageanalysen in der Cloud erstellen, testen und bereitstellen können.Machine Learning Studio (classic) is a collaborative, drag-and-drop tool you can use to build, test, and deploy predictive analytics solutions in the cloud. Es ermöglicht unerfahrenen Data Scientists das Erstellen und Bereitstellen von Machine Learning-Modellen, ohne viel Code schreiben zu müssen.It enables emerging data scientists to create and deploy machine learning models without the need to write much code.

Azure Machine Learning Studio (klassisch) unterstützt sowohl R als auch Python.Azure Machine Learning Studio (classic) supports both R and Python.

Kunden, die derzeit Machine Learning Studio (klassisch) verwenden oder evaluieren, wird empfohlen, den Azure Machine Learning-Designer (Vorschau) auszuprobieren. Er bietet Drag & Drop-ML-Module sowie Skalierbarkeit, Versionskontrolle und Unternehmenssicherheit.Customers currently using or evaluating Machine Learning Studio (classic) are encouraged to try Azure Machine Learning designer (preview), which provides drag-n-drop ML modules plus scalability, version control, and enterprise security.

Azure BatchAzure Batch

Für umfangreiche R-Aufträge können Sie Azure Batch verwenden.For large-scale R jobs, you can use Azure Batch. Dieser Dienst bietet Auftragsplanung und Computeverwaltung im Maßstab der Cloud, sodass Sie Ihre R-Workload auf Dutzende, Hunderte oder Tausende virtueller Computer skalieren können.This service provides cloud-scale job scheduling and compute management so you can scale your R workload across tens, hundreds, or thousands of virtual machines. Da es sich um eine generalisierte Computeplattform handelt, gibt es einige wenige Optionen für die Ausführung von R-Aufträgen in Azure Batch.Since it is a generalized computing platform, there a few options for running R jobs on Azure Batch.

Eine Option besteht in der Verwendung des Microsoft-Pakets doAzureParallel.One option is to use Microsoft's doAzureParallel package. Dieses R-Paket ist ein paralleles Back-End für das Paket foreach.This R package is a parallel backend for the foreach package. Es ermöglicht die parallele Ausführung jeder Iteration der foreach-Schleife auf einem Knoten innerhalb des Azure Batch-Clusters.It allows each iteration of the foreach loop to run in parallel on a node within the Azure Batch cluster. Eine Einführung in das Paket finden Sie in dem Blogbeitrag doAzureParallel: Take advantage of Azure’s flexible compute directly from your R session (doAzureParallel: Nutzen Sie die flexiblen Computeressourcen von Azure direkt von Ihrer R-Sitzung aus).For an introduction to the package, see the blog post doAzureParallel: Take advantage of Azure’s flexible compute directly from your R session.

Eine weitere Option für die Ausführung eines R-Skripts in Azure Batch besteht darin, Ihren Code mit „RScript.exe“ als Batch-Apps im Azure-Portal zu bündeln.Another option for running an R script in Azure Batch is to bundle your code with "RScript.exe" as a Batch App in the Azure portal. Eine ausführliche exemplarische Vorgehensweise finden Sie unter R Workloads on Azure Batch (R-Workloads in Azure Batch).For a detailed walkthrough, see R Workloads on Azure Batch.

Als dritte Möglichkeit können Sie das Azure Distributed Data Engineering Toolkit (AZTK) verwenden. Dieses ermöglicht die Bereitstellung bedarfsgesteuerter Spark-Cluster mithilfe von Docker-Containern in Azure Batch.A third option is to use the Azure Distributed Data Engineering Toolkit (AZTK), which allows you to provision on-demand Spark clusters using Docker containers in Azure Batch. Dadurch bietet sich eine preisgünstige Möglichkeit zum Ausführen von Spark-Aufträgen in Azure.This provides an economical way to run Spark jobs in Azure. Indem Sie SparklyR mit AZTK verwenden, können Ihre R-Skripts in der Cloud einfach und kostengünstig horizontal hochskaliert werden.By using SparklyR with AZTK, your R scripts can be scaled out in the cloud easily and economically.

Azure-NotebooksAzure Notebooks

Azure Notebooks ist eine kostengünstige, unkomplizierte Methode für R-Entwickler, die lieber mit Notebooks arbeiten, um ihren Code in Azure zu integrieren.Azure Notebooks is a low-cost, low-friction method for R developers who prefer working with notebooks to bring their code to Azure. Dies ist ein kostenloser Dienst für jeden, der Code mit Jupyter im Browser entwickeln und ausführen möchte. Dabei handelt es sich um ein Open Source-Projekt, das das Kombinieren von Markdowntext, ausführbarem Code und Grafiken in einer einzigen Canvas ermöglicht.It is a free service for anyone to develop and run code in their browser using Jupyter, which is an open-source project that enables combing markdown prose, executable code, and graphics onto a single canvas.

Die kostenlose Dienstebene von Azure Notebooks ist eine ideale Option für kleine Projekte, da sie den Prozess jedes Notebooks auf 4 GB Arbeitsspeicher und 1 GB für Datasets beschränkt.The free service tier of Azure Notebooks is a viable option for small-scale projects, as it limits each notebook's process to 4 GB of memory and 1 GB data sets. Wenn Sie über diese Einschränkungen hinausgehende Rechen- und Datenleistung benötigen, können Sie Notebooks in einer Data Science Virtual Machine-Instanz ausführen.If you need compute and data power beyond these limitations, however, you can run notebooks in a Data Science Virtual Machine instance. Weitere Informationen finden Sie unter Verwalten und Konfigurieren von Projekten – Compute-Tarif.For more information, see Manage and configure Azure Notebooks projects - Compute tier.

Azure SQL-DatenbankAzure SQL Database

Azure SQL-Datenbank ist ein intelligenter und vollständig verwalteter Microsoft-Dienst für relationale Clouddatenbanken.Azure SQL Database is Microsoft's intelligent, fully managed relational cloud database service. Damit können Sie das volle Potenzial von SQL Server nutzen, ohne die Infrastruktur einrichten zu müssen.It allows you to use the full power of SQL Server without any hassle of setting up the infrastructure. Darin enthalten ist Machine Learning Services (R, Python) in SQL Server 2017Machine Learning-Dienste (R, Python), in SQLServer 2017, einer der Neuzugänge bei SQL.This includes Machine Learning Services in SQL Server, which is one of the more recent additions to SQL.

Dieses Feature bietet eine eingebettete Predictive Analytics- und Data Science-Engine, die R-Code in einer SQL Server-Datenbank als gespeicherte Prozeduren, als T-SQL-Skripts mit R-Anweisungen oder als R-Code mit T-SQL ausführen kann.This feature offers an embedded, predictive analytics and data science engine that can execute R code within a SQL Server database as stored procedures, as T-SQL scripts containing R statements, or as R code containing T-SQL. Statt Daten aus der Datenbank zu extrahieren und in die R-Umgebung zu laden, laden Sie Ihren R-Code direkt in die Datenbank und lassen ihn neben den Daten ausführen.Instead of extracting data from the database and loading it into the R environment, you load your R code directly into the database and let it run right alongside the data.

Machine Learning Services ist bereits seit 2016 Bestandteil der lokalen SQL Server-Version, wurde aber in Azure SQL-Datenbank erst vor kurzem eingeführt.While Machine Learning Services has been part of on-premises SQL Server since 2016, it is relatively new to Azure SQL Database. Zurzeit liegt es in der eingeschränkten Vorschauversion vor, wird jedoch weiterentwickelt.It is currently in limited preview but will continue to evolve.

Nächste SchritteNext steps


Für das R-Logo gilt © 2016 The R Foundation. Es wird gemäß den Bedingungen der Creative Commons Attribution-ShareAlike 4.0 International-Lizenz verwendet.The R logo is © 2016 The R Foundation and is used under the terms of the Creative Commons Attribution-ShareAlike 4.0 International license.