Didacticiel : Utiliser les fonctions R RevoScaleR avec des données SQL Server

S’applique à : SQL Server 2016 (13.x) et versions ultérieures

Dans cette série de tutoriels en plusieurs parties, nous vous présentons une plage de fonctions RevoScaleR pour les tâches associées à la science des données. Par la même occasion, vous allez apprendre à créer un contexte de calcul distant, à déplacer des données entre des contextes de calcul locaux et distants et à exécuter du code R sur une instance de SQL Server distante. Vous allez également apprendre à analyser et à tracer des données en local et sur le serveur distant, ainsi qu’à créer et déployer des modèles.

RevoScaleR est un package R Microsoft qui fournit un traitement distribué et parallèle pour la science des données et les charges de travail de Machine Learning. Pour le développement R dans SQL Server, RevoScaleR est l’un des principaux packages intégrés, avec des fonctions permettant de créer des objets source de données, de définir un contexte de calcul, de gérer des packages et, plus important encore, d’utiliser des données du début à la fin, de l’importation à la visualisation et à l’analyse. Les algorithmes de Machine Learning dans SQL Server dépendent des sources de données RevoScaleR. Étant donné l’importance de RevoScaleR, il est essentiel de savoir quand et comment appeler ses fonctions.

Prérequis

Pour basculer entre les contextes de calcul locaux et distants, vous avez besoin de deux systèmes. Le contexte local est généralement une station de travail de développement avec une puissance suffisante pour prendre en charge les charges de travail de science des données. Le contexte distant, dans ce cas, est SQL Server avec la fonctionnalité R activée.

Le changement de contextes de calcul implique l’utilisation de la même version de RevoScaleR sur les systèmes locaux et distants. Sur une station de travail locale, vous pouvez obtenir les packages RevoScaleR et les fournisseurs associés en installant Microsoft R Client.

Si vous devez placer le client et le serveur sur le même ordinateur, veillez à installer un deuxième ensemble de bibliothèques Microsoft R pour envoyer un script R depuis un client « distant ». N’utilisez pas les bibliothèques R qui sont installées dans les fichiers programme de l’instance SQL Server. Plus précisément, si vous utilisez un ordinateur, vous avez besoin de la bibliothèque RevoScaleR dans ces deux emplacements pour prendre en charge les opérations du client et du serveur.

  • C:\Program Files\Microsoft\R Client\R_SERVER\library\RevoScaleR
  • C:\Program Files\Microsoft SQL Server\MSSQL14.MSSQLSERVER\R_SERVICES\library\RevoScaleR

Pour obtenir des instructions sur la configuration du client, consultez Configurer un client de science des données pour le développement R.

Outils de développement R

Les développeurs R utilisent généralement des IDE pour écrire et déboguer le code R. Voici quelques suggestions :

  • Les Outils R pour Visual Studio (RTVS) sont un plug-in gratuit qui fournit Intellisense, des fonctionnalités de débogage et la prise en charge de Microsoft R. Vous pouvez l’utiliser avec SQL Server Machine Learning Services. Pour télécharger, consultez Outils R pour Visual Studio.

  • RStudio est un des environnements les plus populaires pour le développement R. Pour plus d’informations, consultez https://www.rstudio.com/products/RStudio/.

  • Les outils R de base (R.exe, RTerm.exe, RScripts.exe) sont aussi installés par défaut quand vous installez R dans SQL Server ou R Client. Si vous ne souhaitez pas installer un IDE, vous pouvez utiliser les outils R intégrés pour exécuter le code de ce didacticiel.

N’oubliez pas que vous aurez besoin de RevoScaleR sur les ordinateurs locaux et distants. Vous ne pouvez pas suivre ce didacticiel avec une installation générique de RStudio ou d’un autre environnement qui ne contient pas les bibliothèques Microsoft R. Pour plus d’informations, consultez Configurer un client de science des données.

Récapitulatif des options

  • Les données obtenues initialement proviennent de fichiers CSV ou XDF. Vous importez des données dans SQL Server à l’aide des fonctions du package RevoScaleR.
  • L’apprentissage et le scoring des modèles sont effectués dans le contexte de calcul SQL Server.
  • Utilisez les fonctions RevoScaleR pour créer de nouvelles tables SQL Server pour enregistrer les résultats de vos scorings.
  • Créez des tracés sur le serveur et dans le contexte de calcul en local.
  • Effectuez l’apprentissage d’un modèle à partir des données de la base de données SQL Server, en exécutant R dans l’instance SQL Server.
  • Extrayez un sous-ensemble de données et enregistrez-le dans un fichier XDF pour pouvoir le réutiliser dans les analyses sur votre station de travail locale.
  • Obtenez de nouvelles données pour le scoring, en ouvrant une connexion ODBC à la base de données SQL Server. Le scoring s’effectue sur la station de travail locale.
  • Créez une fonction R personnalisée et exécutez-la en utilisant le contexte de calcul du serveur pour faire une simulation.

Étapes suivantes