RevoScaleR (bibliothèque R dans SQL Server)RevoScaleR (R library in SQL Server)

S’APPLIQUE À : ouiSQL Server nonAzure SQL Database nonAzure Synapse Analytics (SQL DW) nonParallel Data Warehouse APPLIES TO: yesSQL Server noAzure SQL Database noAzure Synapse Analytics (SQL DW) noParallel Data Warehouse

RevoScaleR est une bibliothèque de fonctions de science des données hautes performances de Microsoft.RevoScaleR is a library of high-performance data science functions from Microsoft. Les fonctions prennent en charge l’importation de données, la transformation de données, le résumé, la visualisation et l’analyse.Functions support data import, data transformation, summarization, visualization, and analysis.

Contrairement aux fonctions R de base, les opérations RevoScaleR peuvent être effectuées sur des jeux de données très volumineux, en parallèle, et sur des systèmes de fichiers distribués.In contrast with base R functions, RevoScaleR operations can be performed against very large datasets, in parallel, and on distributed file systems. Les fonctions peuvent être utilisées sur des jeux de données trop volumineux pour la mémoire, grâce à la segmentation et au réassemblage des résultats lorsque les opérations sont terminées.Functions can operate over datasets that do not fit in memory by using chunking and by reassembling results when operations are complete.

Les fonctions RevoScaleR sont associées à un préfixe rx ou Rx pour faciliter leur identification.RevoScaleR functions are denoted with an rx or Rx prefix to make them easy to identify.

RevoScaleR sert de plateforme pour la science des données distribuée.RevoScaleR serves as a platform for distributed data science. Par exemple, vous pouvez utiliser les transformations et les contextes de calcul RevoScaleR avec les algorithmes de pointe dans MicrosoftML.For example, you can use the RevoScaleR compute contexts and transformations with the state-of-the-art algorithms in MicrosoftML. Vous pouvez également utiliser rxExec pour exécuter des fonctions R de base en parallèle.You can also use rxExec to run base R functions in parallel.

Documentation de référence complèteFull reference documentation

La bibliothèque RevoScaleR est distribuée dans plusieurs produits Microsoft, mais l’utilisation est la même que vous obteniez la bibliothèque dans SQL Server ou un autre produit.The RevoScaleR library is distributed in multiple Microsoft products, but usage is the same whether you get the library in SQL Server or another product. Étant donné que les fonctions sont les mêmes, la documentation de chaque fonction RevoScaleR est publiée au même endroit sous la référence R pour Microsoft Machine Learning Server.Because the functions are the same, documentation for individual RevoScaleR functions is published to just one location under the R reference for Microsoft Machine Learning Server. Si des comportements spécifiques à un produit existent, les différences seront signalées dans la page d’aide de la fonction.Should any product-specific behaviors exist, discrepancies will be noted in the function help page.

Versions et plateformesVersions and platforms

La bibliothèque RevoScaleR est basée sur R 3.4.3 et n’est disponible que lorsque vous installez l’un des produits ou téléchargements Microsoft suivants :The RevoScaleR library is based on R 3.4.3 and available only when you install one of the following Microsoft products or downloads:

Notes

Les versions complètes du produit sont uniquement disponibles sous Windows dans SQL Server 2017.Full product release versions are Windows-only in SQL Server 2017. Windows et Linux sont pris en charge pour RevoScaleR dans SQL Server 2019.Both Windows and Linux are supported for RevoScaleR in SQL Server 2019.

Fonctions par catégorieFunctions by category

Cette section répertorie les fonctions par catégorie pour vous donner une idée de la façon dont chacune d’elles est utilisée.This section lists the functions by category to give you an idea of how each one is used. Vous pouvez également utiliser la table des matières pour rechercher des fonctions dans l’ordre alphabétique.You can also use the table of contents to find functions in alphabetical order.

1-Source de données et calcul1-Data source and compute

RevoScaleR comprend des fonctions permettant de créer des sources de données et de définir l’emplacement, ou contexte de calcul, où les calculs sont effectués.RevoScaleR includes functions for creating data sources and setting the location, or compute context, of where computations are performed. Un objet source de données est un conteneur qui spécifie une chaîne de connexion assortie du jeu de données de votre choix, défini sous la forme d’une table, d’une vue ou d’une requête.A data source object is a container that specifies a connection string together with the set of data that you want, defined either as a table, view, or query. Les appels aux procédures stockées ne sont pas pris en charge.Stored procedure calls are not supported. Les fonctions relatives aux scénarios SQL Server sont répertoriées dans le tableau ci-dessous.Functions relevant to SQL Server scenarios are listed in the table below.

Dans certains cas, SQL Server et R utilisent des types de données différents.SQL Server and R use different data types in some cases. Pour obtenir la liste des mappages entre les types de données SQL et R, consultez Types de données R vers SQL.For a list of mappings between SQL and R data types, see R-to-SQL data types.

FonctionFunction DescriptionDescription
RxInSqlServerRxInSqlServer Créez un objet de contexte de calcul SQL Server pour envoyer des calculs à une instance distante.Create a SQL Server compute context object to push computations to a remote instance. Plusieurs fonctions RevoScaleR prennent le contexte de calcul comme argument.Several RevoScaleR functions take compute context as an argument.
rxGetComputeContext / rxSetComputeContextrxGetComputeContext / rxSetComputeContext Obtenez ou définissez le contexte de calcul actif.Get or set the active compute context.
RxSqlServerDataRxSqlServerData Créez un objet de données basé sur une requête ou une table SQL Server.Create a data object based on a SQL Server query or table.
RxOdbcDataRxOdbcData Créez une source de données basée sur une connexion ODBC.Create a data source based on an ODBC connection.
RxXdfDataRxXdfData Créez une source de données basée sur un fichier XDF local.Create a data source based on a local XDF file. Les fichiers XDF sont souvent utilisés pour décharger les données en mémoire sur le disque.XDF files are often used to offload in-memory data to disk. Un fichier XDF peut être utile quand la quantité des données utilisées est trop importante pour être transférée en un seul lot à partir de la base de données ou pour tenir dans la mémoire.An XDF file can be useful when working with more data than can be transferred from the database in one batch, or more data than can fit in memory. Par exemple, si vous déplacez régulièrement de grandes quantités de données d’une base de données vers une station de travail locale, plutôt que d’interroger de façon répétée la base de données à chaque opération R, vous pouvez vous servir du fichier XDF comme cache pour enregistrer les données localement et les exploiter ensuite dans votre espace de travail R.For example, if you regularly move large amounts of data from a database to a local workstation, rather than query the database repeatedly for each R operation, you can use the XDF file as a kind of cache to save the data locally and then work with it in your R workspace.

Conseil

Si vous débutez avec les sources de données ou les contextes de calcul, nous vous recommandons de commencer par vous renseigner sur le calcul distribué dans la documentation de Microsoft Machine Learning Server.If you are new to the idea of data sources or compute contexts, we recommend that you start with distributed computing in the Microsoft Machine Learning Server documentation.

Exécuter des instructions DDLPerform DDL statements

Vous pouvez exécuter des instructions DDL à partir de R, à condition de disposer des autorisations nécessaires au niveau de l’instance et de la base de données.You can execute DDL statements from R, if you have the necessary permissions on the instance and database. Les fonctions suivantes utilisent des appels ODBC pour exécuter des instructions DDL ou récupérer le schéma de la base de données.The following functions use ODBC calls to execute DDL statements or retrieve the database schema.

FonctionFunction DescriptionDescription
rxSqlServerTableExists et rxSqlServerDropTablerxSqlServerTableExists and rxSqlServerDropTable Déposez une table SQL ServerSQL Server ou vérifiez s’il existe une table ou un objet de base de données.Drop a SQL ServerSQL Server table, or check for the existence of a database table or object.
rxExecuteSQLDDLrxExecuteSQLDDL Exécutez une commande DDL (Data Definition Language) qui définit ou manipule des objets de base de données.Execute a Data Definition Language (DDL) command that defines or manipulates database objects. Cette fonction ne peut pas renvoyer de données et est utilisée uniquement pour récupérer ou modifier le ou les métadonnées ou le schéma de l’objet.This function cannot return data, and is used only to retrieve or modify the object schema or metadata.

2-Manipulation de données (ETL)2-Data manipulation (ETL)

Après avoir créé un objet de source de données, vous pouvez l’utiliser pour y charger des données, transformer des données ou écrire de nouvelles données dans la destination spécifiée.After you have created a data source object, you can use the object to load data into it, transform data, or write new data to the specified destination. Selon la taille des données contenues dans la source, vous pouvez aussi définir la taille de lot dans la source de données et déplacer des données en blocs.Depending on the size of the data in the source, you can also define the batch size as part of the data source and move data in chunks.

FonctionFunction DescriptionDescription
rxOpen-methodsrxOpen-methods Vérifiez si une source de données est disponible, ouvrez ou fermez une source de données, lisez des données à partir d’une source, écrivez des données dans la cible et fermez une source de données.Check whether a data source is available, open or close a data source, read data from a source, write data to the target, and close a data source.
rxImportrxImport Déplacez des données d’une source de données vers un stockage de fichiers ou dans une trame de données.Move data from a data source into file storage or into a data frame.
rxDataSteprxDataStep Transformez les données lors de leur déplacement entre des sources de données.Transform data while moving it between data sources.

3-Fonctions graphiques3-Graphing functions

Nom de la fonctionFunction name DescriptionDescription
rxHistogramrxHistogram Crée un histogramme à partir des données.Creates a histogram from data.
rxLinePlotrxLinePlot Crée un tracé en ligne à partir des données.Creates a line plot from data.
rxLorenzrxLorenz Calcule une courbe de Lorenz qui peut être tracée.Computes a Lorenz curve which can be plotted.
rxRocCurverxRocCurve Calcule et trace des courbes ROC à partir de données réelles et prévues.Computes and plots ROC curves from actual and predicted data.

4-Statistiques descriptives4-Descriptive statistics

Nom de la fonctionFunction name DescriptionDescription
rxQuantile *rxQuantile * Calcule l’étendue approximative des fichiers et des trames de données .xdf sans effectuer de tri.Computes approximate quantiles for .xdf files and data frames without sorting.
rxSummary *rxSummary * Statistiques de base sur les données, y compris des calculs par groupe.Basic summary statistics of data, including computations by group. L’écriture par les calculs par groupe dans le fichier .xdf n’est pas prise en charge.Writing by group computations to .xdf file not supported.
rxCrossTabs *rxCrossTabs * Tableau croisé de données basé sur des formules.Formula-based cross-tabulation of data.
rxCube *rxCube * Tableau croisé alternatif basé sur des formules, conçu pour une représentation efficace qui renvoie des résultats de cube.Alternative formula-based cross-tabulation designed for efficient representation returning cube results. L’écriture de la sortie dans le fichier .xdf n’est pas prise en charge.Writing output to .xdf file not supported.
rxMarginalsrxMarginals Résumés marginaux des tableaux croisés.Marginal summaries of cross-tabulations.
as.xtabsas.xtabs Convertit les résultats d’un tableau croisé en objet xtabs.Converts cross tabulation results to an xtabs object.
rxChiSquaredTestrxChiSquaredTest Effectue un test de Khi-deux sur un objet xtabs.Performs Chi-squared Test on xtabs object. Utilisé avec les petits jeux de données et ne segmente pas les données.Used with small data sets and does not chunk data.
rxFisherTestrxFisherTest Effectue un test exact de Fisher sur un objet xtabs.Performs Fisher's Exact Test on xtabs object. Utilisé avec les petits jeux de données et ne segmente pas les données.Used with small data sets and does not chunk data.
rxKendallCorrxKendallCor Calcule le Tau de Kendall à l’aide d’un objet xtabs.Computes Kendall's Tau Rank Correlation Coefficient using xtabs object.
rxPairwiseCrossTabrxPairwiseCrossTab Appliquez une fonction à des combinaisons par paires de ligne et de colonnes d’un objet xtabs.Apply a function to pairwise combinations of rows and columns of an xtabs object.
rxRiskRatiorxRiskRatio Calculez le risque relatif sur un objet xtabs deux par deux.Calculate the relative risk on a two-by-two xtabs object.
rxOddsRatiorxOddsRatio Calculez le ratio de probabilités sur un objet xtabs deux par deux.Calculate the odds ratio on a two-by-two xtabs object.

* Désigne les fonctions les plus populaires de cette catégorie.* Signifies the most popular functions in this category.

5-Fonctions de prédiction5-Prediction functions

Nom de la fonctionFunction name DescriptionDescription
rxLinMod *rxLinMod * Associe un modèle linéaire aux données.Fits a linear model to data.
rxLogit *rxLogit * Associe un modèle de régression logistique aux données.Fits a logistic regression model to data.
rxGlm *rxGlm * Associe un modèle linéaire généralisé aux données.Fits a generalized linear model to data.
rxCovCor *rxCovCor * Calculez la covariance, la corrélation ou la somme de matrices carrées / produit vectoriel pour un ensemble de variables.Calculate the covariance, correlation, or sum of squares / cross-product matrix for a set of variables.
rxDTree *rxDTree * Associe un arbre de régression ou de classification aux données.Fits a classification or regression tree to data.
rxBTrees *rxBTrees * Associe une forêt de décision de classification ou de régression aux données à l’aide d’un algorithme de boosting du gradient stochastique.Fits a classification or regression decision forest to data using a stochastic gradient boosting algorithm.
rxDForest *rxDForest * Associe une forêt de décision de régression ou de classification aux données.Fits a classification or regression decision forest to data.
rxPredict *rxPredict * Calcule les prévisions pour les modèles associés.Calculates predictions for fitted models. La sortie doit être une source de données XDF.Output must be an XDF data source.
rxKmeans *rxKmeans * Exécute un clustering K-means.Performs k-means clustering.
rxNaiveBayes *rxNaiveBayes * Exécute la classification Naive Bayes.Performs Naive Bayes classification.
rxCovrxCov Calculez la matrice de covariance pour un ensemble de variables.Calculate the covariance matrix for a set of variables.
rxCorrxCor Calculez la matrice de corrélation pour un ensemble de variables.Calculate the correlation matrix for a set of variables.
rxSSCPrxSSCP Calculez la somme de matrices carrées/de produit vectoriel pour un ensemble de variables.Calculate the sum of squares / cross-product matrix for a set of variables.
rxRocrxRoc Calculs du ROC (Receiver Operating Characteristic) à l’aide des valeurs réelles et prévues à partir d’un système classifieur binaire.Receiver Operating Characteristic (ROC) computations using actual and predicted values from binary classifier system.

* Désigne les fonctions les plus populaires de cette catégorie.* Signifies the most popular functions in this category.

Procédure d'utilisation de RevoScaleRHow to work with RevoScaleR

Les fonctions de RevoScaleR peuvent être appelées dans du code R encapsulé dans des procédures stockées.Functions in RevoScaleR are callable in R code encapsulated in stored procedures. La plupart des développeurs créent des solutions RevoScaleR localement, puis migrent le code R terminé vers les procédures stockées en guise d’exercice de déploiement.Most developers build RevoScaleR solutions locally, and then migrate finished R code to stored procedures as a deployment exercise.

Lors d’une exécution locale, vous exécutez généralement un script R à partir de la ligne de commande, ou à partir d’un environnement de développement R, et vous spécifiez un contexte de calcul SQL Server à l’aide de l’une des fonctions RevoScaleR.When running locally, you typically run an R script from the command line, or from an R development environment, and specify a SQL Server compute context using one of the RevoScaleR functions. Vous pouvez utiliser le contexte de calcul distant pour l’intégralité du code, ou pour des fonctions individuelles.You can use the remote compute context for the entire code, or for individual functions. Par exemple, vous souhaiterez peut-être décharger l’apprentissage du modèle sur le serveur pour utiliser les données les plus récentes et éviter le déplacement des données.For example, you might want to offload model training to the server to use the latest data and avoid data movement.

Lorsque vous êtes prêt à encapsuler le script R à l’intérieur d’une procédure stockée, sp_execute_external_script, nous vous recommandons de réécrire le code sous la forme d’une fonction unique ayant des entrées et des sorties clairement définies.When you are ready to encapsulate R script inside a stored procedure, sp_execute_external_script, we recommend rewriting the code as a single function that has clearly defined inputs and outputs.

Voir aussiSee also