자습서: RevoScaleR R 함수를 SQL Server 데이터와 함께 사용Tutorial: Use RevoScaleR R functions with SQL Server data

적용 대상: 예SQL Server 아니요Azure SQL Database 아니요Azure Synapse Analytics(SQL DW) 아니요병렬 데이터 웨어하우스 APPLIES TO: yesSQL Server noAzure SQL Database noAzure Synapse Analytics (SQL DW) noParallel Data Warehouse

RevoScaleR은 데이터 과학 및 기계 학습 워크로드에 대한 분산 및 병렬 처리를 제공하는 Microsoft R 패키지입니다.RevoScaleR is a Microsoft R package providing distributed and parallel processing for data science and machine learning workloads. SQL Server에서 R을 개발하는 경우에 사용되는 RevoScaleR은 데이터 원본 개체를 만들고, 컴퓨팅 컨텍스트를 설정하고, 패키지를 관리하고, 가져오기부터 시각화 및 분석까지 엔드투엔드 데이터 작업(가장 중요)에 필요한 함수가 포함된 핵심 기본 제공 패키지 중 하나입니다.For R development in SQL Server, RevoScaleR is one of the core built-in packages, with functions for creating data source objects, setting a compute context, managing packages, and most importantly: working with data end-to-end, from import to visualization and analysis. SQL Server Machine Learning 알고리즘은 RevoScaleR 데이터 원본에 대한 종속성이 있습니다.Machine Learning algorithms in SQL Server have a dependency on RevoScaleR data sources. RevoScaleR의 중요성을 고려하여 해당 함수를 호출하는 시기와 방법을 알고 있어야 합니다.Given the importance of RevoScaleR, knowing when and how to call its functions is an essential skill.

여러 부분으로 이루어진 이 자습서에서는 데이터 과학과 관련된 작업에 필요한 다양한 RevoScaleR 함수를 소개합니다.In this multi-part tutorial, you are introduced to a range of RevoScaleR functions for tasks associated with data science. 이 프로세스에서는 원격 컴퓨팅 컨텍스트를 만들고, 로컬 및 원격 컴퓨팅 컨텍스트 간에 데이터를 이동하고, 원격 SQL Server에서 R 코드를 실행하는 방법을 알아봅니다.In the process, you will learn how to create a remote compute context, move data between local and remote compute contexts, and execute R code on a remote SQL Server. 또한 로컬 및 원격 서버에서 데이터를 분석하고 그리는 방법과 모델을 만들고 배포하는 방법을 알아봅니다.You also learn how to analyze and plot data both locally and on the remote server, and how to create and deploy models.

사전 요구 사항Prerequisites

로컬 및 원격 컴퓨팅 컨텍스트 간에 전환하려면 두 시스템이 필요합니다.To switch back and forth between local and remote compute contexts, you need two systems. 로컬은 일반적으로 데이터 과학 워크로드를 실행하기에 충분한 성능을 갖춘 개발 워크스테이션입니다.Local is typically a development workstation with sufficent power for data science workloads. 이 경우 원격은 R 기능이 사용하도록 설정된 SQL Server입니다.Remote in this case is SQL Server with the R feature enabled.

로컬 및 원격 시스템 모두에서 동일한 버전의 RevoScaleR을 통해 컴퓨팅 컨텍스트 전환이 예측됩니다.Switching compute contexts is predicated on having the same-version RevoScaleR on both local and remote systems. 로컬 워크스테이션에서 Microsoft R Client를 설치하여 RevoScaleR 패키지 및 관련 공급자를 가져올 수 있습니다.On a local workstation, you can get the RevoScaleR packages and related providers by installing Microsoft R Client.

클라이언트와 서버를 동일한 컴퓨터에 배치해야 하는 경우에는 "원격" 클라이언트에서 R 스크립트를 전송하기 위한 두 번째 Microsoft R 라이브러리 세트를 설치해야 합니다.If you need to put client and server on the same computer, be sure to install a second set of Microsoft R libraries for sending R script from a "remote" client. SQL Server 인스턴스의 프로그램 파일에 설치된 R 라이브러리는 사용하지 마세요.Do not use the R libraries that are installed in the program files of the SQL Server instance. 특히 1대의 컴퓨터를 사용하는 경우 클라이언트 및 서버 작업을 지원하기 위해 두 위치 모두에 RevoScaleR 라이브러리가 필요합니다.Specifically, if you are using one computer, you need the RevoScaleR library in both of these locations to support client and server operations.

  • C:\Program Files\Microsoft\R Client\R_SERVER\library\RevoScaleRC:\Program Files\Microsoft\R Client\R_SERVER\library\RevoScaleR
  • C:\Program Files\Microsoft SQL Server\MSSQL14.MSSQLSERVER\R_SERVICES\library\RevoScaleRC:\Program Files\Microsoft SQL Server\MSSQL14.MSSQLSERVER\R_SERVICES\library\RevoScaleR

클라이언트 구성에 대한 지침은 R 개발을 위한 데이터 과학 클라이언트 설정을 참조하세요.For instructions on client configuration, see Set up a data science client for R development.

R 개발 도구R development tools

R 개발자는 일반적으로 R 코드를 작성하고 디버깅하는 데 IDE를 사용합니다.R developers typically use IDEs for writing and debugging R code. 다음은 몇 가지 제안 사항입니다.Here are some suggestions:

  • Visual Studio용 R 도구(RTVS)는 Intellisense, 디버깅, Microsoft R 지원을 제공하는 무료 플러그 인입니다. R Server 및 SQL Server Machine Learning Services 모두에서 사용할 수 있습니다.R Tools for Visual Studio (RTVS) is a free plug-in that provides Intellisense, debugging, and support for Microsoft R. You can use it with both R Server and SQL Server Machine Learning Services. 다운로드하려면 R Tools for Visual Studio를 참조하세요.To download, see R Tools for Visual Studio.

  • RStudio 는 R 개발에 많이 사용되는 환경 중 하나입니다.RStudio is one of the more popular environments for R development. 자세한 내용은 https://www.rstudio.com/products/RStudio/를 참조하세요.For more information, see https://www.rstudio.com/products/RStudio/.

  • SQL Server 또는 R Client에서 R을 설치할 때 기본 R 도구(R.exe, RTerm.exe, RScripts.exe)도 기본적으로 설치됩니다.Basic R tools (R.exe, RTerm.exe, RScripts.exe) are also installed by default when you install R in SQL Server or R Client. IDE를 설치하지 않으려면 기본 제공 R 도구를 사용하여 이 자습서의 코드를 실행할 수 있습니다.If you do not wish to install an IDE, you can use built-in R tools to execute the code in this tutorial.

RevoScaleR은 로컬 및 원격 컴퓨터 모두에 필요합니다.Recall that RevoScaleR is required on both local and remote computers. RStudio의 일반 설치 또는 Microsoft R 라이브러리가 누락된 다른 환경에서는 이 자습서를 완료할 수 없습니다.You cannot complete this tutorial using a generic installation of RStudio or other environment that's missing the Microsoft R libraries. 자세한 내용은 데이터 과학 클라이언트 설정을 참조하세요.For more information, see Set Up a Data Science Client.

작업 요약Summary of tasks

  • 데이터는 처음에 CSV 파일 또는 XDF 파일에서 가져온 것입니다.Data is initially obtained from CSV files or XDF files. RevoScaleR 패키지의 함수를 사용하여 데이터를 SQL ServerSQL Server 로 가져옵니다.You import the data into SQL ServerSQL Server using the functions in the RevoScaleR package.
  • 모델 학습 및 채점은 SQL ServerSQL Server 컴퓨팅 컨텍스트를 사용하여 수행됩니다.Model training and scoring is performed using the SQL ServerSQL Server compute context.
  • RevoScaleR 함수를 사용해 새로운 SQL ServerSQL Server 테이블을 만들어 채점 결과를 저장합니다.Use RevoScaleR functions to create new SQL ServerSQL Server tables to save your scoring results.
  • 서버 컴퓨팅 컨텍스트와 로컬 컴퓨팅 컨텍스트 모두에서 플롯을 만듭니다.Create plots both on the server and in the local compute context.
  • SQL ServerSQL Server 데이터베이스의 데이터를 모델에 학습시켜 SQL ServerSQL Server 인스턴스에서 R을 실행합니다.Train a model on data in SQL ServerSQL Server database, running R in the SQL ServerSQL Server instance.
  • 데이터의 하위 집합을 추출한 다음, 로컬 워크스테이션에서 분석에 다시 사용하기 위해 XDF 파일로 저장합니다.Extract a subset of data and save it as an XDF file for re-use in analysis on your local workstation.
  • SQL ServerSQL Server 데이터베이스에 대한 ODBC 연결을 열어 채점할 새 데이터를 가져옵니다.Get new data for scoring, by opening an ODBC connection to the SQL ServerSQL Server database. 채점은 로컬 워크스테이션에서 수행됩니다.Scoring is done on the local workstation.
  • 사용자 지정 R 함수를 만들고 서버 컴퓨팅 컨텍스트에서 실행하여 시뮬레이션을 수행합니다.Create a custom R function and run it in the server compute context to perform a simulation.

다음 단계Next steps