자습서: SQL Server 데이터에 RevoScaleR R 함수 사용Tutorial: Use RevoScaleR R functions with SQL Server data

적용 대상: 예SQL Server 아니요Azure SQL Database 아니요Azure SQL Data Warehouse 아니요병렬 데이터 웨어하우스 APPLIES TO: yesSQL Server noAzure SQL Database noAzure SQL Data Warehouse noParallel Data Warehouse

RevoScaleR 는 데이터 과학 및 기계 학습 워크 로드에 대 한 분산 및 병렬 처리를 제공 하는 Microsoft R 패키지입니다.RevoScaleR is a Microsoft R package providing distributed and parallel processing for data science and machine learning workloads. SQL Server에서 R을 개발 하는 경우, RevoScaleR 는 데이터 원본 개체를 만들고, 계산 컨텍스트를 설정 하 고, 패키지를 관리 하 고, 가장 중요 한 작업을 수행 하 여 데이터를 시각화 및 분석.For R development in SQL Server, RevoScaleR is one of the core built-in packages, with functions for creating data source objects, setting a compute context, managing packages, and most importantly: working with data end-to-end, from import to visualization and analysis. SQL Server Machine Learning 알고리즘은 RevoScaleR 데이터 원본에 대 한 종속성이 있습니다.Machine Learning algorithms in SQL Server have a dependency on RevoScaleR data sources. RevoScaleR의 중요성을 고려 하 여 해당 함수를 호출 하는 시기와 방법을 알고 있어야 합니다.Given the importance of RevoScaleR, knowing when and how to call its functions is an essential skill.

이 다중 파트 자습서에서는 데이터 과학과 관련 된 작업에 대 한 다양 한 RevoScaleR 함수를 소개 합니다.In this multi-part tutorial, you are introduced to a range of RevoScaleR functions for tasks associated with data science. 이 프로세스에서는 원격 계산 컨텍스트를 만들고, 로컬 및 원격 계산 컨텍스트 간에 데이터를 이동 하 고, 원격 SQL Server에서 R 코드를 실행 하는 방법을 알아봅니다.In the process, you will learn how to create a remote compute context, move data between local and remote compute contexts, and execute R code on a remote SQL Server. 또한 로컬 및 원격 서버에서 데이터를 분석하고 표시하는 방법과 모델을 만들고 배포하는 방법을 학습합니다.You also learn how to analyze and plot data both locally and on the remote server, and how to create and deploy models.

사전 요구 사항Prerequisites

로컬이나 원격 계산 환경으로 전환하려면 두 시스템이 필요합니다.To switch back and forth between local and remote compute contexts, you need two systems. 로컬 환경은 일반적으로 데이터 과학 작업을 하는 데 충분한 성능을 가진 개발 환경입니다.Local is typically a development workstation with sufficent power for data science workloads. 이 경우 원격은 R 기능이 사용 하도록 설정 된 SQL Server 됩니다.Remote in this case is SQL Server with the R feature enabled.

로컬 및 원격 시스템 모두에서 동일한 버전의 RevoScaleR 를 보유 하 여 계산 컨텍스트를 전환할 수 있습니다.Switching compute contexts is predicated on having the same-version RevoScaleR on both local and remote systems. 로컬 워크스테이션에서 Microsoft R Client를 설치 하 여 RevoScaleR 패키지 및 관련 공급자를 가져올 수 있습니다.On a local workstation, you can get the RevoScaleR packages and related providers by installing Microsoft R Client.

클라이언트와 서버를 동일한 컴퓨터에 배치 해야 하는 경우에는 "원격" 클라이언트에서 R 스크립트를 전송 하기 위한 두 번째 Microsoft R 라이브러리 집합을 설치 해야 합니다.If you need to put client and server on the same computer, be sure to install a second set of Microsoft R libraries for sending R script from a "remote" client. SQL Server 인스턴스의 프로그램 파일에 설치 된 R 라이브러리는 사용 하지 마십시오.Do not use the R libraries that are installed in the program files of the SQL Server instance. 특히 컴퓨터 하나를 사용 하는 경우 클라이언트 및 서버 작업을 지원 하기 위해 두 위치 모두에 RevoScaleR 라이브러리가 필요 합니다.Specifically, if you are using one computer, you need the RevoScaleR library in both of these locations to support client and server operations.

  • C:\Program Files\Microsoft\R Client\R_SERVER\library\RevoScaleRC:\Program Files\Microsoft\R Client\R_SERVER\library\RevoScaleR
  • C:\Program Files\Microsoft SQL Server\MSSQL14.MSSQLSERVER\R_SERVICES\library\RevoScaleRC:\Program Files\Microsoft SQL Server\MSSQL14.MSSQLSERVER\R_SERVICES\library\RevoScaleR

클라이언트 구성에 대 한 지침은 R 개발용 데이터 과학 클라이언트 설정을 참조 하세요.For instructions on client configuration, see Set up a data science client for R development.

R 개발 도구R development tools

일반적으로 R 개발자는 R 코드를 작성하고 디버깅하기 위해 IDE를 사용합니다.R developers typically use IDEs for writing and debugging R code. 몇 가지 제안이 있습니다.Here are some suggestions:

  • Visual Studio용 R 도구 (RTVS)는 Intellisense, 디버깅 및 Microsoft R에 대 한 지원을 제공 하는 무료 플러그 인입니다. R Server와 SQL Server Machine Learning Services 함께 사용할 수 있습니다.R Tools for Visual Studio (RTVS) is a free plug-in that provides Intellisense, debugging, and support for Microsoft R. You can use it with both R Server and SQL Server Machine Learning Services. 다운로드하려면 R Tools for Visual Studio 를 참조하세요.To download, see R Tools for Visual Studio.

  • RStudio는 R 개발용으로 인기있는 환경 중 하나입니다.RStudio is one of the more popular environments for R development. 자세한 내용은 https://www.rstudio.com/products/RStudio/를 참조하세요.For more information, see https://www.rstudio.com/products/RStudio/.

  • 기본 R 도구(R.exe, RTerm.exe, RScripts.exe)는 SQL Server 또는 R 클라이언트에 R을 설치할 때 기본적으로 설치됩니다.Basic R tools (R.exe, RTerm.exe, RScripts.exe) are also installed by default when you install R in SQL Server or R Client. IDE를 설치하지 않고도 기본으로 설치되는 R 도구를 사용해 이 자습서의 코드를 실행할 수 있습니다.If you do not wish to install an IDE, you can use built-in R tools to execute the code in this tutorial.

RevoScaleR 는 로컬 및 원격 컴퓨터 모두에 필요 합니다.Recall that RevoScaleR is required on both local and remote computers. RStudio를 그냥 설치하거나 Microsoft R 라이브러리가 없는 환경에서는 이 자습서를 완료할 수 없습니다.You cannot complete this tutorial using a generic installation of RStudio or other environment that's missing the Microsoft R libraries. 자세한 내용은 데이터 과학 클라이언트 설정을 참조하세요.For more information, see Set Up a Data Science Client.

작업 요약Summary of tasks

  • 데이터는 처음에 CSV 파일 또는 XDF 파일에서 가져옵니다.Data is initially obtained from CSV files or XDF files. RevoScaleR 패키지의 함수를 SQL ServerSQL Server 사용 하 여로 데이터 를 가져옵니다.You import the data into SQL ServerSQL Server using the functions in the RevoScaleR package.
  • 모델 학습과 평가는 SQL ServerSQL Server 계산 환경에 의해 수행됩니다.Model training and scoring is performed using the SQL ServerSQL Server compute context.
  • RevoScaleR 함수를 사용 하 여 SQL ServerSQL Server 점수 매기기 결과를 저장 하는 새 테이블을 만듭니다.Use RevoScaleR functions to create new SQL ServerSQL Server tables to save your scoring results.
  • 서버나 로컬 계산 환경에서 plot을 생성할 수 있습니다.Create plots both on the server and in the local compute context.
  • SQL ServerSQL Server 데이터베이스에서 모델을 학습시키고, SQL ServerSQL Server 인스턴스에서 R을 실행하십시오.Train a model on data in SQL ServerSQL Server database, running R in the SQL ServerSQL Server instance.
  • 데이터의 하위 집합을 추출하고 XDF 파일로 저장해 로컬 워크스테이션에서의 분석에 재사용하십시오.Extract a subset of data and save it as an XDF file for re-use in analysis on your local workstation.
  • ODBC와 SQL ServerSQL Server 데이터베이스를 연결해 학습을 위한 새로운 데이터를 가져오십시오.Get new data for scoring, by opening an ODBC connection to the SQL ServerSQL Server database. 모델 평가는 로컬 워크스테이션에서 수행됩니다.Scoring is done on the local workstation.
  • 직접 R 함수를 만들고 서버의 계산 환경으로 실행해 시뮬레이션하십시오.Create a custom R function and run it in the server compute context to perform a simulation.

다음 단계Next steps