Руководство по использованию функций RevoScaleR R с данными SQL Server

Применимо к: SQL Server 2016 (13.x) и более поздних версий

В этой серии из нескольких руководстве вы ознакомитесь с рядом функций RevoScaleR для выполнения задач, связанных с обработкой и анализом данных. В процессе работы с ним вы научитесь создавать удаленный контекст вычисления, перемещать данные между локальным и удаленным контекстами вычисления и выполнять код на языке R на удаленном сервере SQL Server. Кроме того, вы узнаете, как анализировать и отображать данные как локально, так и на удаленном сервере, а также создавать и развертывать модели.

RevoScaleR — это пакет R от корпорации Майкрософт, обеспечивающий распределенную и параллельную обработку для рабочих нагрузок обработки и анализа данных и машинного обучения. При разработке на языке R в SQL Server RevoScaleR является одним из основных встроенных пакетов. Он содержит функции для создания объектов источников данных, задания контекста вычисления, управления пакетами и, что самое важное, работы с данными: от импорта до визуализации и анализа. Алгоритмы машинного обучения в SQL Server зависят от источников данных RevoScaleR. Учитывая важность пакета RevoScaleR, умение вызывать его функции в соответствующих случаях — очень полезный навык.

Предварительные требования

Для переключения между локальным и удаленным контекстами вычисления требуются две системы. Локальный контекст — это обычно рабочая станция разработки с достаточной производительностью для рабочих нагрузок обработки и анализа данных. Удаленным контекстом в этом случае является сервер SQL Server с включенным компонентом R.

Переключение контекста вычисления предполагает наличие одинаковой версии RevoScaleR в локальной и удаленной системах. На локальной рабочей станции пакеты RevoScaleR и связанные поставщики можно получить, установив Microsoft R Client.

Если необходимо разместить клиент и сервер на одном компьютере, установите второй набор библиотек Microsoft R, чтобы отправлять сценарий R из "удаленного" клиента. Не используйте библиотеки R, установленные в программных файлах экземпляра SQL Server. В частности, если используется один компьютер, то для поддержки операций клиента и сервера необходимо иметь библиотеку RevoScaleR в обоих расположениях.

  • C:\Program Files\Microsoft\R Client\R_SERVER\library\RevoScaleR
  • C:\Program Files\Microsoft SQL Server\MSSQL14.MSSQLSERVER\R_SERVICES\library\RevoScaleR

Инструкции по настройке клиента см. в статье Настройка клиента обработки и анализа данных для разработки на R.

Средства разработки R

Разработчики на языке R обычно используют интегрированные среды разработки для написания и отладки кода R. Примеры, как это сделать:

  • Инструменты R для Visual Studio (RTVS) — это бесплатный подключаемый модуль, предоставляющий возможности Intellisense, отладки и поддержки Microsoft R. Его можно использовать со службами машинного обучения SQL Server. Чтобы скачать эти средства, перейдите на страницу Средства R для Visual Studio.

  • RStudio — одна из наиболее популярных сред для разработки на языке R. Для получения дополнительной информации см. https://www.rstudio.com/products/RStudio/.

  • Основные средства R (R.exe, RTerm.exe, RScripts.exe) также устанавливаются по умолчанию при установке среды R в SQL Server или клиента R Client. Если вы не хотите устанавливать интегрированную среду разработки, вы можете использовать встроенные средства R для выполнения кода в этом учебнике.

Напомним, что пакет RevoScaleR требуется как на локальном, так и на удаленном компьютерах. Это руководство нельзя пройти с помощью универсальной установки RStudio или другой среды, в которой нет библиотек R Майкрософт. Дополнительные сведения см. в разделе Настройка клиента обработки и анализа данных.

Сводка задач

  • Данные изначально получаются из CSV- или XDF-файлов. Вы импортируете данные в SQL Server с помощью функций из пакета RevoScaleR.
  • Обучение и оценка модели выполняется с помощью контекста вычисления SQL Server.
  • С помощью функций RevoScaleR создаются таблицы SQL Server для сохранения результатов оценки.
  • Графики создаются как на сервере, так и в локальном контексте вычисления.
  • Модель данных обучается на основе данных в базе данных SQL Server. Среда R запускается в экземпляре SQL Server.
  • Подмножество данных извлекается и сохраняется в XDF-файле для повторного использования при анализе на локальной рабочей станции.
  • С целью получения новых данных для оценки открывается подключение ODBC к базе данных SQL Server. Оценка выполняется на локальной рабочей станции.
  • Создается пользовательская функция R, которая затем выполняется в контексте серверных вычислений для моделирования.

Дальнейшие действия