Tutorial: Usar funções RevoScaleR R com dados do SQL Server

Aplica-se a: SQL Server 2016 (13.x) e versões posteriores

Neste tutorial de várias partes, você conhecerá uma variedade de funções do RevoScaleR para tarefas associadas à ciência de dados. Ao mesmo tempo, aprenderá a criar um contexto de computação remoto, mover dados entre contextos de computação local e remota e executar o código R em um SQL Server remoto. Também aprenderá a analisar e plotar dados localmente e no servidor remoto e a criar e implantar modelos.

O RevoScaleR é um pacote R da Microsoft que fornece processamento paralelo e distribuído para cargas de trabalho de ciência de dados e de aprendizado de máquina. Para o desenvolvimento do R no SQL Server, RevoScaleR é um dos principais pacotes internos, com funções para criar objetos de fonte de dados, definir um contexto de computação, gerenciar pacotes e o mais importante: trabalhar com os dados de ponta a ponta, de importação a visualização e análise. Os algoritmos de Machine Learning no SQL Server têm uma dependência de fontes de dados RevoScaleR. Considerando a importância do RevoScaleR, saber quando e como chamar suas funções é uma habilidade essencial.

Pré-requisitos

Para alternar entre os contextos de computação local e remota, você precisa de dois sistemas. O local é normalmente uma estação de trabalho de desenvolvimento com energia suficiente para cargas de trabalho de ciência de dados. A remota, nesse caso, é o SQL Server com o recurso R habilitado.

A alternância de contextos de computação é predicada em ter o RevoScaleR da mesma versão em sistemas locais e remotos. Em uma estação de trabalho local, você pode obter os pacotes RevoScaleR e provedores relacionados instalando o Microsoft R Client.

Se você precisar colocar o cliente e o servidor no mesmo computador, instale um segundo conjunto de bibliotecas do Microsoft R para enviar o script R de um cliente "remoto". Não use as bibliotecas do R instaladas nos arquivos de programas da instância do SQL Server. Especificamente, se você estiver usando um computador, precisará da biblioteca RevoScaleR em ambos os locais para dar suporte a operações de cliente e servidor.

  • C:\Program Files\Microsoft\R Client\R_SERVER\library\RevoScaleR
  • C:\Program Files\Microsoft SQL Server\MSSQL14.MSSQLSERVER\R_SERVICES\library\RevoScaleR

Para obter instruções sobre a configuração da cliente, confira Configurar um cliente de ciência de dados para o desenvolvimento do R.

Ferramentas de desenvolvimento do R

Normalmente, os desenvolvedores do R usam os IDEs para escrever e depurar o código R. Veja a seguir algumas sugestões:

  • O RTVS (Ferramentas do R para Visual Studio) é um plug-in gratuito que fornece o IntelliSense, depuração e suporte para o Microsoft R. Você pode usá-lo com os Serviços de Machine Learning do SQL Server. Para baixar, consulte R Tools para Visual Studio.

  • ORStudio é um dos ambientes mais populares para desenvolvimento do R. Para obter mais informações, consulte https://www.rstudio.com/products/RStudio/.

  • As ferramentas básicas do R (R.exe, RTerm.exe, RScripts.exe) também são instaladas por padrão quando você instala o R no SQL Server ou no R Client. Se não desejar instalar um IDE, você poderá usar as ferramentas do R internas para executar o código neste tutorial.

Lembre-se de que RevoScaleR é necessário em computadores locais e remotos. Não é possível concluir este tutorial usando uma instalação genérica do RStudio ou outro ambiente que não está nas bibliotecas do Microsoft R. Para obter mais informações, consulte Configurar um cliente de ciência de dados.

Resumo de tarefas

  • Inicialmente, os dados são obtidos dos arquivos CSV ou XDF. Importe os dados no SQL Server usando as funções no pacote RevoScaleR.
  • O treinamento e a pontuação do modelo são executados usando o contexto de computação SQL Server.
  • Use as funções RevoScaleR para criar tabelas SQL Server para salvar os resultados da pontuação.
  • Crie plotagens no servidor e no contexto de computação local.
  • Treine um modelo sobre dados no banco de dados SQL Server, executando o R na instância SQL Server.
  • Extraia um subconjunto de dados e salve-os como um arquivo XDF para usar novamente em análises em sua estação de trabalho local.
  • Obtenha novos dados para pontuação, abrindo uma conexão ODBC com o banco de dados SQL Server. A pontuação é feita na estação de trabalho local.
  • Crie uma função do R personalizada e execute-a no contexto de computação do servidor para executar uma simulação.

Próximas etapas