Tutorial: Desenvolver um modelo de clustering no R com o machine learning do SQL

Aplica-se a: SQL Server 2016 (13.x) e versões posteriores Instância Gerenciada de SQL do Azure

Nesta série de tutoriais de quatro partes, você usará o R para desenvolver e implantar um modelo de cluster K-Means nos Serviços de Machine Learning do SQL Server ou nos Clusters de Big Data para categorizar dados de clientes.

Nesta série de tutoriais de quatro partes, você usará o R para desenvolver e implantar um modelo de cluster K-Means nos Serviços de Machine Learning do SQL Server para os dados de clientes do cluster.

Nesta série de tutoriais de quatro partes, você usará o R para desenvolver e implantar um modelo de cluster K-Means no SQL Server R Services para os dados de clientes do cluster.

Nesta série de tutoriais de quatro partes, você usará o R para desenvolver e implantar um modelo de cluster K-means do Serviços de Machine Learning da Instância Gerenciada de SQL do Azure nos dados do cliente do cluster.

Na primeira parte desta série, você configurará os pré-requisitos do tutorial e, em seguida, restaurará um conjunto de dados de exemplo para um banco de dados. Nas partes dois e três, você desenvolverá alguns scripts do R em um notebook do Azure Data Studio para analisar e preparar esses dados de exemplo e treinar um modelo de machine learning. Em seguida, na quarta parte, você executará esses scripts do R em um banco de dados usando os procedimentos armazenados.

O clustering pode ser explicado como organizador de dados em grupos, nos quais os membros de um grupo são semelhantes de algum modo. Para esta série de tutoriais, imagine que você tenha uma empresa de varejo. Você usará o algoritmo K-Means para executar o clustering de clientes em um conjunto de dados de compras e devoluções de produtos. Ao realizar o clustering de clientes, você pode concentrar seus esforços de marketing com mais eficiência, direcionando-os a grupos específicos. O clustering de K-Means é um algoritmo de aprendizado não supervisionado que procura padrões em dados com base em semelhanças.

Neste artigo, você aprenderá a:

  • Restaurar um banco de dados de exemplo

Na parte dois, você aprenderá a preparar os dados de um banco de dados para executar clustering.

Na parte três, você aprenderá a criar e treinar um modelo de cluster K-means no R.

Na parte quatro, você aprenderá a criar um procedimento armazenado em um banco de dados que possa executar clustering no R com base em novos dados.

Pré-requisitos

  • Azure Data Studio. Você usará um notebook no Azure Data Studio para SQL. Para obter mais informações sobre notebooks, confira Como usar notebooks no Azure Data Studio.

  • IDE do R – Este tutorial usa o RStudio Desktop.

  • RODBC – este driver é usado nos scripts do R que você desenvolverá neste tutorial. Se ele ainda não estiver instalado, instale-o usando o comando R install.packages("RODBC"). Para saber mais sobre o RODBC, confira CRAN – Pacote RODBC.

Restaurar o banco de dados de exemplo

O conjunto de dados de exemplo usado neste tutorial foi salvo em um arquivo .bak de backup de banco de dados para você baixar e usar. Esse conjunto de dados é derivado do conjunto de dados tpcx-bb, fornecido pela TPC (Transaction Processing Performance Council).

Observação

Se você estiver usando Serviços de Machine Learning em Clusters de Big Data, confira como Restaurar um banco de dados na instância mestra de cluster de Big Data do SQL Server.

  1. Baixe o arquivo tpcxbb_1gb. bak.

  2. Siga as instruções em Restaurar um banco de dados de um arquivo de backup no Azure Data Studio, usando estes detalhes:

    • Importe do arquivo tpcxbb_1gb.bak que você baixou
    • Nomeie o banco de dados de destino como "tpcxbb_1gb"
  3. Consultando a tabela dbo.customer, é possível verificar se o conjunto de dados existe depois de você ter restaurado o banco de dados:

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    
  1. Baixe o arquivo tpcxbb_1gb. bak.

  2. Siga as instruções descritas em Restaurar um banco de dados em uma Instância Gerenciada no SQL Server Management Studio usando estes detalhes:

    • Importe do arquivo tpcxbb_1gb.bak que você baixou
    • Nomeie o banco de dados de destino como "tpcxbb_1gb"
  3. Consultando a tabela dbo.customer, é possível verificar se o conjunto de dados existe depois de você ter restaurado o banco de dados:

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    

Limpar os recursos

Se você não continuar com este tutorial, exclua o banco de dados tpcxbb_1gb.

Próximas etapas

Na parte um desta série de tutoriais, você concluiu estas etapas:

  • Instalar os pré-requisitos
  • Restaurar um banco de dados de exemplo

Para preparar os dados para o modelo de machine learning, siga a parte dois desta série de tutoriais: