Exportar para o Armazenamento de Blobs do Azure

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Este artigo descreve como usar a opção Exportar para Armazenamento de Blobs do Azure, no módulo Exportar Dados no Machine Learning Studio (clássico).

Observação

Aplica-se a: Machine Learning Studio (clássico) somente

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Essa opção é útil quando você deseja exportar dados de um experimento de machine learning para Armazenamento de Blobs do Azure. Por exemplo, talvez você queira compartilhar saídas de dados de aprendizado de máquina com outros aplicativos ou armazenar dados intermediários ou conjuntos de dados limpos para uso em outros experimentos.

Os blobs do Azure podem ser acessados de qualquer lugar, usando HTTP ou HTTPS. Como Armazenamento de Blobs do Azure é um armazenamento de dados não estruturado, você pode exportar dados em vários formatos. Atualmente, há suporte para os formatos CSV, TSV e ARFF.

Para exportar dados para o blob do Azure para uso por outros aplicativos, use o módulo Exportar Dados para salvar os dados Armazenamento de Blobs do Azure. Em seguida, use qualquer ferramenta que possa ler dados do armazenamento do Azure (como Excel, utilitários de armazenamento em nuvem ou outros serviços de nuvem) para carregar e usar os dados.

Observação

Os módulos Importar Dados e Exportar Dados só podem ler e gravar dados do armazenamento do Azure criados usando o modelo de implantação Clássico. Em outras palavras, o novo tipo Armazenamento de Blobs do Azure conta que oferece camadas de acesso de armazenamento quente e frio ainda não tem suporte.

De modo geral, as contas de armazenamento do Azure que você possa ter criado antes de essa opção se tornar disponível não deverão ser afetadas.

No entanto, se você precisar criar uma nova conta para uso com o Machine Learning, recomendamos que você selecione Clássico para o modelo de implantação ou use o Gerenciador de recursos e, para Tipo de conta, selecione Uso geral em vez de Armazenamento de Blob.

Como exportar dados para Armazenamento de Blobs do Azure

O serviço blob do Azure é para armazenar grandes quantidades de dados, incluindo dados binários. Há dois tipos de armazenamento de blobs: blobs públicos e blobs que exigem credenciais de logon.

  1. Adicione o módulo Exportar Dados ao seu experimento. Você pode encontrar este módulo na categoria Entrada e Saída de Dados no Studio (clássico).

  2. Conexão Exportar Dados para o módulo que produz os dados que você deseja exportar para Armazenamento de Blobs do Azure.

  3. Abra o painel Propriedades de Exportar Dados. Para o destino de dados, selecione Armazenamento de Blobs do Azure.

  4. Para Tipo de autenticação, escolha Público (URL SAS) se você sabe que o armazenamento dá suporte ao acesso por meio de uma URL SAS.

    Uma URL de SAS é um tipo especial de URL que pode ser gerado usando um utilitário de armazenamento do Azure e está disponível por apenas um tempo limitado. Ele contém todas as informações necessárias para autenticação e download.

    Para URI, digite ou colar o URI completo que define a conta e o blob público.

  5. Para contas privadas, escolha Conta e forneça o nome da conta e a chave da conta para que o experimento possa gravar na conta de armazenamento.

    • Nome da conta: digite ou colar o nome da conta em que você deseja salvar os dados. Por exemplo, se a URL completa da conta de armazenamento for https://myshared.blob.core.windows.net, digite myshared.

    • Chave de conta: colar a chave de acesso de armazenamento associada à conta.

  6. Caminho para contêiner, diretório ou blob: digite o nome do blob em que os dados exportados serão armazenados. Por exemplo, para salvar os resultados do experimento em um novo blob chamado results01.csv nas previsões de contêiner em uma conta chamada mymldata, a URL completa do blob seria https://mymldata.blob.core.windows.net/predictions/results01.csv.

    Portanto, no campo Caminho para contêiner, diretório ou blob, você especificaria o contêiner e o nome do blob da seguinte forma: predictions/results01.csv

  7. Se você especificar o nome de um blob que ainda não existe, o Azure criará o blob para você.

    Ao gravar em um blob existente, você pode especificar que o conteúdo atual do blob seja substituído definindo a propriedade , Armazenamento de Blobs do Azure modo de gravação. Por padrão, essa propriedade é definida como Erro, o que significa que um erro é gerado sempre que um arquivo de blob existente com o mesmo nome é encontrado.

  8. Para Formato de arquivo para arquivo de blob, selecione o formato no qual os dados devem ser armazenados.

    • CSV: Valores separados por vírgula (CSV) é o formato de armazenamento padrão. Para exportar títulos de coluna junto com os dados, selecione a opção Gravar linha de título de blob. Para obter mais informações sobre o formato delimitado por vírgulas usado Machine Learning, consulte Converter em CSV.

    • TSV: o formato TSV (valores separados por tabulação) é compatível com muitas ferramentas de aprendizado de máquina. Para exportar títulos de coluna junto com os dados, selecione a opção Gravar linha de título de blob. Para obter mais informações sobre o formato separado por tabulação usado Machine Learning, consulte Converter em TSV.

    • ARFF: esse formato dá suporte ao salvar arquivos no formato usado pelo modelo de ferramentas do Weka. Esse formato não tem suporte para arquivos armazenados em uma URL SAS. Para obter mais informações sobre o formato ARFF, consulte Converter em ARFF.

  9. Usar resultados armazenados em cache: selecione esta opção se quiser evitar reescrever os resultados no arquivo de blob sempre que executar o experimento. Se não houver nenhuma outra alteração nos parâmetros do módulo, o experimento grava os resultados apenas na primeira vez em que o módulo é executado ou quando há alterações nos dados.

Exemplos

Para ver exemplos de como usar o módulo Exportar Dados , consulte o Galeria de IA do Azure:

  • Converter conjunto de dados em formato VW: esse experimento usa o script Python junto com o módulo Exportar Dados para criar dados que podem ser usados pelo Vowpal Wabbit.

  • Configuração de pipelines de análise preditiva usando SQL do Azure Data Warehouse: este cenário descreve a movimentação de dados entre vários componentes, incluindo Machine Learning e SQL Data Warehouse.

  • Pontuação em lotes sem código: este tutorial demonstra como você pode usar o Aplicativos Lógicos do Azure para automatizar a importação de dados usados por experimentos e a escrita de resultados do experimento no armazenamento de blob.

  • Operacionalizar a solução de ML do Azure com o SQL Server local usando o Azure data factory: este artigo descreve um pipeline de dados mais complexo que envia dados de volta para um banco de dados SQL Server local, usando o armazenamento de blob como um estágio provisório. O uso de um banco de dados local requer a configuração de um gateway de dados, mas você pode ignorar essa parte do exemplo e apenas usar o armazenamento de blob.

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Perguntas comuns

Como evitar a escrita dos dados se o experimento não foi alterado

Quando os resultados do experimento são atualizados, Exportar Dados sempre salva o novo conjuntos de dados. No entanto, se você estiver executando o experimento repetidamente sem fazer alterações que afetam os dados de saída, poderá selecionar a opção Usar resultados armazenados em cache .

O módulo verifica se o experimento foi executado anteriormente usando os mesmos dados e as mesmas opções e, se uma operação anterior for encontrada, a operação de gravação não será repetida.

Posso salvar dados em uma conta em uma região geográfica diferente

Sim, você pode gravar dados em contas em regiões diferentes. No entanto, se a conta de armazenamento estiver em uma região diferente do nó de computação usado para o experimento de machine learning, o acesso a dados poderá ser mais lento. Além disso, você será cobrado pela entrada e saída de dados na assinatura.

Parâmetros do módulo

Opções gerais

Nome Intervalo Type Padrão Descrição
Fonte de dados Lista Fonte de dados ou sink Armazenamento do Blobs do Azure O destino pode ser um arquivo no armazenamento de BLOB do Azure, uma tabela do Azure, uma tabela ou exibição em um Banco de Dados SQL do Azure ou uma tabela hive.
Usar resultados armazenados em cache TRUE/FALSE Boolean FALSE O módulo só será executado se o cache válido não existir; caso contrário, use dados armazenados em cache da execução anterior.
Especifique o tipo de autenticação SAS/Conta AuthenticationType Conta Indica se as credenciais SAS ou de conta devem ser usadas para autorização de acesso

Público ou SAS – opções de armazenamento público

Nome Intervalo Type Padrão Descrição
URI SAS para blob any Cadeia de caracteres nenhum O URI de SAS do blob a ser gravado (obrigatório)
Formato de arquivo para o arquivo SAS ARFF

CSV

TSV
Tipos de LoaderUtils. CSV Indica se o arquivo é CSV, TSV ou ARFF. (obrigatório)
Escrever a linha de cabeçalho SAS TRUE/FALSE Boolean FALSE Indica se os títulos de coluna devem ser gravados no arquivo

Conta – opções de armazenamento privado

Nome Intervalo Type Padrão Descrição
Nome da conta do Azure any Cadeia de caracteres nenhum Nome da conta de usuário do Azure
Chave de conta do Azure any SecureString nenhum Chave de armazenamento do Azure
Caminho para o início do blob com contêiner any Cadeia de caracteres nenhum Nome do arquivo de BLOB, começando com o nome do contêiner
modo de gravação de Armazenamento de Blobs do Azure Lista: erro, substituir enum: BlobFileWriteMode Erro Escolha o método de gravação de arquivos de BLOB
Formato de arquivo para o arquivo de blob ARFF

CSV

TSV
Tipos de LoaderUtils. CSV Indica se o arquivo de blob é CSV, TSV ou ARFF
Gravar linha de cabeçalho do blob TRUE/FALSE Boolean FALSE Indica se o arquivo de BLOB deve ter uma linha de cabeçalho

Exceções

Exceção Descrição
Erro 0027 Uma exceção ocorre quando dois objetos precisam ser do mesmo tamanho, mas eles não são.
Erro 0003 Ocorrerá uma exceção se uma ou mais das entradas forem nulas ou estiverem vazias.
Erro 0029 Ocorrerá uma exceção quando um URI inválido for passado.
Erro 0030 ocorrerá uma exceção quando não for possível baixar um arquivo.
Erro 0002 Ocorrerá uma exceção se um ou mais parâmetros não puderem ser analisados ou convertidos do tipo especificado para o tipo exigido pelo método de destino.
Erro 0009 Ocorrerá uma exceção se o nome da conta de armazenamento do Azure ou o nome do contêiner foi especificado incorretamente.
Erro 0048 Uma exceção ocorre quando não for possível abrir um arquivo.
Erro 0046 Ocorrerá uma exceção quando não for possível criar um diretório no caminho especificado.
Erro 0049 Uma exceção ocorre quando não for possível analisar um arquivo.

para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.

para obter uma lista de exceções de api, consulte Machine Learning códigos de erro da api REST.

Confira também

Importar dados
Exportar dados
Exportar para Banco de Dados SQL do Azure
Exportar para consulta do Hive
Exportar para Tabela do Azure