Acesso seguro a dados em Azure Machine Learning

O Azure Machine Learning facilita a ligação aos seus dados na nuvem. Fornece uma camada de abstração sobre o serviço de armazenamento subjacente, para que possa aceder e trabalhar com os seus dados de forma segura sem ter de escrever código específico para o seu tipo de armazenamento. A Azure Machine Learning também fornece as seguintes capacidades de dados:

  • Interoperabilidade com Pandas e Spark DataFrames
  • Versão e rastreio da linhagem de dados
  • Rotulagem de dados
  • Monitorização de desvios de dados

Fluxo de trabalho de dados

Quando estiver pronto para utilizar os dados na sua solução de armazenamento baseada na nuvem, recomendamos o seguinte fluxo de trabalho de entrega de dados. Este fluxo de trabalho pressupõe que você tem uma conta de armazenamento Azure e dados em um serviço de armazenamento baseado na nuvem em Azure.

  1. Crie uma loja de dados Azure Machine Learning para armazenar informações de ligação ao seu armazenamento Azure.

  2. A partir dessa datastore, crie um conjunto de dados Azure Machine Learning para apontar para um(s) ficheiros específicos no seu armazenamento subjacente.

  3. Para utilizar esse conjunto de dados na sua experiência de aprendizagem automática, pode qualquer um

    1. Monte-o no alvo de computação da sua experiência para o treino de modelos.

      OR

    2. Consuma-o diretamente em soluções de aprendizagem automática do Azure, como, experiências automatizadas de aprendizagem automática (ML automatizada), oleodutos de aprendizagem automática ou o designer de aprendizagem automática Azure.

  4. Crie monitores de conjunto de dados para o conjunto de dados de saída do seu modelo para detetar a deriva de dados.

  5. Se for detetada a deriva de dados, atualize o conjunto de dados de entrada e retreine o seu modelo em conformidade.

O diagrama seguinte proporciona uma demonstração visual deste fluxo de trabalho recomendado.

O diagrama mostra o Serviço de Armazenamento Azure que flui para uma datastore, que flui para um conjunto de dados. O conjunto de dados flui para a formação de modelos, que flui para a deriva de dados, que flui de volta para o conjunto de dados.

Conecte-se ao armazenamento com datastores

As lojas de dados Azure Machine Learning mantêm de forma segura as informações de ligação ao armazenamento de dados no Azure, para que não tenha de co-la nos seus scripts. Registe-se e crie uma loja de dados para ligar facilmente à sua conta de armazenamento e aceder aos dados no seu serviço de armazenamento subjacente.

Serviços de armazenamento baseados em nuvem suportados em Azure que podem ser registados como datastores:

  • Recipiente Azure Blob
  • Partilha de Ficheiros do Azure
  • Azure Data Lake
  • Azure Data Lake Gen2
  • Base de Dados SQL do Azure
  • Base de Dados do Azure para PostgreSQL
  • Sistema de Ficheiros do Databricks
  • Base de Dados do Azure para MySQL

Dica

A funcionalidade geralmente disponível para a criação de datastores requer autenticação baseada em credenciais para aceder a serviços de armazenamento, como um símbolo principal de serviço ou assinatura de acesso partilhado (SAS). Estas credenciais podem ser acedidas por utilizadores que tenham acesso ao espaço de trabalho do Leitor.

Se isso for uma preocupação, crie uma loja de dados que utilize o acesso de dados baseados na identidade aos serviços de armazenamento (pré-visualização). Esta capacidade é uma funcionalidade de pré-visualização experimental e pode mudar a qualquer momento.

Dados de referência no armazenamento com conjuntos de dados

Os conjuntos de dados de Aprendizagem automática Azure não são cópias dos seus dados. Ao criar um conjunto de dados, cria uma referência aos dados no seu serviço de armazenamento, juntamente com uma cópia dos seus metadados.

Como os conjuntos de dados são avaliados preguiçosamente, e os dados permanecem na sua localização existente,

  • Não incorre nenhum custo extra de armazenamento.
  • Não se arrisque a alterar involuntariamente as suas fontes de dados originais.
  • Melhorar as velocidades de desempenho do fluxo de trabalho ML.

Para interagir com os seus dados no armazenamento, crie um conjunto de dados para embalar os seus dados num objeto consumível para tarefas de aprendizagem automática. Registe o conjunto de dados no seu espaço de trabalho para o partilhar e reutilizar em diferentes experiências sem complexidades de ingestão de dados.

Os conjuntos de dados podem ser criados a partir de ficheiros locais, urls públicos, conjuntos de dados Azure Openou serviços de armazenamento Azure através de datastores.

Existem 2 tipos de conjuntos de dados:

  • Um Dataset de ficheiros refere ficheiros únicos ou múltiplos nas suas datastores ou URLs públicos. Se os seus dados já estiverem limpos e prontos a serem utilizados em experiências de treino, pode descarregar ou montar ficheiros referenciados por FileDatasets para o seu alvo de computação.

  • Um SeparadorDataset representa dados num formato tabular, analisando o ficheiro ou lista de ficheiros fornecidos. Pode carregar um SeparadorDataset num panda ou No Spark DataFrame para posterior manipulação e limpeza. Para obter uma lista completa de formatos de dados, pode criar Datasets Tabular, consulte a classe TabularDatasetFactory.

As capacidades adicionais de conjuntos de dados podem ser encontradas na seguinte documentação:

Trabalhe com os seus dados

Com conjuntos de dados, você pode realizar uma série de tarefas de machine learning através de uma integração perfeita com funcionalidades de Azure Machine Learning.

Etiquetar dados com projetos de rotulagem de dados

A rotulagem de grandes quantidades de dados tem sido muitas vezes uma dor de cabeça em projetos de aprendizagem automática. Aqueles com um componente de visão computacional, como classificação de imagem ou deteção de objetos, geralmente requerem milhares de imagens e etiquetas correspondentes.

A Azure Machine Learning dá-lhe uma localização central para criar, gerir e monitorizar projetos de rotulagem. Os projetos de rotulagem ajudam a coordenar os dados, rótulos e membros da equipa, permitindo-lhe gerir de forma mais eficiente as tarefas de rotulagem. As tarefas suportadas atualmente são a classificação de imagem, seja multi-rótulo ou multi-classe, e a identificação de objetos usando caixas delimitadas.

Crie um projeto de rotulagem de dadose produza um conjunto de dados para utilização em experiências de machine learning.

Monitorize o desempenho do modelo com deriva de dados

No contexto da aprendizagem automática, a deriva de dados é a mudança nos dados de entrada do modelo que leva à degradação do desempenho do modelo. É uma das principais razões pelas quais a precisão do modelo se degrada ao longo do tempo, pelo que monitorizar a deriva de dados ajuda a detetar problemas de desempenho do modelo.

Consulte o artigo do monitor do conjunto de dados, para saber mais sobre como detetar e alertar para a deriva de dados em novos dados num conjunto de dados.

Passos seguintes