Proteger o acesso a dados no Azure Machine LearningSecure data access in Azure Machine Learning

Azure Machine Learning facilita a conexão com seus dados na nuvem.Azure Machine Learning makes it easy to connect to your data in the cloud. Ele fornece uma camada de abstração sobre o serviço de armazenamento subjacente, para que você possa acessar e trabalhar com segurança com seus dados sem precisar escrever código específico ao seu tipo de armazenamento.It provides an abstraction layer over the underlying storage service, so you can securely access and work with your data without having to write code specific to your storage type. O Azure Machine Learning também fornece os seguintes recursos de dados:Azure Machine Learning also provides the following data capabilities:

  • Interoperabilidade com pandas e Spark dataframesInteroperability with Pandas and Spark DataFrames
  • Controle de versão e acompanhamento de linhagem de dadosVersioning and tracking of data lineage
  • Rotulagem de dadosData labeling
  • Monitoramento de dessincronização de dadosData drift monitoring

Fluxo de trabalho de dadosData workflow

Quando você estiver pronto para usar os dados em sua solução de armazenamento baseada em nuvem, recomendamos o seguinte fluxo de trabalho de entrega de dados.When you're ready to use the data in your cloud-based storage solution, we recommend the following data delivery workflow. Este fluxo de trabalho pressupõe que você tenha uma conta de armazenamento do Azure e dados em um serviço de armazenamento baseado em nuvem no Azure.This workflow assumes you have an Azure storage account and data in a cloud-based storage service in Azure.

  1. Crie um repositório de dados Azure Machine Learning para armazenar informações de conexão para o armazenamento do Azure.Create an Azure Machine Learning datastore to store connection information to your Azure storage.

  2. Nesse datastore, crie um conjunto de Azure Machine Learning para apontar para um ou mais arquivos em seu armazenamento subjacente.From that datastore, create an Azure Machine Learning dataset to point to a specific file(s) in your underlying storage.

  3. Para usar esse conjunto de informações em seu experimento do Machine Learning, você podeTo use that dataset in your machine learning experiment you can either

    1. Monte-o no destino de computação do experimento para o treinamento do modelo.Mount it to your experiment's compute target for model training.

      OROR

    2. Consuma-o diretamente em soluções de Azure Machine Learning como, execuções de experimento automatizadas do Machine Learning (ML automatizado), pipelines de aprendizado de máquina ou Designer de Azure Machine Learning.Consume it directly in Azure Machine Learning solutions like, automated machine learning (automated ML) experiment runs, machine learning pipelines, or the Azure Machine Learning designer.

  4. Crie monitores de conjunto de dados para seu conjunto de dados de saída de modelo para detectar descompasso de dadoCreate dataset monitors for your model output dataset to detect for data drift.

  5. Se a descompasso de dados for detectada, atualize o DataSet de entrada e retreine seu modelo de acordo.If data drift is detected, update your input dataset and retrain your model accordingly.

O diagrama a seguir fornece uma demonstração visual desse fluxo de trabalho recomendado.The following diagram provides a visual demonstration of this recommended workflow.

O diagrama mostra o serviço de armazenamento do Azure que flui em um repositório de armazenamento, que flui para um conjunto de uma.

Conectar-se ao armazenamento com armazenamentos deConnect to storage with datastores

Azure Machine Learning armazenamentos de dados mantêm com segurança as informações de conexão para o armazenamento de seu dado no Azure, de modo que você não precisará codificar em seus scripts.Azure Machine Learning datastores securely keep the connection information to your data storage on Azure, so you don't have to code it in your scripts. Registre e crie um armazenamento de dados para se conectar facilmente à sua conta de armazenamento e acesse os dados em seu serviço de armazenamento subjacente.Register and create a datastore to easily connect to your storage account, and access the data in your underlying storage service.

Serviços de armazenamento baseados em nuvem com suporte no Azure que podem ser registrados como repositórios de armazenamento:Supported cloud-based storage services in Azure that can be registered as datastores:

  • Contêiner de blob do AzureAzure Blob Container
  • Compartilhamento de arquivos do AzureAzure File Share
  • Azure Data LakeAzure Data Lake
  • Azure Data Lake Gen2Azure Data Lake Gen2
  • Banco de Dados SQL do AzureAzure SQL Database
  • Banco de Dados do Azure para PostgreSQLAzure Database for PostgreSQL
  • Sistema de arquivos do DatabricksDatabricks File System
  • Banco de Dados do Azure para MySQLAzure Database for MySQL

Dica

A funcionalidade geralmente disponível para a criação de repositórios de armazenamento requer autenticação baseada em credencial para acessar serviços de armazenamento, como uma entidade de serviço ou um token SAS (assinatura de acesso compartilhado).The generally available functionality for creating datastores requires credential-based authentication for accessing storage services, like a service principal or shared access signature (SAS) token. Essas credenciais podem ser acessadas por usuários que têm acesso de leitor ao espaço de trabalho.These credentials can be accessed by users who have Reader access to the workspace.

Se essa for uma preocupação, crie um armazenamento de dados que usa o acesso a serviços de armazenamento com base em identidades (versão prévia).If this is a concern, create a datastore that uses identity-based data access to storage services (preview). Esse recurso é um recurso de visualização experimental e pode mudar a qualquer momento.This capability is an experimental preview feature, and may change at any time.

Dados de referência no armazenamento com DataSetsReference data in storage with datasets

Os conjuntos de dados Azure Machine Learning não são cópias de seu dado.Azure Machine Learning datasets aren't copies of your data. Com a criação de um conjunto de dados, você cria uma referência a eles em seu serviço de armazenamento, juntamente com uma cópia de seus metadados.By creating a dataset, you create a reference to the data in its storage service, along with a copy of its metadata.

Como os conjuntos de dados são avaliados lentamente, e eles permanecem em seu local existente, vocêBecause datasets are lazily evaluated, and the data remains in its existing location, you

  • Não incorrer nenhum custo de armazenamento extra.Incur no extra storage cost.
  • Não arrisque a alteração acidental de suas fontes de dados originais.Don't risk unintentionally changing your original data sources.
  • Melhorar as velocidades de desempenho de fluxo de trabalho ML.Improve ML workflow performance speeds.

Para interagir com os seus dados no armazenamento, crie um conjunto de dados para empacotar seus dados em um objeto consumível para tarefas de aprendizado de máquina.To interact with your data in storage, create a dataset to package your data into a consumable object for machine learning tasks. Registre o conjunto de dados em seu espaço de trabalho para compartilhá-lo e reutilizá-lo em experimentos diferentes sem complexidades de ingestão de dados.Register the dataset to your workspace to share and reuse it across different experiments without data ingestion complexities.

Os conjuntos de valores podem ser criados a partir de arquivos locais, de URLs públicas, de conjuntos de de Azure abertosou de serviços de armazenamento do Azure por meio de armazenamentos.Datasets can be created from local files, public urls, Azure Open Datasets, or Azure storage services via datastores.

Há dois tipos de conjuntos de valores:There are 2 types of datasets:

  • Um Filedataset faz referência a um ou vários arquivos em seus armazenamentos de dados ou URLs públicas.A FileDataset references single or multiple files in your datastores or public URLs. Se seus dados já estiverem limpos e prontos para uso em experimentos de treinamento, você poderá baixar ou montar arquivos referenciados por filedatasets em seu destino de computação.If your data is already cleansed and ready to use in training experiments, you can download or mount files referenced by FileDatasets to your compute target.

  • Um TabularDataset representa dados em um formato tabular analisando o arquivo ou a lista de arquivos fornecida.A TabularDataset represents data in a tabular format by parsing the provided file or list of files. Você pode carregar um TabularDataset em um dataframe do pandas ou Spark para manipulação e limpeza adicionais.You can load a TabularDataset into a pandas or Spark DataFrame for further manipulation and cleansing. Para obter uma lista completa dos formatos de dados dos quais você pode criar TabularDatasets, consulte a classe TabularDatasetFactory.For a complete list of data formats you can create TabularDatasets from, see the TabularDatasetFactory class.

Os recursos adicionais de conjuntos de documentos podem ser encontrados na seguinte documentação:Additional datasets capabilities can be found in the following documentation:

Trabalhe com seus dadosWork with your data

Com conjuntos de informações, você pode realizar várias tarefas de aprendizado de máquina por meio de integração direta com recursos de Azure Machine Learning.With datasets, you can accomplish a number of machine learning tasks through seamless integration with Azure Machine Learning features.

Rotular dados com projetos de rótulos de dadosLabel data with data labeling projects

Rotular grandes quantidades de dados costuma ser uma dor de cabeça nos projetos de aprendizado de máquina.Labeling large amounts of data has often been a headache in machine learning projects. Aqueles com um componente da pesquisa Visual computacional, como classificação de imagem ou detecção de objetos, geralmente exigem milhares de imagens e rótulos correspondentes.Those with a computer vision component, such as image classification or object detection, generally require thousands of images and corresponding labels.

O Azure Machine Learning oferece uma localização central para criar, gerenciar e monitorar projetos de rotulagem.Azure Machine Learning gives you a central location to create, manage, and monitor labeling projects. Os projetos de rotulagem ajudam a coordenar os dados, os rótulos e os membros da equipe, permitindo que você gerencie com mais eficiência as tarefas de rotulagem.Labeling projects help coordinate the data, labels, and team members, allowing you to more efficiently manage the labeling tasks. Atualmente, as tarefas compatíveis são a classificação de imagem (seja ela de vários rótulos ou de várias classes) e a identificação de objetos usando caixas delimitadas.Currently supported tasks are image classification, either multi-label or multi-class, and object identification using bounded boxes.

Crie um projeto de rotulagem de dadose a saída de um DataSet para uso em experimentos de aprendizado de máquina.Create a data labeling project, and output a dataset for use in machine learning experiments.

Monitorar o desempenho do modelo com descompasso de dadosMonitor model performance with data drift

No contexto do Machine Learning, a descompasso de dados é a alteração nos dados de entrada do modelo que leva à degradação do desempenho do modelo.In the context of machine learning, data drift is the change in model input data that leads to model performance degradation. É um dos principais motivos pelos quais a precisão do modelo diminui ao longo do tempo, o que monitora a descompasso de dados ajuda a detectar problemas de desempenho do modelo.It is one of the top reasons model accuracy degrades over time, thus monitoring data drift helps detect model performance issues.

Consulte o artigo criar um conjunto de dados para saber mais sobre como detectar e alertar a descompasso de dados em novos dados em um DataSet.See the Create a dataset monitor article, to learn more about how to detect and alert to data drift on new data in a dataset.

Próximas etapasNext steps