Processo de Ciência de Dados de Equipe para cientistas de dados

Este artigo fornece orientações para um objetivos que você define quando implementa soluções de ciência de dados abrangentes com as tecnologias do Azure. Você recebe orientações para:

  • Compreender uma carga de trabalho de análise.
  • Usar o Processo de Ciência de Dados de Equipe.
  • Usar o Azure Machine Learning.
  • Compreender os fundamentos de transferência de dados e armazenamento.
  • Fornecer a documentação da fonte de dados.
  • Usar ferramentas para processamento de análise.

Esses materiais de treinamento estão relacionados ao Processo de Ciência de Dados da Equipe (TDSP) e a kits de ferramentas e softwares livres da Microsoft, que são úteis para prever, executar e fornecer soluções de ciência de dados.

Caminho da lição

Use os itens na tabela a seguir para orientar seu estudo individual. Leia a coluna Descrição para seguir o caminho, selecione Tópico para estudar referências e teste suas habilidades usando a coluna Verificação de conhecimentos.

Objetivo Tópico Descrição Verificação de conhecimentos
Compreender os processos para desenvolver projetos de análise Uma introdução ao Processo de Ciência de Dados de Equipe Começamos com uma visão geral do TDSP. Esse processo guiará você por cada etapa de um projeto de análise. Leia cada uma dessas seções para saber mais sobre o processo e como implementá-lo. Examine e baixe os artefatos de Estrutura do Projeto do TDSP no seu computador local para o seu projeto.
Desenvolvimento Agile O TDSP funciona bem com várias metodologias de programação diferentes. Neste roteiro de aprendizagem usamos o desenvolvimento de software Agile. Leia os artigos "O que é Desenvolvimento Agile?" e "Criando a Cultura Agile", que abordam as noções básicas de como trabalhar com o Agile. Também há outras referências neste site em que você pode saber mais. Explique a integração contínua e a entrega contínua para um colega.
DevOps para ciência de dados O DevOps (Operações de desenvolvedor) envolve pessoas, processos e plataformas que podem ser usados para trabalhar com um projeto e integrar sua solução na estrutura de TI padrão de uma organização. Essa integração é essencial para a adoção, proteção e segurança. Neste curso online, você conhecerá mais sobre as práticas recomendadas de DevOp e entenderá algumas das opções de ferramentas disponíveis. Prepare uma apresentação de 30 minutos para um público técnico sobre como o DevOps é essencial para projetos de análise.
Entender as tecnologias de processamento e armazenamento de dados Análise de negócios e e IA da Microsoft Neste roteiro de aprendizagem, vamos nos concentrar em algumas tecnologias que você poderá usar para criar uma solução de análise, porém a Microsoft tem muitas outras. Para entender suas opções, é importante examinar as plataformas e os recursos disponíveis nas opções do Microsoft Azure, do Azure Stack e no local. Examine esse recurso para conhecer as várias ferramentas disponíveis para responder às perguntas de análise. Baixe e leia os materiais de apresentação deste workshop.
Instalar e configurar seus ambientes de produção, treinamento e desenvolvimento Microsoft Azure Agora, vamos criar uma conta no Microsoft Azure para treinamento e aprender a criar ambientes de desenvolvimento e teste. Esses recursos de treinamento gratuitos ajudarão você a começar. Conclua os caminhos Iniciante e Intermediário. Se você não tiver uma conta do Azure, crie uma agora. Entre no portal do Azure e crie um grupo de recursos para treinamento.
A CLI (interface de linha de comando) do Azure. Há várias maneiras de trabalhar com o Azure, desde ferramentas gráficas como o Visual Studio Code e o Visual Studio, até interfaces Web como o Portal do Azure e linha de comando como funções e comandos do Azure PowerShell. Neste artigo, abordaremos a CLI, que você pode usar localmente em sua estação de trabalho, no Windows e outros sistemas operacionais, bem como no Portal do Azure. Definir sua assinatura padrão da CLI do Azure.
Armazenamento do Azure Você precisa de um local para armazenar seus dados. Neste artigo, você conhecerá as opções de armazenamento do Azure, como criar uma conta de armazenamento e como copiar ou mover dados para a nuvem. Leia esta introdução para saber mais. Criar uma conta de armazenamento no grupo de recursos de treinamento, criar um contêiner para um objeto de blob e carregar e baixar os dados.
Microsoft Entra ID O Microsoft Entra ID constitui a base da proteção do seu aplicativo. Neste artigo, você aprenderá mais sobre contas, direitos e permissões. Active Directory e segurança são tópicos complexos, por isso, leia este recurso para entender os conceitos básicos. Adicione um usuário ao Microsoft Entra ID. OBSERVAÇÃO: você pode não ter permissões para executar esta ação se não for o administrador da assinatura. Neste caso, leia este tutorial para saber mais.
A Máquina Virtual de Ciência de Dados Azure para para PyTorch É possível instalar as ferramentas para trabalhar com a ciência de dados localmente em vários sistemas operacionais. O Data Science Virtual Machine for PyTorch contém todas as ferramentas que necessárias e muitos projetos de exemplo para você trabalhar. Neste artigo, você aprenderá mais sobre a Máquina Virtual de Ciência de Dados para PyTorch e como trabalhar com seus exemplos. Esse recurso explica o que é a Máquina Virtual de Ciência de Dados para PyTorch, como você pode criar uma e algumas opções para o desenvolvimento de código com ela. Ele também contém todos os softwares de que você precisa para concluir este caminho de aprendizagem, portanto, certifique-se de concluir o caminho de aprendizagem deste tópico. Criar uma Máquina Virtual de Ciência de Dados para PyTorch e trabalhar com pelo menos um laboratório.
Instalar e entender as ferramentas e tecnologias para trabalhar com soluções de ciência de dados Trabalhando com Git Para seguir nosso processo de DevOps com o TDSP, é preciso ter um sistema de controle de versão. O Machine Learning usa o Git, um sistema popular de repositório distribuído de software livre. Neste artigo, você aprenderá mais sobre como instalar, configurar e trabalhar com o Git e um repositório central, o GitHub. Clone este projeto do GitHub para sua estrutura de projeto do roteiro de aprendizagem.
Visual Studio Code O Visual Studio Code é um IDE (ambiente de desenvolvimento integrado) de multiplataforma que você pode usar com vários idiomas e ferramentas do Azure. Você pode usar esse único ambiente para criar toda sua solução. Assista a esses vídeos introdutórios para começar. Instale o Visual Studio Code e trabalhe com os recursos do Visual Studio Code no interactive editor playground.
Programação com Python Nesta solução, usaremos Python, uma das linguagens mais populares na ciência de dados. Este artigo aborda os conceitos básicos de escrever código analítico com Python e os recursos para saber mais. Conclua as seções de 1 a 9 deste documento de referência e, depois, verifique o seu conhecimento. Adicionar uma entidade para uma tabela do Azure usando Python.
Trabalhar com Jupyter Notebook Notebooks são uma forma de apresentar texto e código no mesmo documento. O Machine Learning funciona com notebooks, portanto, é útil entender como usá-los. Leia este tutorial e experimente na seção de verificação de conhecimentos. Abra a página da Web do Jupyter e selecione Bem-vindo ao Python.ipynb. Trabalhe com os exemplos naquela página.
Aprendizado de máquina A criação de soluções analíticas avançadas envolve trabalhar com dados usando machine learning, que também constitui a base do trabalho com IA e aprendizado profundo. Este curso ensina mais sobre o machine learning. Para ver um curso abrangente sobre ciência de dados, confira essa certificação. Localizar um recurso usando algoritmos de machine learning. (Dica: pesquise "dicas úteis do algoritmo do Azure Machine Learning")
scikit-learn O conjunto de ferramentas scikit-learn permite executar tarefas de ciência de dados em Python. Nós usamos essa estrutura na nossa solução. Este artigo aborda os conceitos básicos e explica onde você pode saber mais. Usando o conjunto de dados Iris, mantenha um modelo SVM usando o Pickle.
Como trabalhar com Docker O Docker é uma plataforma distribuída usada para criar, enviar e executar aplicativos e é usada com frequência no machine learning. Este artigo aborda os conceitos básicos dessa tecnologia e explica onde você pode ir para saber mais. Abra o Visual Studio Code e instale a extensão do Docker. Crie um contêiner simples de nó do Docker.
Azure HDInsight O HDInsight é a infraestrutura de software livre do Hadoop, disponível como um serviço no Azure. Seus algoritmos de machine learning podem envolver grandes conjuntos de dados e você pode usar o HDInsight para armazenar, transferir e processar dados de grande escala. Este artigo aborda como trabalhar com o HDInsight. Criar um cluster pequeno do HDInsight. Use as instruções de HiveQL para projetar colunas em arquivo /example/data/sample.log. Outra alternativa é concluir essa verificação de conhecimento no seu sistema local.
Criar um fluxo de processamento de dados a partir dos requisitos de negócios Como determinar a pergunta seguindo o TDSP Com o ambiente de desenvolvimento instalado e configurado, e já com a devida compreensão das tecnologias e processos em vigor, é hora de reunir tudo usando o TDSP para realizar uma análise. É preciso começar definindo a pergunta, selecionando as fontes de dados e o restante das etapas no TDSP. Tenha o processo de DevOps em mente enquanto trabalhamos neste procedimento. Neste artigo, você aprenderá a usar os requisitos de sua organização para criar um mapa de fluxo de dados por meio de seu aplicativo para definir sua solução usando o TDSP. Localize um recurso em “As 5 perguntas de ciência de dados” e descreva uma questão que sua organização pode ter nessas áreas. Em quais algoritmos você deve se concentrar para essa pergunta?
Usar o Machine Learning para criar uma solução preditiva Machine Learning O Machine Learning usa a IA para estruturação de dados e engenharia de recursos, gerenciar experimentos e acompanhar execuções de modelo. Ele usa o único ambiente e a maioria das funções pode ser executada localmente ou no Azure. Você pode usar a estrutura PyTorch, a estrutura TensorFlow ou outras estruturas para criar suas experiências. Neste artigo, vamos nos concentrar em um exemplo completo desse processo, usando tudo o que foi aprendido até o momento.
Usar o Power BI para visualizar os resultados Power BI O Power BI é uma ferramenta de visualização de dados. Ele está disponível em várias plataformas, como dispositivos web, móveis e computadores desktop. Neste artigo, você aprenderá a trabalhar com a saída da solução criada acessando os resultados no armazenamento do Azure e criando visualizações com o Power BI. Conclua este tutorial no Power BI. Em seguida, conecte o Power BI ao CSV do blob criado em uma execução experimental.
Monitorar sua solução Application Insights Há várias ferramentas que você pode usar para monitorar sua solução final. O Application Insights facilita a integração do monitoramento interno à sua solução. Configurar o Application Insights para monitorar um aplicativo.
Logs do Azure Monitor Outro método para monitorar seu aplicativo é integrá-lo ao processo de DevOps. Os Logs do Azure Monitor fornecem um conjunto sofisticado de recursos para ajudar você a monitorar suas soluções analíticas após a implantação. Conclua este tutorial sobre como usar os Logs do Azure Monitor.
Conclua este roteiro de aprendizagem Parabéns! Você concluiu este roteiro de aprendizagem.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Autor principal:

Para ver perfis não públicos do LinkedIn, entre no LinkedIn.

Próximas etapas

Continue sua jornada de IA no hub de aprendizado de IA.