Share via


Processo de Ciência de Dados da Equipe para cientistas de dados

Este artigo fornece orientação para os objetivos que você define ao implementar soluções abrangentes de ciência de dados com tecnologias do Azure. Você é guiado através de:

  • Compreender uma carga de trabalho de análise.
  • Usando o Processo de Ciência de Dados da Equipe.
  • Usando o Azure Machine Learning.
  • Compreender os fundamentos da transferência e armazenamento de dados.
  • Fornecimento de documentação da fonte de dados.
  • Utilização de ferramentas para processamento analítico.

Esses materiais de treinamento estão relacionados ao Processo de Ciência de Dados da Equipe (TDSP) e ao software e kits de ferramentas de código aberto da Microsoft, que são úteis para visualizar, executar e fornecer soluções de ciência de dados.

Caminho da lição

Você pode usar os itens da tabela a seguir para orientar seu próprio autoestudo. Leia a Descrição para seguir o caminho, selecione o Tópico para ver as referências do estudo e verifique suas habilidades usando a verificação de conhecimento.

Objetivo Tópico Description Verificação de conhecimento
Compreender os processos de desenvolvimento de projetos analíticos Uma introdução ao Processo de Ciência de Dados da Equipe Começamos cobrindo uma visão geral do TDSP. Esse processo orienta você em cada etapa de um projeto de análise. Leia cada uma dessas seções para saber mais sobre o processo e como implementá-lo. Revise e baixe os artefatos de estrutura do projeto TDSP para sua máquina local para seu projeto.
Desenvolvimento do Agile O TDSP funciona bem com muitas metodologias de programação diferentes. Neste Plano de Aprendizagem, utilizamos o desenvolvimento ágil de software. Leia os artigos "O que é Desenvolvimento Ágil?" e "Construindo uma Cultura Ágil", que abordam os conceitos básicos do trabalho com o Agile. Há também outras referências neste site onde você pode aprender mais. Explicar a Integração Contínua e a Entrega Contínua a um colega.
DevOps para ciência de dados As operações de desenvolvedor (DevOps) envolvem pessoas, processos e plataformas que você pode usar para trabalhar em um projeto e integrar sua solução à TI padrão de uma organização. Essa integração é essencial para a adoção, proteção e proteção. Neste curso online, você aprende sobre as práticas de DevOps e entende algumas das opções da cadeia de ferramentas que você tem. Prepare uma apresentação de 30 minutos para um público técnico sobre como o DevOps é essencial para projetos de análise.
Compreender as tecnologias de armazenamento e processamento de dados Análise de negócios e IA da Microsoft Concentramo-nos em algumas tecnologias neste Plano de Aprendizagem que pode utilizar para criar uma solução de análise, mas a Microsoft tem muitas mais. Para entender as opções que você tem, é importante examinar as plataformas e os recursos disponíveis no Microsoft Azure, no Azure Stack e nas opções locais. Reveja este recurso para conhecer as várias ferramentas que tem disponíveis para responder a perguntas sobre análises. Faça o download e reveja os materiais de apresentação deste workshop.
Instalar e configurar seus ambientes de treinamento, desenvolvimento e produção Microsoft Azure Agora vamos criar uma conta no Microsoft Azure para treinamento e aprender a criar ambientes de desenvolvimento e teste. Estes recursos de formação gratuitos ajudam-no a começar. Conclua os caminhos Iniciante e Intermediário . Se você não tiver uma conta do Azure, crie uma. Entre no portal do Azure e crie um grupo de recursos para treinamento.
A interface de linha de comando (CLI) do Azure Há várias maneiras de trabalhar com o Azure, desde ferramentas gráficas como Visual Studio Code e Visual Studio, até interfaces da Web, como o portal do Azure, e da linha de comando, como comandos e funções do Azure PowerShell. Neste artigo, abordamos a CLI, que você pode usar localmente em sua estação de trabalho, no Windows e em outros sistemas operacionais e no portal do Azure. Defina sua assinatura padrão com a CLI do Azure.
Armazenamento do Azure Você precisa de um local para armazenar seus dados. Neste artigo, você aprenderá sobre as opções de armazenamento do Azure, como criar uma conta de armazenamento e como copiar ou mover dados para a nuvem. Leia esta introdução para saber mais. Crie uma conta de armazenamento em seu grupo de recursos de treinamento, crie um contêiner para um objeto de blob e carregue e baixe dados.
Microsoft Entra ID O Microsoft Entra ID constitui a base para proteger a sua aplicação. Neste artigo, você aprenderá mais sobre contas, direitos e permissões. O Ative Directory e a segurança são tópicos complexos, por isso leia este recurso para compreender os fundamentos. Adicione um usuário ao Microsoft Entra ID. NOTA: Poderá não ter permissões para esta ação se não for o administrador da subscrição. Se for esse o caso, reveja este tutorial para saber mais.
A Máquina Virtual de Ciência de Dados do Azure para PyTorch Você pode instalar as ferramentas para trabalhar com ciência de dados localmente em vários sistemas operacionais. Mas a Máquina Virtual de Ciência de Dados para PyTorch contém todas as ferramentas que você precisa e muitas amostras de projetos para trabalhar. Neste artigo, você aprenderá mais sobre a Máquina Virtual de Ciência de Dados para PyTorch e como trabalhar com seus exemplos. Este recurso explica a Máquina Virtual de Ciência de Dados para PyTorch, como você pode criar uma e algumas opções para desenvolver código com ela. Ele também contém todo o software que você precisa para completar este caminho de aprendizagem, portanto, certifique-se de completar o caminho de conhecimento para este tópico. Crie uma máquina virtual de ciência de dados para o PyTorch e trabalhe em pelo menos um laboratório.
Instale e compreenda as ferramentas e tecnologias para trabalhar com soluções de ciência de dados Trabalhando com o Git Para seguir nosso processo de DevOps com o TDSP, precisamos ter um sistema de controle de versão. O Machine Learning usa o Git, um popular sistema de repositório distribuído de código aberto. Neste artigo, você aprenderá mais sobre como instalar, configurar e trabalhar com o Git e um repositório central, o GitHub. Clone este projeto GitHub para sua estrutura de projeto de caminho de aprendizagem.
Visual Studio Code O Visual Studio Code é um ambiente de desenvolvimento integrado (IDE) de plataforma cruzada que você pode usar com vários idiomas e ferramentas do Azure. Você pode usar esse único ambiente para criar toda a sua solução. Assista a estes vídeos introdutórios para começar. Instale o Visual Studio Code e trabalhe com os recursos do Visual Studio Code no playground do editor interativo.
Programação com Python Nesta solução, usamos Python, uma das linguagens mais populares em ciência de dados. Este artigo aborda os conceitos básicos de escrever código analítico com Python e recursos para saber mais. Percorra as secções 1 a 9 desta referência e, em seguida, verifique os seus conhecimentos. Adicione uma entidade a uma tabela do Azure usando Python.
Trabalhar com o Jupyter Notebook Os cadernos são uma forma de introduzir texto e código no mesmo documento. O Machine Learning funciona com notebooks, por isso é benéfico entender como usá-los. Leia este tutorial e experimente-o na seção de verificação de conhecimento. Abra a página da Web Jupyter e selecione Bem-vindo ao Python.ipynb. Trabalhe com os exemplos nessa página.
Machine learning Criar soluções analíticas avançadas envolve trabalhar com dados usando machine learning, que também forma a base do trabalho com IA e deep learning. Este curso ensina mais sobre aprendizado de máquina. Para um curso abrangente sobre ciência de dados, consulte esta certificação. Localize um recurso em algoritmos de aprendizado de máquina. (Dica: Pesquise "azure machine learning algorithm cheat sheet")
scikit-learn O conjunto de ferramentas scikit-learn permite que você execute tarefas de ciência de dados em Python. Utilizamos este quadro na nossa solução. Este artigo aborda o básico e explica onde você pode aprender mais. Usando o conjunto de dados Iris, persista um modelo SVM usando o Pickle.
Trabalhando com o Docker O Docker é uma plataforma distribuída usada para criar, enviar e executar aplicativos e é usada com frequência no aprendizado de máquina. Este artigo aborda os conceitos básicos dessa tecnologia e explica onde você pode ir para saber mais. Abra o Visual Studio Code e instale a extensão Docker. Crie um contêiner simples do Node Docker.
Azure HDInsight O HDInsight é uma infraestrutura de código aberto Hadoop, disponível como um serviço no Azure. Seus algoritmos de aprendizado de máquina podem envolver grandes conjuntos de dados e você pode usar o HDInsight para armazenar, transferir e processar dados em grande escala. Este artigo aborda o trabalho com o HDInsight. Crie um pequeno cluster HDInsight. Use instruções HiveQL para projetar colunas em um arquivo /example/data/sample.log. Como alternativa, você pode concluir essa verificação de conhecimento em seu sistema local.
Criar um fluxo de processamento de dados a partir de requisitos de negócios Determinando a questão após o TDSP Com o ambiente de desenvolvimento instalado e configurado, e o entendimento das tecnologias e processos em vigor, é hora de juntar tudo usando o TDSP para realizar uma análise. Precisamos começar definindo a pergunta, selecionando as fontes de dados e o resto das etapas no TDSP. Tenha em mente o processo de DevOps enquanto trabalhamos nesse processo. Neste artigo, você aprenderá como pegar os requisitos de sua organização e criar um mapa de fluxo de dados por meio de seu aplicativo para definir sua solução usando o TDSP. Localize um recurso em "As 5 perguntas de ciência de dados" e descreva uma pergunta que sua organização pode ter nessas áreas. Em quais algoritmos você deve se concentrar para essa pergunta?
Use o Machine Learning para criar uma solução preditiva Machine Learning O Machine Learning usa IA para disputa de dados e engenharia de recursos, gerencia experimentos e rastreia execuções de modelos. Ele usa um único ambiente e a maioria das funções pode ser executada localmente ou no Azure. Você pode usar a estrutura PyTorch, a estrutura TensorFlow ou outras estruturas para criar seus experimentos. Neste artigo, focamos em um exemplo completo desse processo, usando tudo o que você aprendeu até agora.
Usar o Power BI para visualizar resultados Power BI O Power BI é uma ferramenta de visualização de dados. Está disponível em várias plataformas, como dispositivos Web, dispositivos móveis e computadores desktop. Neste artigo, você aprenderá a trabalhar com a saída da solução criada acessando os resultados do Armazenamento do Azure e criando visualizações usando o Power BI. Conclua este tutorial sobre o Power BI. Em seguida, conecte o Power BI ao CSV de blob criado em uma execução de experimento.
Monitorize a sua solução Application Insights Há várias ferramentas que você pode usar para monitorar sua solução final. O Application Insights facilita a integração do monitoramento integrado à sua solução. Configure o Application Insights para monitorar um aplicativo.
Registos do Azure Monitor Outro método para monitorar seu aplicativo é integrá-lo ao seu processo de DevOps. Os Logs do Azure Monitor fornecem um conjunto avançado de recursos para ajudá-lo a monitorar suas soluções analíticas depois de implantá-las. Conclua este tutorial sobre como usar os Logs do Azure Monitor.
Conclua este percurso de aprendizagem Parabéns! Você completou este caminho de aprendizagem.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Autor principal:

Para ver perfis não públicos do LinkedIn, inicie sessão no LinkedIn.

Próximos passos

Continue sua jornada de IA no hub de aprendizagem de IA.