Introdução

Concluído

Sem surpresa, o papel de um cientista de dados envolve principalmente explorar e analisar dados. Embora o resultado final da análise de dados possa ser um relatório ou um modelo de aprendizado de máquina, os cientistas de dados começam seu trabalho com dados, com o Python sendo a linguagem de programação mais popular que os cientistas de dados usam para trabalhar com dados.

Após décadas de desenvolvimento de código aberto, o Python fornece ampla funcionalidade com poderosas bibliotecas estatísticas e numéricas:

  • NumPy e Pandas simplificam a análise e manipulação de dados
  • Matplotlib fornece visualizações de dados atraentes
  • O Scikit-learn oferece uma análise de dados preditiva simples e eficaz
  • O TensorFlow e o PyTorch fornecem recursos de aprendizado de máquina e aprendizado profundo

Cenário de exemplo

Normalmente, um projeto de análise de dados é projetado para estabelecer insights em torno de um cenário específico ou para testar uma hipótese.

Por exemplo, suponha que um professor universitário colete dados sobre seus alunos, incluindo o número de aulas assistidas, as horas gastas estudando e a nota final obtida no exame de final de período. O professor poderia analisar os dados para determinar se há uma relação entre a quantidade de estudos que um aluno realiza e a nota final que ele alcança. O professor pode usar os dados para testar uma hipótese de que apenas os alunos que estudam por um número mínimo de horas podem esperar alcançar uma nota de aprovação.

Diagram of lecture and study time related to student grades.

O que vamos fazer?

Neste módulo de treinamento, exploraremos e analisaremos os dados de notas de uma aula universitária fictícia do ponto de vista de um professor. Usaremos notebooks Jupyter e várias ferramentas e bibliotecas Python para limpar o conjunto de dados, aplicar técnicas estatísticas para testar várias hipóteses sobre os dados e visualizar os dados para determinar as relações entre variáveis.