Exemplo com notebooks Jupyter mostra como aprimorar os dados com conjuntos de dados abertos

Artigo
06/15/2023

O exemplo com notebooks Jupyter para Conjunto de Dados Abertos do Azure mostra como carregar conjuntos de dados abertos e usá-los para aprimorar dados de demonstração. As técnicas incluem o uso do Apache Spark e Pandas para processar dados.

Importante

Ao trabalhar em um ambiente que não seja Spark, os conjuntos de dados abertos permitem baixar apenas um mês de dados por vez com determinadas classes para evitar erros de memória com grandes conjuntos de dados.

Carregar dados do ISD (Banco de Dados de Superfície Integrada) do NOAA

Notebook	Descrição
Carregar um mês recente de dados climáticos em um dataframe do Pandas	Saiba como carregar dados climáticos de históricos no seu dataframe favorito do Pandas.
Carregar um mês recente de dados climáticos em um dataframe do Spark	Saiba como carregar dados climáticos de históricos no seu dataframe favorito do Spark.

Unir dados de demonstração com os dados ISD do NOAA

Notebook	Descrição
Unir dados de demonstração e dados climáticos – Pandas	Una um conjunto de dados de demonstração de 1 mês sobre locais de sensores com leituras climáticas em um dataframe do Pandas.
Unir dados de demonstração com dados climáticos – Spark	Una um conjunto de dados de demonstração mês sobre locais de sensores com leituras climáticas em um dataframe do Spark.

Unir dados de táxis de NYC com os dados de ISD do NOAA

Notebook	Descrição
Dados de corridas de táxi aprimorados com dados climáticos – Pandas	Carregar dados de corridas de táxis verdes de Nova York (mais de 1 mês) e aprimorá-los com dados climáticos em um dataframe do Pandas. Este exemplo substitui o método `get_pandas_limit` e equilibra o desempenho do carregamento de dados com a quantidade de dados.
Dados de corridas de táxi aprimorados com dados climáticos – Spark	Carregar dados de corridas de táxis verdes de Nova York e aprimorá-los com dados climáticos no dataframe do Spark.

Exemplo com notebooks Jupyter mostra como aprimorar os dados com conjuntos de dados abertos

Carregar dados do ISD (Banco de Dados de Superfície Integrada) do NOAA

Unir dados de demonstração com os dados ISD do NOAA

Unir dados de táxis de NYC com os dados de ISD do NOAA

Próximas etapas

Recursos adicionais