Os blocos de notas do Jupyter de exemplo mostram como enriquecer os dados com o Open Datasets

Artigo
06/01/2023

Os blocos de notas do Jupyter de exemplo para Conjuntos de Dados Abertos do Azure mostram-lhe como carregar conjuntos de dados abertos e utilizá-los para melhorar os dados de demonstração. As técnicas incluem a utilização do Apache Spark e do Pandas para processar dados.

Importante

Ao trabalhar num ambiente que não seja do Spark, o Open Datasets permite transferir apenas um mês de dados de cada vez com determinadas classes para evitar MemoryError com conjuntos de dados grandes.

Carregar dados da Base de Dados Integrada do Surface (ISD) da NOAA

Bloco de Notas	Descrição
Carregar um mês recente de dados meteorológicos para um dataframe do Pandas	Saiba como carregar dados meteorológicos históricos para o seu dataframe pandas favorito.
Carregar um mês recente de dados meteorológicos para um dataframe do Spark	Saiba como carregar dados meteorológicos históricos para o seu dataframe do Spark favorito.

Associar dados de demonstração com dados ISD da NOAA

Bloco de Notas	Descrição
Associar dados de demonstração com dados meteorológicos – Pandas	Adira a um conjunto de dados de demonstração de 1 mês de localizações de sensores com leituras meteorológicas num dataframe do Pandas.
Associar dados de demonstração com dados meteorológicos – Spark	Adira a um conjunto de dados de demonstração de localizações de sensores com leituras meteorológicas num dataframe do Spark.

Associar dados de táxi da NYC com dados ISD da NOAA

Bloco de Notas	Descrição
Dados de viagem de táxi enriquecidos com dados meteorológicos - Pandas	Carregue dados de táxi verde nyc (mais de 1 mês) e enriqueça-os com dados meteorológicos num dataframe do Pandas. Este exemplo substitui o método `get_pandas_limit` e equilibra o desempenho da carga de dados com a quantidade de dados.
Dados de viagem de táxi enriquecidos com dados meteorológicos – Spark	Carregue dados de táxi verde nyc e melhore-os com dados meteorológicos, no dataframe do Spark.

Os blocos de notas do Jupyter de exemplo mostram como enriquecer os dados com o Open Datasets

Carregar dados da Base de Dados Integrada do Surface (ISD) da NOAA

Associar dados de demonstração com dados ISD da NOAA

Associar dados de táxi da NYC com dados ISD da NOAA

Passos seguintes

Recursos adicionais