Os blocos de notas do Jupyter de exemplo mostram como enriquecer os dados com o Open Datasets

Os blocos de notas do Jupyter de exemplo para Conjuntos de Dados Abertos do Azure mostram-lhe como carregar conjuntos de dados abertos e utilizá-los para melhorar os dados de demonstração. As técnicas incluem a utilização do Apache Spark e do Pandas para processar dados.

Importante

Ao trabalhar num ambiente que não seja do Spark, o Open Datasets permite transferir apenas um mês de dados de cada vez com determinadas classes para evitar MemoryError com conjuntos de dados grandes.

Carregar dados da Base de Dados Integrada do Surface (ISD) da NOAA

Bloco de Notas Descrição
Carregar um mês recente de dados meteorológicos para um dataframe do Pandas Saiba como carregar dados meteorológicos históricos para o seu dataframe pandas favorito.
Carregar um mês recente de dados meteorológicos para um dataframe do Spark Saiba como carregar dados meteorológicos históricos para o seu dataframe do Spark favorito.

Associar dados de demonstração com dados ISD da NOAA

Bloco de Notas Descrição
Associar dados de demonstração com dados meteorológicos – Pandas Adira a um conjunto de dados de demonstração de 1 mês de localizações de sensores com leituras meteorológicas num dataframe do Pandas.
Associar dados de demonstração com dados meteorológicos – Spark Adira a um conjunto de dados de demonstração de localizações de sensores com leituras meteorológicas num dataframe do Spark.

Associar dados de táxi da NYC com dados ISD da NOAA

Bloco de Notas Descrição
Dados de viagem de táxi enriquecidos com dados meteorológicos - Pandas Carregue dados de táxi verde nyc (mais de 1 mês) e enriqueça-os com dados meteorológicos num dataframe do Pandas. Este exemplo substitui o método get_pandas_limit e equilibra o desempenho da carga de dados com a quantidade de dados.
Dados de viagem de táxi enriquecidos com dados meteorológicos – Spark Carregue dados de táxi verde nyc e melhore-os com dados meteorológicos, no dataframe do Spark.

Passos seguintes