opendatasets Paquet

Contient des fonctionnalités permettant de consommer Azure Open Datasets en tant que trames de données et d’enrichir les données client.

Les jeux de données Azure Open Datasets sont des jeux de données publics organisés que vous pouvez utiliser pour ajouter des fonctionnalités spécifiques à des scénarios à des solutions de Machine Learning afin d'obtenir des modèles plus précis. Vous pouvez convertir ces jeux de données publics en trames de données Spark et Pandas en appliquant des filtres. Pour certains jeux de données, vous pouvez utiliser un enrichisseur afin de joindre les données publiques à vos données. Par exemple, vous pouvez joindre vos données à des données météorologiques par longitude et latitude, ou par code postal et heure.

Azure Open Datasets comprend des données du domaine public relatives à la météo, au recensement, aux jours fériés, à la sécurité publique et à la localisation. Elles vous permettent de former des modèles de Machine Learning et d’enrichir des solutions prédictives. Les Open Datasets se trouvent dans le cloud sur Microsoft Azure et sont intégrés à Azure Machine Learning. Pour plus d’informations sur l’utilisation d’Azure Open Datasets, consultez Créer des jeux de données avec Azure Open Datasets.

Pour obtenir des informations générales sur Azure Open Datasets, consultez la documentation relative à Azure Open Datasets.

Paquets

accessories

Contient des fonctionnalités qui permettent d’identifier les types de colonnes dans les données, notamment la latitude/longitude, le code postal et l’heure.

aggregators

Contient des fonctionnalités permettant de définir la façon dont des données jointes sont agrégées.

Les agrégateurs définissent les opérations qui peuvent être effectuées sur le résultat de la jointure de données issues de deux jeux de données. Par exemple, lorsque vous utilisez l’une des classes de enrichers, vous pouvez spécifier un agrégateur dans le cadre de l’opération. Si aucune agrégation n’est nécessaire, utilisez AggregatorAll.

data

Contient le fichier init relatif aux ressources de données du module publicholidays.

dataaccess

Contient des fonctionnalités permettant de fournir des méthodes d’accès aux fichiers blob.

Quand vous utilisez une classe du package opendatasets, par exemple la classe ChicagoSafety, les classes et fonctions d’accès aux données de ce package sont utilisées en interne. En règle générale, vous n’avez pas besoin d’utiliser directement les fonctionnalités du package d’accès aux données.

enrichers

Contient des fonctionnalités permettant d’enrichir et de joindre les données de deux jeux de données.

En règle générale, les enrichisseurs joignent des données provenant de différentes sources. Plus précisément, les enrichisseurs vous permettent de joindre vos données (données client) à des données provenant d’Azure Open Datasets ou d’autres jeux de données publics.

granularities

Contient des fonctionnalités permettant de définir les mesures de temps et de distance utilisées par les enrichisseurs.

Les granularités sont des mesures de temps ou de distance utilisées par enrichers au moment de l’enrichissement (jointure) des données. Il existe des granularités temporelles, par exemple la fréquence horaire ou quotidienne, et des granularités de localisation, par exemple la distance la plus courte.

selectors

Contient des fonctionnalités permettant de sélectionner et de joindre les données d’un jeu de données client avec les données d’un jeu de données public.

Les sélecteurs définissent une logique qui vous permet d’enrichir vos données avec des jeux de données publics basés sur des mesures de temps et de distance. Par exemple, avec un sélecteur, vous pouvez rechercher des données publiques à joindre à vos données en fonction de la localisation la plus proche, ou en effectuant un arrondi à la même granularité temporelle.

Spécifiez des sélecteurs quand vous utilisez l’une des classes du package enrichers.

Modules

environ

Définit les classes d’environnement d’exécution où les fonctionnalités Azure Open Datasets sont utilisées.

Les classes de ce module garantissent l’optimisation des fonctionnalités Azure Open Datasets pour différents environnements. En règle générale, vous n’avez pas besoin d’instancier ces classes d’environnement ni de vous soucier de leur implémentation. À la place, utilisez la fonction de module get_environ pour retourner l’environnement.

Classes

BingCOVID19Data

Représente le jeu de données Bing COVID-19.

Ces jeux de données comprennent les données Bing COVID-19 collectées à partir de plusieurs sources fiables et approuvées, notamment l’Organisation mondiale de la santé (OMS), les centres CDC (Centers for Disease Control and Prevention), les services de santé publique nationaux et d’état, BNO News, BNO News, 24/7 Wall St. et Wikipédia. Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions des colonnes, connaître les différentes façons d’accéder au jeu de données et obtenir des exemples, consultez Données Bing COVID-19 dans le catalogue Microsoft Azure Open Datasets.

Initialiser les champs de filtrage.

BostonSafety

Représente le jeu de données public relatif aux données de sûreté de Seattle (Boston Safety).

Ce jeu de données contient des appels au numéro d’urgence 311 signalés pour la ville de Boston. Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions des colonnes, connaître les différentes façons d’accéder au jeu de données et obtenir des exemples, consultez les données de sûreté Données de sûreté de Boston dans le catalogue Microsoft Azure Open Datasets.

Initialiser les champs de filtrage.

COVID19OpenResearch

Représente le jeu de données de recherche COVID-19 (COVID-19 Open Research).

Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions des colonnes, connaître les différentes façons d’accéder au jeu de données et obtenir des exemples, consultez Jeu de données de recherche COVID-19 dans le catalogue Microsoft Azure Open Datasets.

COVIDTrackingProject

Représente le jeu de données du projet de suivi COVID.

Le jeu de données du projet de suivi COVID fournit les derniers chiffres sur les tests, les cas confirmés, les hospitalisations et l’état de santé des patients pour chaque territoire et État américain. Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions des colonnes, connaître les différentes façons d’accéder au jeu de données et obtenir des exemples, consultez Jeu de données de suivi COVID dans le catalogue Microsoft Azure Open Datasets.

Initialiser les champs de filtrage.

ChicagoSafety

Représente le jeu de données public relatif aux données de sûreté de Chicago.

Ce jeu de données contient des demandes de service adressées au numéro d’urgence 311 de la ville de Chicago, notamment des plaintes relatives au code de l’assainissement, des signalements des nids-de-poule et des problèmes d’éclairage public. Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions des colonnes, connaître les différentes façons d’accéder au jeu de données et obtenir des exemples, consultez Données de sûreté de Chicago dans le catalogue Microsoft Azure Open Datasets.

Initialiser les champs de filtrage.

CitySafety

Classe relative à la sûreté de la ville : il s’agit d’une classe parente dont chaque ville peut hériter.

Initialiser les champs de filtrage.

Diabetes

Représente le jeu de données public sur le diabète.

Le jeu de données sur le diabète contient 442 échantillons avec 10 caractéristiques, ce qui en fait un outil idéal pour commencer à utiliser des algorithmes Machine Learning. Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions des colonnes, connaître les différentes façons d’accéder au jeu de données et obtenir des exemples, consultez Échantillon : diabète dans le catalogue Microsoft Azure Open Datasets.

EcdcCOVIDCases

Représente le jeu de données Cas de Covid-19 du Centre européen pour la prévention et le contrôle des maladies (CEPCM).

Ce jeu de données contient des informations du Centre européen pour la prévention et le contrôle des maladies (ECDC). Chaque ligne/entrée contient le nombre de nouveaux cas signalés par jour et par pays/région. Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions de colonne, les différentes façons d’accéder au jeu de données et des exemples, consultez le Centre européen pour la prévention et le contrôle des maladies (CEPCM) – Cas de COVID-19 dans le catalogue Microsoft Azure Open Datasets.

Initialiser les champs de filtrage.

MNIST

Représente la base de données MNIST de chiffres manuscrits.

La base de données MNIST de chiffres manuscrits présente un ensemble d’entraînement comportant 60 000 exemples, ainsi qu’un ensemble test de 10 000 exemples. Les chiffres présentent une taille normalisée et sont centrés dans une image à taille fixe. Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions des colonnes, connaître les différentes façons d’accéder au jeu de données et obtenir des exemples, consultez La base de données MNIST de chiffres manuscrits dans le catalogue Microsoft Azure Open Datasets.

Pour obtenir un exemple d’utilisation du jeu de données MNIST, consultez le tutoriel Effectuer l’apprentissage de modèles de classification d’image avec des données MNIST et scikit-learn à l’aide d’Azure Machine Learning.

NoParameterOpenDatasetBase

Classe de base relative à la population active américaine.

Initialiser.

NoaaGfsWeather

Représente le jeu de données du système de prédiction mondial (GFS, Global Forecast System) de la NOAA (National Oceanic and Atmospheric Administration).

Ce jeu de données contient les données de prévisions météorologiques horaires américaines sur 15 jours (exemple : température, précipitations, vents) générées par le système de prévisions mondiales (GFS) de la NOAA (National Oceanic and Atmospheric Administration). Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions des colonnes, connaître les différentes façons d’accéder au jeu de données et obtenir des exemples, consultez Système de prévisions mondiales (GFS) de la NOAA dans le catalogue Microsoft Azure Open Datasets.

Initialiser les champs de filtrage.

NoaaIsdWeather

Représente le jeu de données ISD (Integrated Surface Dataset) (GFS, Global Forecast System) de la NOAA (National Oceanic and Atmospheric Administration).

Ce jeu de données contient des données météorologiques historiques horaires du monde entier (exemple : température, précipitations, vent) provenant de la National Oceanic and Atmospheric Administration (NOAA). Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions des colonnes, connaître les différentes façons d’accéder au jeu de données et obtenir des exemples, consultez Données ISD (Integrated Surface Data) de la NOAA dans le catalogue Microsoft Azure Open Datasets.

Initialiser les champs de filtrage.

NycSafety

Représente le jeu de données public relatif aux données de sûreté de New York.

Ce jeu de données contient toutes les demandes de service 311 à New York de 2010 à nos jours. Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions des colonnes, connaître les différentes façons d’accéder au jeu de données et obtenir des exemples, consultez Données de sûreté de New York dans le catalogue Microsoft Azure Open Datasets.

Initialiser les champs de filtrage.

NycTaxiBase

Classe relative aux taxis new-yorkais : il s’agit d’une classe parente qui peut être héritée.

Initialiser les champs de filtrage.

NycTlcFhv

Représente le jeu de données public NYC Taxi & Limousine Commission.

Ce jeu de données contient des enregistrements relatifs aux trajets des VTC. Ils comportent des champs incluant le numéro de licence de la base de répartition, la date et l’heure de prise en charge ainsi que l’ID de localisation de la zone des taxis (fichier de forme ci-dessous). Ces enregistrements sont générés à partir des envois de relevés de trajets VTC présentés par bases. Pour plus d’informations sur ce jeu de données, y compris les descriptions des colonnes, les différentes façons d’accéder au jeu de données et des exemples, consultez NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) trip records dans le catalogue Microsoft Azure Open Datasets.

Initialiser les champs de filtrage.

NycTlcGreen

Représente le jeu de données public nyC Taxi & Limousine Commission.

Les enregistrements de trajets en taxi vert incluent des champs indiquant les dates et heures de début et fin de trajet, les lieux de départ et d’arrivée, la distance des trajets, les tarifs détaillés, les types de tarifs, les types de paiement et le nombre de passagers signalé par le conducteur. Pour plus d’informations sur ce jeu de données, y compris les descriptions des colonnes, les différentes façons d’accéder au jeu de données et des exemples, consultez NYC Taxi & Limousine Commission - Green Taxi trip records dans le catalogue Microsoft Azure Open Datasets.

Pour obtenir un exemple d’utilisation de la classe NycTlcGreen, consultez le tutoriel Utiliser le Machine Learning automatisé pour prédire le prix des courses de taxi.

Initialiser les champs de filtrage.

NycTlcYellow

Représente le jeu de données public nyC Taxi & Limousine Commission.

Les enregistrements de trajets en taxi jaune incluent des champs indiquant les dates et heures de début et fin de trajet, les lieux de départ et d’arrivée, la distance des trajets, les tarifs détaillés, les types de tarifs, les types de paiement et le nombre de passagers signalé par le conducteur. Pour plus d’informations sur ce jeu de données, y compris les descriptions des colonnes, les différentes façons d’accéder au jeu de données et des exemples, consultez NYC Taxi & Limousine Commission - Enregistrements de voyage de taxi jaune dans le catalogue Microsoft Azure Open Datasets.

Initialiser les champs de filtrage.

OjSalesSimulated

Représente l’exemple de jeu de données de données simulées de vente de jus d’orange.

Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions des colonnes, connaître les différentes façons d’accéder au jeu de données et obtenir des exemples, consultez Échantillon : données simulées de vente de jus d’orange dans le catalogue Microsoft Azure Open Datasets.

PublicHolidays

Représente le jeu de données public relatif aux jours fériés.

Ce jeu de données contient les données relatives aux jours fériés dans le monde entier en provenance du package de jours fériés PyPI et de Wikipédia. Il couvre 38 pays ou régions de 1970 à 2099. Chaque ligne indique les informations de jours fériés pour une date et un pays ou une région spécifiques, et indique si la plupart des gens ont des congés payés. Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions des colonnes, connaître les différentes façons d’accéder au jeu de données et obtenir des exemples, consultez Jours fériés dans le catalogue Microsoft Azure Open Datasets.

Initialiser les champs de filtrage.

PublicHolidaysOffline

Représente le jeu de données public hors connexion relatif aux jours fériés.

Pour obtenir une description des lignes, consultez la section Jours fériés dans le catalogue Microsoft Azure Open Datasets.

Initialiser les champs de filtrage.

SampleDatasetBase

Représente la classe de base de l’exemple de jeu de données.

SanFranciscoSafety

Représente le jeu de données public Données de sûreté de San Francisco.

Ce jeu de données contient les données relatives aux appels aux pompiers et aux services de secours du 311 à San Francisco. Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions des colonnes, connaître les différentes façons d’accéder au jeu de données et obtenir des exemples, consultez Données de sûreté de San Francisco dans le catalogue Microsoft Azure Open Datasets.

Initialiser les champs de filtrage.

SeattleSafety

Représente le jeu de données public relatif aux données de sûreté de Seattle.

Ce jeu de données contient les données relatives à la répartition des appels d’urgence (911/Pompiers) de Seattle. Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions des colonnes, connaître les différentes façons d’accéder au jeu de données et obtenir des exemples, consultez Données de sûreté de Seattle dans le catalogue Microsoft Azure Open Datasets.

Initialiser les champs de filtrage.

UsLaborCPI

Représente le jeu de données public de l’index des prix à la consommation aux États-Unis.

L’indice des prix à la consommation (IPC) est une mesure de la variation moyenne dans le temps des prix payés par les consommateurs urbains pour un panier de biens et services à la consommation. Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions des colonnes, connaître les différentes façons d’accéder au jeu de données et obtenir des exemples, consultez Indice des prix à la consommation aux États-Unis dans le catalogue Microsoft Azure Open Datasets.

Initialiser.

UsLaborEHENational

Représente le jeu de données public relatif aux heures d’emploi et aux revenus nationaux aux États-Unis.

Ce jeu de données contient des estimations sectorielles détaillées relatives aux emplois non agricoles ainsi qu’aux heures de travail et aux revenus des travailleurs salariés aux États-Unis. Pour plus d’informations sur ce jeu de données, notamment les descriptions des colonnes, les différentes façons d’accéder au jeu de données et les exemples, consultez Heures d’emploi et revenus nationaux aux États-Unis dans le catalogue Microsoft Azure Open Datasets.

Initialiser.

UsLaborEHEState

Représente le jeu de données public relatif aux heures d’emploi et aux revenus par État aux États-Unis.

Ce jeu de données contient des estimations sectorielles détaillées relatives aux emplois non agricoles ainsi qu’aux heures de travail et aux revenus des travailleurs salariés aux États-Unis. Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions des colonnes, connaître les différentes façons d’accéder au jeu de données et obtenir des exemples, consultez Heures d’emploi et revenus par État aux États-Unis dans le catalogue Microsoft Azure Open Datasets.

Initialiser.

UsLaborLAUS

Représente le jeu de données public relatif aux statistiques sur le chômage aux États-Unis.

Ce jeu de données contient des données mensuelles et annuelles sur l’emploi, le chômage et la population active pour les régions et divisions de recensement, les États, les comtés, les zones métropolitaines et de nombreuses villes des États-Unis. Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions des colonnes, connaître les différentes façons d’accéder au jeu de données et obtenir des exemples, consultez Statistiques sur le chômage local aux États-Unis dans le catalogue Microsoft Azure Open Datasets.

Initialiser.

UsLaborLFS

Représente le jeu de données public relatif aux statistiques de la population active des États-Unis.

Ce jeu de données contient des données relatives à la population active des États-Unis notamment sur le taux de participation au marché du travail, ainsi que sur la population civile non institutionnelle, par âge, sexe et groupe ethnique. Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions des colonnes, connaître les différentes façons d’accéder au jeu de données et obtenir des exemples, consultez Statistiques de la population active américaine dans le catalogue Microsoft Azure Open Datasets.

Initialiser.

UsLaborPPICommodity

Représente le jeu de données public relatif à l’indice des prix à la production aux États-Unis – Marchandises.

L’indice des prix à la production (IPP) est une mesure de la variation moyenne dans le temps des prix de vente perçus par les producteurs nationaux pour leur production. Les prix inclus dans l’IPP sont ceux de la première transaction commerciale pour les produits et services couverts. Ce jeu de données contient les IPP (indices des prix à la production) de produits individuels et de groupes de produits publiés chaque mois. Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions des colonnes, connaître les différentes façons d’accéder au jeu de données et obtenir des exemples, consultez Indice des prix à la production aux États-Unis – Marchandises dans le catalogue Microsoft Azure Open Datasets.

Initialiser.

UsLaborPPIIndustry

Représente le jeu de données public relatif à l’indice des prix à la production aux États-Unis – Industrie.

L’indice des prix à la production (IPP) est une mesure de la variation moyenne dans le temps des prix de vente perçus par les producteurs nationaux pour leur production. Les prix inclus dans l’IPP sont ceux de la première transaction commerciale pour les produits et services couverts. Ce jeu de données contient des IPP (indices des prix à la production) couvrant un large éventail de secteurs d’activité de l’économie américaine. Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions des colonnes, connaître les différentes façons d’accéder au jeu de données et obtenir des exemples, consultez Indice des prix à la production aux États-Unis – Industrie dans le catalogue Microsoft Azure Open Datasets.

Pour obtenir des informations générales sur Azure Open Datasets, consultez la documentation relative à Azure Open Datasets.

Initialiser.

UsPopulationCounty

Représente le jeu de données public relatif à la population américaine par comté.

Ce jeu de données contient les données relatives à la population des États-Unis par sexe, par groupe ethnique et par comté américain en provenance des recensements décennaux de 2000 et 2010. Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions des colonnes, connaître les différentes façons d’accéder au jeu de données et obtenir des exemples, consultez Population américaine par comté dans le catalogue Microsoft Azure Open Datasets.

Initialiser.

UsPopulationZip

Représente le jeu de données public relatif à la population américaine par code postal.

Ce jeu de données contient les données relatives à la population des États-Unis par sexe et groupe ethnique pour chaque code postal américain en provenance du recensement décennal de 2010. Pour plus d’informations sur ce jeu de données, notamment pour consulter les descriptions des colonnes, connaître les différentes façons d’accéder au jeu de données et obtenir des exemples, consultez Population américaine par code postal dans le catalogue Microsoft Azure Open Datasets.

Initialiser.