Commission des taxis de New York - Enregistrements des trajets de taxi

Les enregistrements de trajets des VTC (« FHV » en anglais) incluent des champs indiquant le numéro de licence de la base de dispatch et la date de prise en charge, l’heure et l’ID d’emplacement de zone de taxi (fichier de forme ci-dessous). Ces enregistrements sont générés à partir des envois de relevés de trajets VTC présentés par bases.

Notes

Microsoft fournit Azure Open Datasets « en l’état ». Microsoft n’offre aucune garantie, expresse ou implicite, ni de conditions relatives à votre utilisation des jeux de données. Dans la mesure autorisée par votre droit local, Microsoft décline toute responsabilité pour les dommages ou pertes, y compris directs, consécutifs, spéciaux, indirects ou punitifs, résultant de votre utilisation des jeux de données.

Ce jeu de données est fourni selon les conditions initiales par lesquelles Microsoft a reçu les données sources. Le jeu de données peut inclure des données provenant de Microsoft.

Volume et conservation

Ce jeu de données est stocké au format Parquet. Il y a environ 500 millions de lignes (5 Go) en date de 2018.

Ce jeu de données contient les enregistrements historiques accumulés de 2009 à 2018. Vous pouvez utiliser les paramètres de paramétrage de notre SDK pour récupérer les données dans un intervalle de temps spécifique.

Emplacement de stockage

Ce jeu de données est stocké dans la région Azure USA Est. L’allocation de ressources de calcul dans la région USA Est est recommandée à des fins d’affinité.

Informations supplémentaires

Commission des services de taxis et de limousines de la ville de New York (en anglais)

Les données ont été collectées et fournies à la Commission des services de taxis et de limousines de la ville de New York (TLC) par des fournisseurs de technologie agréés dans le cadre du programme d’amélioration du trafic passagers et taxis (TPEP/LPEP). Les données sur les trajets n’ont pas été créées par la TLC et celle-ci ne fait aucune déclaration quant à l’exactitude de ces données.

Affichez l’emplacement du jeu de données d’origine et les conditions d’utilisation d’origine.

Colonnes

Nom Type de données Unique Valeurs (exemple) Description
dispatchBaseNum string 1,144 B02510 B02764 Le numéro de licence de base TLC de la base qui a dispatché le trajet
doLocationId string 267 265 132 Zone de taxi TLC où le trajet s’est terminé.
dropOffDateTime timestamp 57,110,352 2017-07-31 23:59:00 2017-10-15 00:44:34 Date et heure de la dépose.
pickupDateTime timestamp 111,270,396 2016-08-16 00:00:00 2016-08-17 00:00:00 Date et heure de la montée dans le véhicule.
puLocationId string 266 79 161 Zone de taxi TLC où le trajet a commencé.
puMonth int 12 1 12
puYear int 5 2018 2017
srFlag string 44 1 2 Indique si le trajet faisait partie d’une chaîne de covoiturage proposée par une entreprise de VTC à fort volume (par exemple Uber Pool, Lyft Line). Pour les trajets partagés, la valeur est 1. Pour les trajets non partagés, ce champ est Null. REMARQUE : Pour la plupart des entreprises de VTC à fort volume, seuls les trajets partagés demandés ET correspondant à une autre demande de trajet partagé au cours du trajet sont signalés. Cependant, Lyft (numéros de licence de base B02510 + B02844) signale également les trajets pour lesquels un trajet partagé a été demandé mais où aucun autre passager n’a été trouvé pour partager le trajet. Par conséquent, les enregistrements de trajets avec SR_Flag = 1 de ces deux bases pourraient indiquer SOIT un premier trajet dans une chaîne de trajet partagé OU un trajet pour lequel un trajet partagé a été demandé mais jamais trouvé. Les utilisateurs doivent s’attendre à un nombre excessif de trajets partagés réussis effectués par Lyft.

Préversion

dispatchBaseNum pickupDateTime dropOffDateTime puLocationId doLocationId srFlag puYear puMonth
B03157 6/30/2019 11:59:57 PM 7/1/2019 12:07:21 AM 264 null null 2019 6
B01667 6/30/2019 11:59:56 PM 7/1/2019 12:28:06 AM 264 null null 2019 6
B02849 6/30/2019 11:59:55 PM 7/1/2019 12:14:10 AM 264 null null 2019 6
B02249 6/30/2019 11:59:53 PM 7/1/2019 12:15:53 AM 264 null null 2019 6
B00887 6/30/2019 11:59:48 PM 7/1/2019 12:29:29 AM 264 null null 2019 6
B01626 6/30/2019 11:59:45 PM 7/1/2019 12:18:20 AM 264 null null 2019 6
B01259 6/30/2019 11:59:44 PM 7/1/2019 12:03:15 AM 264 null null 2019 6
B01145 6/30/2019 11:59:43 PM 7/1/2019 12:11:15 AM 264 null null 2019 6
B00887 6/30/2019 11:59:42 PM 7/1/2019 12:34:21 AM 264 null null 2019 6
B00821 6/30/2019 11:59:40 PM 7/1/2019 12:02:57 AM 264 null null 2019 6

Accès aux données

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Étapes suivantes

Consultez les autres jeux de données du catalogue Open Datasets.