NYC Taxi & Limousine Commission - Yellow taxi trip records

I record relativi alle corse dei taxi gialli includono campi contenenti data e ora di partenza e di arrivo, luogo di partenza e di arrivo, distanze delle corse, dettaglio delle tariffe, tipi di tariffa, tipi di pagamento e numero di passeggeri segnalato dal tassista.

Nota

Microsoft fornisce i set di dati aperti di Azure "così come sono". Microsoft non fornisce alcuna garanzia o condizione, espressa o implicita, in merito all'utilizzo dei set di dati. Nella misura massima consentita dalle leggi locali, Microsoft non riconosce alcuna responsabilità relativa a danni o perdite, inclusi i danni diretti, consequenziali, speciali, indiretti, incidentali o punitivi derivanti dall'uso dei set di dati da parte dell'utente.

Questo set di dati viene fornito in conformità con le condizioni originali in base alle quali Microsoft ha ricevuto i dati di origine. Il set di dati potrebbe includere dati provenienti da Microsoft.

Volume e conservazione

Il set di dati viene archiviato nel formato Parquet. Al 2018 sono presenti in totale circa 1,5 miliardi di righe (50 GB).

Questo set di dati include record cronologici accumulati dal 2009 al 2018. Puoi usare le impostazioni dei parametri nell'SDK per recuperare i dati entro un intervallo di tempo specifico.

Posizione di archiviazione

Questo set di dati è archiviato nell'area Stati Uniti orientali di Azure. L'allocazione delle risorse di calcolo nell'area Stati Uniti orientali è consigliata per motivi di affinità.

Informazioni aggiuntive

NYC Taxi and Limousine Commission (TLC):

I dati sono stati raccolti e forniti a NYC Taxi and Limousine Commission (TLC) da fornitori di soluzioni tecnologiche autorizzati in conformità con i programmi Taxicab e Livery Passenger Enhancement Program (TPEP/LPEP). I dati relativi alle corse non sono stati creati da TLC e TLC non rilascia alcuna dichiarazione relativamente alla correttezza di tali dati.

Vedere il percorso del set di dati originale e le condizioni per l'utilizzo originali.

Colonne

Nome Tipo di dati Unica Valori (esempio) Descrizione
doLocationId string 265 161 236 Area taxi TLC in cui è stato disattivato il tassametro.
endLat double 961,994 41.366138 40.75
endLon double 1,144,935 -73.137393 -73.9824
extra double 877 0.5 1.0 Extra e maggiorazioni vari. Include attualmente solo gli addebiti pari a 0,50 USD e 1 USD per l'ora di punta e per la notte.
fareAmount double 18,935 6.5 4.5 Tariffa in base a durata e distanza calcolata dal tassametro.
improvementSurcharge string 60 0.3 0 Maggiorazione di $ 0,30 per il miglioramento del servizio aggiunta alla tariffa fissa sulle corse dei taxi. La maggiorazione per il miglioramento del servizio viene applicata dal 2015.
mtaTax double 360 0.5 -0.5 Imposta MTA di $ 0,50 automaticamente attivata in base alla tariffa del tassametro in uso.
passengerCount int 64 1 2 Numero di passeggeri nel veicolo. Si tratta di un valore immesso dall'autista.
paymentType string 6,282 CSH CRD Codice numerico che indica il modo in cui il passeggero ha pagato la corsa. 1= Carta di credito; 2= Contanti; 3= Nessun addebito; 4= Controversia; 5= Sconosciuto; 6= Viaggio annullato.
puLocationId string 266 237 161 Valore TLC Taxi Zone in cui è stato attivato il tassametro.
puMonth int 12 3 5
puYear int 29 2012 2011
rateCodeId int 56 1 2 Codice di tariffa finale in vigore alla fine della corsa. 1= Tariffa standard; 2= JFK; 3= Newark; 4= Nassau o Westchester; 5= Tariffa negoziata; 6= Corsa di gruppo.
startLat double 833,016 41.366138 40.7741
startLon double 957,428 -73.137393 -73.9821
storeAndFwdFlag string 8 N 0 Questo flag indica se il record della corsa è stato conservato nella memoria del veicolo prima dell'invio al fornitore, noto anche come "archiviazione e inoltro" perché il veicolo non disponeva di una connessione al server. Y= corsa con archiviazione e inoltro; N= non una corsa con archiviazione e inoltro.
tipAmount double 12,121 1.0 2.0 Questo campo viene popolato automaticamente per le mance tramite carta di credito. Le mance in contanti non sono incluse.
tollsAmount double 6,634 5.33 4.8 Importo totale di tutti i pedaggi pagati durante la corsa.
totalAmount double 39,707 7.0 7.8 Importo totale addebitato ai passeggeri. Non include le mance in contanti.
tpepDropoffDateTime timestamp 290,185,010 2010-11-07 01:29:00 2013-11-03 01:22:00 Data e ora in cui è stato disattivato il tassametro.
tpepPickupDateTime timestamp 289,948,585 2010-11-07 01:00:00 2009-11-01 01:05:00 Data e ora in cui è stato attivato il contatore.
tripDistance double 14,003 1.0 0.9 Distanza percorsa durante la corsa in miglia segnalata dal tassametro.
vendorID string 7 VTS CMT Codice che indica il fornitore TPEP che ha fornito il record. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc.
vendorID int 2 2 1 Codice che indica il fornitore LPEP che ha fornito il record. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc.

Anteprima

vendorID tpepPickupDateTime tpepDropoffDateTime passengerCount tripDistance puLocationId doLocationId rateCodeId storeAndFwdFlag paymentType fareAmount extra mtaTax improvementSurcharge tipAmount tollsAmount totalAmount puYear puMonth
2 1/24/2088 12:25:39 AM 1/24/2088 7:28:25 AM 1 4.05 24 162 1 N 2 14.5 0 0.5 0,3 0 0 15.3 2088 1
2 1/24/2088 12:15:42 AM 1/24/2088 12:19:46 AM 1 0,63 41 166 1 N 2 4.5 0 0.5 0,3 0 0 5.3 2088 1
2 11/4/2084 12:32:24 PM 11/4/2084 12:47:41 PM 1 1.34 238 236 1 N 2 10 0 0.5 0,3 0 0 10.8 2084 11
2 11/4/2084 12:25:53 PM 11/4/2084 12:29:00 PM 1 0,32 238 238 1 N 2 4 0 0.5 0,3 0 0 4.8 2084 11
2 11/4/2084 12:08:33 PM 11/4/2084 12:22:24 PM 1 1.85 236 238 1 N 2 10 0 0.5 0,3 0 0 10.8 2084 11
2 11/4/2084 11:41:35 AM 11/4/2084 11:59:41 AM 1 1,65 68 237 1 N 2 12.5 0 0.5 0,3 0 0 13.3 2084 11
2 11/4/2084 11:27:28 AM 11/4/2084 11:39:52 AM 1 1.07 170 68 1 N 2 9 0 0.5 0,3 0 0 9.8 2084 11
2 11/4/2084 11:19:06 AM 11/4/2084 11:26:44 AM 1 1.3 107 170 1 N 2 7.5 0 0.5 0,3 0 0 8.3 2084 11
2 11/4/2084 11:02:59 AM 11/4/2084 11:15:51 AM 1 1.85 113 137 1 N 2 10 0 0.5 0,3 0 0 10.8 2084 11
2 11/4/2084 10:46:05 AM 11/4/2084 10:50:09 AM 1 0,62 231 231 1 N 2 4.5 0 0.5 0,3 0 0 5.3 2084 11

Accesso ai dati

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser

end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Passaggi successivi

Visualizzare il resto dei set di dati nel catalogo dei set di dati aperti.