NYC Taxi & Commission - For-Hire Vehicle (FHV) trip records

FHV-färdregistret (For-Hire Vehicle) innehåller fält för den utskickade bilens registreringsnummer, datum och tid för upphämtningen, samt taxizonens plats-ID (formfil nedan). Dessa poster genereras från FHV-färdregistret som skickas från basenheterna.

Anteckning

Microsoft tillhandahåller Azure Open Datasets på "i sin"-basis. Microsoft ger inga garantier, uttryckliga eller underförstådda, avseende din användning av datamängderna. I den utsträckning som tillåts enligt din lokala lag frånsäger sig Microsoft allt ansvar för eventuella skador eller förluster, inklusive direkta skador, följdskador, särskilda, indirekta, oförutsedda eller oförutsedda skador, till följd av din användning av datamängderna.

Datamängden tillhandahålls enligt de ursprungliga villkor som gällde när Microsoft tog emot källdatan. Datamängden kan innehålla data från Microsoft.

Volym och kvarhållning

Datamängden lagras i Parquet-format. Det finns cirka 500 miljoner rader (5 GB) från och med 2018.

Datamängden innehåller historiska poster som ackumulerats från 2009 till 2018. Du kan använda parameterinställningar i vår SDK till att hämta data inom ett specifikt tidsintervall.

Lagringsplats

Datamängden lagras i Azure-regionen Östra USA. Vi rekommenderar att beräkningsresurser tilldelas i Östra USA av tillhörighetsskäl.

Ytterligare information

NYC Taxi and Limousine Commission (TLC):

Datan samlades in och överlämnades till NYC Taxi and Limousine Commission (TLC) av teknikleverantörer som är godkända av Taxicab & Livery Passenger Enhancement Programs (TPEP/LPEP). Färddatan skapades inte av TLC och TLC garanterar inte korrektheten i dessa data.

Visa den ursprungliga datauppsättningens plats och de ursprungliga användningsvillkoren.

Kolumner

Name Datatyp Unik Värden (exempel) Beskrivning
dispatchBaseNum sträng 1,144 B02510 B02764 TLC-basens registreringsnummer för den bas som skickade resan
doLocationId sträng 267 265 132 Den TLC-taxizon där resan avslutades.
dropOffDateTime timestamp 57,110,352 2017-07-31 23:59:00 2017-10-15 00:44:34 Datum och tid när resan avslutades.
pickupDateTime timestamp 111,270,396 2016-08-16 00:00:00 2016-08-17 00:00:00 Datum och tid för när resan inleddes.
puLocationId sträng 266 79 161 Den TLC-taxizon där resan påbörjades.
puMonth int 12 1 12
puYear int 5 2018 2017
srFlag sträng 44 1 2 Anger om resan ingick i en delad färdkedja som erbjuds av ett FHV-företag med hög volym (till exempel Uber Pool eller Lyft Line). Vid samåkning är värdet 1. För resor som inte är samåkning är fältet null. OBS! För de flesta FHV-företag flaggas endast samåkning som begärdes OCH som matchades med en annan samåkningsbegäran under resan. Lyft (baslicensnummer B02510 + B02844) flaggar dock även resor där samåkning begärdes, men där man inte kunde matcha begäran med en annan passagerare – därför kan reseposter med SR_Flag=1 från de två baserna ANTINGEN avse en första resa i en samåkningskedja ELLER en resa där samåkning begärdes men inte matchades. Användarna kan därför förvänta sig att ett stort antal samåkningar visas från Lyft.

Förhandsgranskning

dispatchBaseNum pickupDateTime dropOffDateTime puLocationId doLocationId srFlag puYear puMonth
B03157 2019-06-30 11:59:57 2019-07-01 12:07:21 264 null null 2019 6
B01667 2019-06-30 11:59:56 2019-07-01 12:28:06 264 null null 2019 6
B02849 2019-06-30 11:59:55 2019-07-01 12:14:10 264 null null 2019 6
B02249 2019-06-30 11:59:53 2019-07-01 12:15:53 264 null null 2019 6
B00887 2019-06-30 11:59:48 2019-07-01 12:29:29 264 null null 2019 6
B01626 2019-06-30 11:59:45 2019-07-01 12:18:20 264 null null 2019 6
B01259 2019-06-30 11:59:44 2019-07-01 12:03:15 264 null null 2019 6
B01145 2019-06-30 11:59:43 2019-07-01 12:11:15 264 null null 2019 6
B00887 2019-06-30 11:59:42 2019-07-01 12:34:21 264 null null 2019 6
B00821 2019-06-30 11:59:40 2019-07-01 12:02:57 264 null null 2019 6

Dataåtkomst

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Nästa steg

Visa resten av datauppsättningarna i Open Datasets katalogen.