NYC Taxi & Commission - For-Hire Vehicle (FHV)-reisrecords

De records met FHV-ritten (For-Hire Vehicle) bevatten velden waarin het basislicentienummer van de centrale, de afhaaldatum en -tijd, en de locatie-id van de taxizone worden vastgelegd (vormbestand hieronder). Deze records worden gegenereerd op basis van de door centrales ingediende FHV-ritrecords.

Notitie

Microsoft biedt Azure Open Datasets op basis van 'as is'. Microsoft biedt geen expliciete of impliciete garanties of voorwaarden met betrekking tot uw gebruik van de gegevenssets. Voor zover dit volgens uw lokale recht is toegestaan, wijst Microsoft alle aansprakelijkheid af voor schade of verliezen, met inbegrip van directe, consequentiële, speciale, indirecte, incidentele of punitieve, die het gevolg zijn van uw gebruik van de gegevenssets.

Deze gegevensset wordt geleverd onder de oorspronkelijke voorwaarden dat Microsoft de brongegevens heeft ontvangen. De gegevensset kan gegevens bevatten die afkomstig zijn van Microsoft.

Volume en retentie

Deze gegevensset wordt opgeslagen in de Parquet-indeling. Vanaf 2018 zijn er ongeveer 500 miljoen rijen (5 GB).

Deze gegevensset bevat historische records die van 2009 tot en met 2018 heden zijn verzameld. U kunt in onze SDK gebruikmaken van parameterinstellingen om gegevens op te halen binnen een specifiek tijdsbereik.

Opslaglocatie

Deze gegevensset wordt opgeslagen in de Azure-regio US - oost. Het wordt aanbevolen om rekenresources in US - oost toe te wijzen voor affiniteit.

Aanvullende informatie

NYC Taxi and Limousine Commission (TLC):

De gegevens die zijn verzameld en aan de NYC Taxi and Limousine Commission (TLC) zijn gegevens door technologiepartners die bevoegd zijn onder de Taxicab & Livery Passenger Enhancement Programs (TPEP/LPEP). De ritgegevens zijn niet door TLC gemaakt en TLC geeft geen verklaring over de nauwkeurigheid van deze gegevens.

Bekijk de oorspronkelijke locatie van de gegevensset en de oorspronkelijke gebruiksvoorwaarden.

Kolommen

Name Gegevenstype Uniek Waarden (voorbeeld) Beschrijving
dispatchBaseNum tekenreeks 1,144 B02510 B02764 Het TLC-basislicentienummer van de centrale van waaruit de rit is verstuurd
doLocationId tekenreeks 267 265 132 De TLC-taxizone waarin de rit is beëindigd.
dropOffDateTime tijdstempel 57,110,352 2017-07-31 23:59:00 2017-10-15 00:44:34 De datum en tijd waarop de reizigers moeten worden afgezet.
pickupDateTime tijdstempel 111,270,396 2016-08-16 00:00:00 2016-08-17 00:00:00 De datum en tijd waarop de reizigers moeten worden opgehaald.
puLocationId tekenreeks 266 79 161 De TLC-taxizone waarin de rit is gestart.
puMonth int 12 1 12
puYear int 5 2018 2017
srFlag tekenreeks 44 1 2 Geeft aan of de rit deel uitmaakte van een gedeelde ritketen die wordt aangeboden door een groot volume-FHV-bedrijf (bijvoorbeeld Uber Pool of Lyft Line). Voor carpoolritten is de waarde 1. Voor andere ritten is de waarde in dit veld Null. OPMERKING: Voor de meeste grootschalige FHV-bedrijven worden alleen carpoolritten gemarkeerd die zijn aangevraagd EN waarvoor een match is gevonden met een andere carpoolaanvraag gedurende de rit. Lyft (basislicentienummers B02510 + B02844) markeert ook ritten waarvoor een carpoolrit is aangevraagd, maar er geen match is gevonden voor een andere passagier om de rit mee te delen. Rittenrecords met SR_Flag=1 van die twee bases kunnen daarom het volgende aangeven: OF een eerste rit in een carpoolrittenketen OF een rit waarvoor een carpoolrit is aangevraagd maar waarvoor nooit een match is gevonden. Gebruikers moeten een te hoge berekening verwachten van geslaagde carpoolritten die door Lyft zijn uitgevoerd.

Preview

dispatchBaseNum pickupDateTime dropOffDateTime puLocationId doLocationId srFlag puYear puMonth
B03157 30-6-2019 23:59:57 1-7-2019 12:07:21 uur 264 null null 2019 6
B01667 30-6-2019 23:59:56 1-7-2019 12:28:06 uur 264 null null 2019 6
B02849 30-6-2019 23:59:55 uur 1-7-2019 12:14:10 uur 264 null null 2019 6
B02249 30-6-2019 23:59:53 1-7-2019 12:15:53 uur 264 null null 2019 6
B00887 30-6-2019 23:59:48 1-7-2019 12:29:29 uur 264 null null 2019 6
B01626 30-6-2019 23:59:45 uur 1-7-2019 12:18:20 uur 264 null null 2019 6
B01259 30-6-2019 23:59:44 1-7-2019 12:03:15 uur 264 null null 2019 6
B01145 30-6-2019 23:59:43 1-7-2019 12:11:15 uur 264 null null 2019 6
B00887 30-6-2019 23:59:42 1-7-2019 12:34:21 uur 264 null null 2019 6
B00821 30-6-2019 23:59:40 uur 1-7-2019 12:02:57 uur 264 null null 2019 6

Toegang tot gegevens

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Volgende stappen

Bekijk de rest van de gegevenssets in de Open Datasets catalogus.