NYC Taxi & Limousine Commission – Fahrtenaufzeichnungen für Mietfahrzeuge (FHV – For-Hire Vehicle)

Die Datensätze zu Fahrten mit Taxis und Limousinen umfassen Felder für die jeweiligen Lizenznummern der Zentrale, das Datum und die Uhrzeit der Abholung und die Standort-ID der Taxizone (Shape-Datei unten). Diese Datensätze werden anhand der von der Zentrale übermittelten Informationen zu Fahrten mit Taxis und Limousinen erstellt.

Hinweis

Microsoft stellt Datasets der Plattform Azure Open Datasets auf einer „As is“-Basis (d. h. ohne Mängelgewähr) zur Verfügung. Microsoft übernimmt weder ausdrücklich noch stillschweigend die Gewährleistung für Ihre Nutzung der Datasets und sichert keinerlei Garantien oder Bedingungen zu. Soweit nach örtlich anwendbarem Recht zulässig, lehnt Microsoft jegliche Haftung für Schäden oder Verluste ab. Dies schließt direkte, indirekte, besondere oder zufällige Schäden oder Verluste sowie Folge- und Strafschäden und damit verbundene Verluste ein, die sich aus Ihrer Nutzung der Datasets ergeben.

Für die Bereitstellung dieses Datasets gelten die ursprünglichen Nutzungsbedingungen, unter denen Microsoft die Quelldaten bezogen hat. Das Dataset kann Daten von Microsoft enthalten.

Volume und Aufbewahrung

Dieses Dataset wird im Parquet-Format gespeichert. Derzeit (Stand: 2018) gibt es 500 Millionen Zeilen (5 GB).

Dieses Dataset enthält alle Datensätze der Jahre 2009 bis 2018. Verwenden Sie Parametereinstellungen im SDK, um Daten innerhalb eines bestimmten Zeitbereichs abzurufen.

Speicherort

Dieses Dataset wird in der Azure-Region „USA, Osten“ gespeichert. Aus Gründen der Affinität wird die Zuweisung von Computeressourcen in der Region „USA, Osten“ empfohlen.

Zusätzliche Informationen

NYC Taxi and Limousine Commission (TLC):

Die Daten wurden erfasst und von Technologieanbietern, die an den Programmen Taxicab Passenger Enhancement (TPEP) und Livery Passenger Enhancement (LPEP) teilnehmen, an die TLC weitergegeben. Die Fahrtdaten wurden nicht von der TLC erstellt, und die TLC übernimmt keine Garantie für die Korrektheit dieser Daten.

Zeigen Sie den ursprünglichen Speicherort des Datasets und die ursprünglichen Nutzungsbedingungen an.

Spalten

Name Datentyp Eindeutig Beispielwerte BESCHREIBUNG
dispatchBaseNum Zeichenfolge 1,144 B02510 B02764 Die TLC-Lizenznummer der Zentrale, von der die Fahrt ausgeht
doLocationId Zeichenfolge 267 265 132 TLC-Taxizone, in der die Fahrt endete.
dropOffDateTime timestamp 57,110,352 2017-07-31 23:59:00 2017-10-15 00:44:34 Datum und Uhrzeit des Fahrtendes.
pickupDateTime timestamp 111,270,396 2016-08-16 00:00:00 2016-08-17 00:00:00 Datum und Uhrzeit der Fahrgastabholung.
puLocationId Zeichenfolge 266 79 161 TLC-Taxizone, in der die Fahrt begann.
puMonth INT 12 1 12
puYear INT 5 2018 2017
srFlag Zeichenfolge 44 1 2 Gibt an, ob die Fahrt Teil einer Fahrgemeinschaftskette war, die von einem Personenbeförderungs-Dienstleistungsunternehmen mit hohem Durchsatz (z. B. Uber Pool, Lyft Line) angeboten wird. Bei gemeinschaftlichen Fahrten lautet der Wert „1“. Bei nicht gemeinschaftlichen Fahrten lautet der Wert „NULL“. HINWEIS: Bei den meisten Personenbeförderungs-Dienstleistungsunternehmen mit hohem Durchsatz werden nur gemeinschaftliche Fahrten gekennzeichnet, die angefragt und während der Fahrt einer weiteren Fahrgemeinschaftsanforderung zugeordnet wurden. Jedoch kennzeichnet Lyft (Zentralen mit den amtlichen Kennzeichen B02510 + B02844) auch Fahrten, für die eine gemeinschaftliche Fahrt angefordert, aber kein Passagier gefunden wurde. Daher können Fahrtaufzeichnungen mit der Kennzeichnung „SR_Flag=1“ dieser beiden Zentralen ENTWEDER die erste Fahrt einer Fahrgemeinschaftskette ODER eine Fahrt angeben, für die eine Fahrgemeinschaft angefordert, aber nicht gefunden wurde. Benutzer sollten eine übermäßig hohe Anzahl erfolgreicher gemeinschaftlicher Fahrten von Lyft erwarten.

Vorschau

dispatchBaseNum pickupDateTime dropOffDateTime puLocationId doLocationId srFlag puYear puMonth
B03157 6/30/2019 11:59:57 PM 7/1/2019 12:07:21 AM 264 NULL NULL 2019 6
B01667 6/30/2019 11:59:56 PM 7/1/2019 12:28:06 AM 264 NULL NULL 2019 6
B02849 6/30/2019 11:59:55 PM 7/1/2019 12:14:10 AM 264 NULL NULL 2019 6
B02249 6/30/2019 11:59:53 PM 7/1/2019 12:15:53 AM 264 NULL NULL 2019 6
B00887 6/30/2019 11:59:48 PM 7/1/2019 12:29:29 AM 264 NULL NULL 2019 6
B01626 6/30/2019 11:59:45 PM 7/1/2019 12:18:20 AM 264 NULL NULL 2019 6
B01259 6/30/2019 11:59:44 PM 7/1/2019 12:03:15 AM 264 NULL NULL 2019 6
B01145 6/30/2019 11:59:43 PM 7/1/2019 12:11:15 AM 264 NULL NULL 2019 6
B00887 6/30/2019 11:59:42 PM 7/1/2019 12:34:21 AM 264 NULL NULL 2019 6
B00821 6/30/2019 11:59:40 PM 7/1/2019 12:02:57 AM 264 NULL NULL 2019 6

Datenzugriff

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Nächste Schritte

Machen Sie sich mit den restlichen Datasets im Open Datasets-Katalog vertraut.