Komisja ds. taksówek w NYC & — rekordy przejazdów For-Hire Vehicle (TRIPV)

Rekordy przejazdów pojazdami na wynajem obejmują pola zawierające numer licencji centrali oraz datę i godzinę odebrania pasażera, jak również identyfikator lokalizacji strefy taksówkowej (plik kształtu poniżej). Te rekordy są generowane na podstawie danych przesyłanych do systemu FHV Trip Record przez centrale.

Uwaga

Firma Microsoft Azure Open Datasets na zasadzie "jak jest". Firma Microsoft nie udziela żadnych gwarancji, jawnych ani dorozumianych, ani nie udziela żadnych warunków w odniesieniu do korzystania z zestawów danych. W zakresie dozwolonym przez prawo lokalne Microsoft zrzeka się wszelkiej odpowiedzialności za wszelkie szkody lub straty, w tym szkody bezpośrednie, wynikowe, specjalne, pośrednie, pośrednie, przypadkowe lub karalne wynikające z używania zestawów danych.

Zestaw danych jest udostępniany zgodnie z pierwotnymi warunkami, na jakich firma Microsoft otrzymała dane źródłowe. Zestaw danych może zawierać dane pozyskane z firmy Microsoft.

Wolumin i przechowywanie

Ten zestaw danych jest przechowywany w formacie Parquet. Od 2018 r. jest około 500 milionów wierszy (5 GB).

Ten zestaw danych zawiera historyczne rekordy z lat 2009–2018. Aby pobrać dane z konkretnego przedziału czasowego, należy użyć ustawień parametrów w zestawie SDK.

Lokalizacja magazynu

Ten zestaw danych jest przechowywany w regionie platformy Azure Wschodnie stany USA. Zalecamy przydzielanie zasobów obliczeniowych w regionie Wschodnie stany USA z uwagi na koligację.

Dodatkowe informacje

Komisja ds. taksówek i limuzyn miasta Nowy Jork (TLC):

Dane zostały zebrane i dostarczone do TLC przez dostawców technologii uczestniczących w programach TPEP/LPEP (Taxicab & Livery Passenger Enhancement Program). Dane dotyczące przejazdów nie zostały utworzone przez TLC i komisja nie gwarantuje rzetelności tych danych.

Wyświetl oryginalną lokalizację zestawu danych i oryginalne warunki użytkowania.

Kolumny

Nazwa Typ danych Unikatowe Wartości (przykład) Opis
dispatchBaseNum ciąg 1,144 B02510 B02764 Numer licencji TLC bazy, z której wysłano przejazd
doLocationId ciąg 267 265 132 Strefa taksówkowa TLC, w której zakończył się przejazd.
dropOffDateTime sygnatura czasowa 57,110,352 2017-07-31 23:59:00 2017-10-15 00:44:34 Data i godzina zakończenia przejazdu przez pasażera.
pickupDateTime sygnatura czasowa 111,270,396 2016-08-16 00:00:00 2016-08-17 00:00:00 Data i godzina rozpoczęcia przejazdu przez pasażera.
puLocationId ciąg 266 79 161 Strefa taksówkowa TLC, w której rozpoczął się przejazd.
puMonth int 12 1 12
puYear int 5 2018 2017
srFlag ciąg 44 1 2 Wskazuje, czy przejazd był częścią wspólnej sieci przejazdów oferowanej przez firmę OSM (na przykład Uber Pool, Lyft Line). W przypadku wspólnych przejazdów to pole zawiera wartość 1. W przypadku przejazdów, które nie były wspólne, to pole ma wartość null. UWAGA: W przypadku większości masowych operatorów przewozów pasażerskich oznaczone tą flagą są tylko wspólne przejazdy, które zostały zamówione ORAZ dopasowane do innego zamówienia wspólnego przejazdu w czasie trwania podróży. Jednak firma Lyft (numery licencji bazy: B02510 i B02844) oznacza w ten sposób także zamówione przejazdy wspólne, do których nie udało się dopasować zamówienia innego pasażera — a zatem rekordy przejazdów z oznaczeniem SR_Flag=1 z tych dwóch baz mogą oznaczać pierwszy przejazd w ramach ciągu wspólnych przejazdów LUB przejazd, dla którego zamówiono przejazd wspólny, ale nie dopasowano innego pasażera. Użytkownicy powinni uwzględnić potencjalne przeszacowanie liczby przejazdów wspólnych zrealizowanych przez firmę Lyft.

Wersja zapoznawcza

dispatchBaseNum pickupDateTime dropOffDateTime puLocationId doLocationId srFlag puYear puMonth
B03157 2019-06-30 11:59:57 01.07.2019 12:07:21 264 null null 2019 6
B01667 2019-06-30 11:59:56 01.07.2019 12:28:06 264 null null 2019 6
B02849 2019-06-30 11:59:55 01.07.2019 12:14:10 264 null null 2019 6
B02249 2019-06-30 11:59:53 01.07.2019 12:15:53 264 null null 2019 6
B00887 2019-06-30 11:59:48 01.07.2019 12:29:29 264 null null 2019 6
B01626 2019-06-30 11:59:45 01.07.2019 12:18:20 264 null null 2019 6
B01259 2019-06-30 11:59:44 01.07.2019 12:03:15 264 null null 2019 6
B01145 2019-06-30 11:59:43 01.07.2019 12:11:15 264 null null 2019 6
B00887 2019-06-30 11:59:42 01.07.2019 12:34:21 264 null null 2019 6
B00821 2019-06-30 11:59:40 01.07.2019 12:02:57 264 null null 2019 6

Dostęp do danych

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Następne kroki

Wyświetl pozostałe zestawy danych w katalogu Open Datasets katalogu.