Komisja ds. taksówek w NYC & — rekordy przejazdów zielonymi taksówkami

Rekordy dotyczące przejazdów zielonymi taksówkami zawierają pola daty i godziny rozpoczęcia oraz zakończenia kursu, miejsca rozpoczęcia i zakończenia kursu, pokonanej odległości, wyszczególnionych opłat, taryfy, metody płatności oraz liczby pasażerów podanej przez kierowcę.

Uwaga

Firma Microsoft Azure Open Datasets na zasadzie "jak jest". Firma Microsoft nie udziela żadnych gwarancji, jawnych ani dorozumianych, ani nie udziela żadnych warunków w odniesieniu do korzystania z zestawów danych. W zakresie dozwolonym przez prawo lokalne Microsoft zrzeka się wszelkiej odpowiedzialności za wszelkie szkody lub straty, w tym szkody bezpośrednie, wynikowe, specjalne, pośrednie, pośrednie, przypadkowe lub karalne wynikające z używania zestawów danych.

Zestaw danych jest udostępniany zgodnie z pierwotnymi warunkami, na jakich firma Microsoft otrzymała dane źródłowe. Zestaw danych może zawierać dane pozyskane z firmy Microsoft.

Wolumin i przechowywanie

Ten zestaw danych jest przechowywany w formacie Parquet. W 2018 r. łącznie znajduje się około 80 milionów wierszy (2 GB).

Ten zestaw danych zawiera historyczne rekordy z lat 2009–2018. Aby pobrać dane z konkretnego przedziału czasowego, należy użyć ustawień parametrów w zestawie SDK.

Lokalizacja magazynu

Ten zestaw danych jest przechowywany w regionie platformy Azure Wschodnie stany USA. Zalecamy przydzielanie zasobów obliczeniowych w regionie Wschodnie stany USA z uwagi na koligację.

Dodatkowe informacje

Komisja ds. taksówek i limuzyn miasta Nowy Jork (TLC):

Dane zostały zebrane i dostarczone do TLC przez dostawców technologii uczestniczących w programach TPEP/LPEP (Taxicab & Livery Passenger Enhancement Program). Dane dotyczące przejazdów nie zostały utworzone przez TLC i komisja nie gwarantuje rzetelności tych danych.

Wyświetl oryginalną lokalizację zestawu danych i oryginalne warunki użytkowania.

Kolumny

Nazwa Typ danych Unikatowe Wartości (przykład) Opis
doLocationId ciąg 264 74 42 DOLocationID: strefa taksówkowa TLC, w której wyłączono taksometr.
dropoffLatitude double 109,721 40.7743034362793 40.77431869506836 Przestarzałe od lipca 2016
dropoffLongitude (długość geograficzna) double 75,502 -73.95272827148438 -73.95274353027344 Przestarzałe od lipca 2016
Dodatkowych double 202 0.5 1.0 Różne opłaty dodatkowe. Obecnie ta wartość obejmuje tylko opłaty w wysokości 0,50 USD i 1 USD stosowane w godzinach szczytu i w nocy.
fareAmount double 10,367 6.0 5.5 Opłata za czas i odległość według taksometru.
improvementSurcharge ciąg 92 0.3 0 Opłata dodatkowa na fundusz modernizacyjny w wysokości 0,30 USD, naliczana w momencie rozpoczęcia przejazdu (kurs niezaplanowany). Pobieranie tej opłaty dodatkowej rozpoczęto w roku 2015.
lpepDropoffDatetime sygnatura czasowa 58,100,713 2016-05-22 00:00:00 2016-05-09 00:00:00 Data i godzina wyłączenia taksometru.
lpepPickupDatetime sygnatura czasowa 58,157,349 2013-10-22 12:40:36 2014-08-09 15:54:25 Data i godzina włączenia taksometru.
mtaTax double 34 0.5 -0.5 Podatek miejski (MTA) w wysokości 0,50 USD, naliczany automatycznie w zależności od stosowanej taryfy taksometru.
konta pasażerów int 10 1 2 Liczba pasażerów w pojeździe. Tę wartość wprowadza kierowca.
typ płatności int 5 2 1 Kod liczbowy oznaczający metodę płatności za przejazd. 1 = karta kredytowa 2 = gotówka 3 = brak opłaty 4 = spór 5 = nieznany 6 = unieważniona podróż
pickupLatitude (długość geograficzna odbioru) double 95,110 40.721351623535156 40.721336364746094 Przestarzałe od lipca 2016
pickupLongitude (długość geograficzna) double 55,722 -73.84429931640625 -73.84429168701172 Przestarzałe od lipca 2016
puLocationId ciąg 264 74 41 Strefa taksówkowa TLC, w której włączono taksometr.
puMonth int 12 3 5
puYear int 14 2015 2016
rateCodeID int 7 1 5 Kod taryfy stosowanej w momencie zakończenia przejazdu. 1 = standardowa stawka 2 = JFK 3 = Newark 4 = Nassau lub Westchester 5 = wynegocjowana opłata 6 = taryfa grupowa
storeAndFwdFlag ciąg 2 N Y Ta flaga wskazuje, czy rekord przejazdu był w pamięci pojazdu przed wysłaniem do dostawcy, nazywany również "magazynem i przekazywaniem", ponieważ pojazd nie miał połączenia z serwerem. Y = przechowaj i przekieruj przejazd N = nie podróż sklepowa i do przodu
tipAmount double 6,206 1.0 2.0 Kwota napiwku — pole wypełniane automatycznie w przypadku napiwków doliczonych do płatności kartą kredytową. Nie obejmuje napiwków w gotówce.
tollsAmount double 2,150 5.54 5.76 Łączna kwota wszystkich opłat drogowych uiszczonych podczas przejazdu.
totalAmount double 20,188 7.8 6.8 Łączna opłata obciążająca pasażerów. Nie obejmuje napiwków w gotówce.
tripDistance double 7,060 0.9 1.0 Odległość przejazdu w milach według taksometru.
tripType int 3 1 2 Kod określający rodzaj przejazdu: „z ulicy” lub wysłany przez dyspozytora. Jest określany automatycznie na podstawie stosowanej taryfy taksometru, ale może być zmieniony przez kierowcę. 1 = ulica-hail 2 = Wyślij
Vendorid int 2 2 1 Kod wskazujący dostawcę danego rekordu w ramach programu LPEP. 1 = Creative Mobile Technologies, LLC; 2 = VeriFone Inc.

Wersja zapoznawcza

Vendorid lpepPickupDatetime lpepDropoffDatetime liczbowe tripDistance puLocationId doLocationId rateCodeID storeAndFwdFlag typ płatności fareAmount Dodatkowych mtaTax improvementSurcharge tipAmount tollsAmount totalAmount tripType puYear puMonth
2 24.06.2081 17:40:37 2081-06-24 18:42:47 1 16.95 93 117 1 N 1 52 1 0,5 0.3 0 2.16 55.96 1 2081 6
2 28.11.2030 12:19:29 28.11.2030 12:25:37 1 1.08 42 247 1 N 2 6.5 0 0,5 0.3 0 0 7.3 1 2030 11
2 28.11.2030 12:14:50 28.11.2030 12:14:54 1 0.03 42 42 5 N 2 5 0 0 0 0 0 5 2 2030 11
2 14.11.2020 11:38:07 14.11.2020 11:42:22 1 0.63 129 129 1 N 2 4.5 1 0,5 0.3 0 0 6.3 1 2020 11
2 14.11.2020 9:55:36 14.11.2020 10:04:54 1 3,8 82 138 1 N 2 12.5 1 0,5 0.3 0 0 14,3 1 2020 11
2 26.08.2019 16:18:37 26.08.2019 16:19:35 1 0 264 264 1 N 2 1 0 0,5 0.3 0 0 1.8 1 2019 8
2 01.07.2019 8:28:33 01.07.2019 8:32:33 1 0.71 7 7 1 N 1 5 0 0,5 0.3 1.74 0 7.54 1 2019 7
2 01.07.2019 12:04:53 01.07.2019 12:21:56 1 2.71 223 145 1 N 2 13 0,5 0,5 0.3 0 0 14,3 1 2019 7
2 01.07.2019 12:04:11 01.07.2019 12:21:15 1 3.14 166 142 1 N 2 14,5 0,5 0,5 0.3 0 0 18.55 1 2019 7
2 01.07.2019 12:03:37 01.07.2019 12:09:27 1 0,78 74 74 1 N 1 6 0,5 0,5 0.3 1.46 0 8.76 1 2019 7

Dostęp do danych

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

# Display data statistic information
display(nyc_tlc_df, summary = True)

Następne kroki

Wyświetl pozostałe zestawy danych w wykazie Open Datasets danych.