Komisja ds. taksówek w NYC & — rekordy przejazdów żółtymi taksówkami

Rekordy dotyczące przejazdów żółtymi taksówkami zawierają pola daty i godziny rozpoczęcia oraz zakończenia kursu, miejsca rozpoczęcia i zakończenia kursu, pokonanej odległości, wyszczególnionych opłat, taryfy, metody płatności oraz liczby pasażerów podanej przez kierowcę.

Uwaga

Firma Microsoft Azure Open Datasets na zasadzie "jak jest". Firma Microsoft nie udziela żadnych gwarancji, jawnych ani dorozumianych, ani nie udziela żadnych warunków w odniesieniu do korzystania z zestawów danych. W zakresie dozwolonym przez prawo lokalne Microsoft zrzeka się wszelkiej odpowiedzialności za wszelkie szkody lub straty, w tym szkody bezpośrednie, wynikowe, specjalne, pośrednie, pośrednie, przypadkowe lub karalne wynikające z używania zestawów danych.

Zestaw danych jest udostępniany zgodnie z pierwotnymi warunkami, na jakich firma Microsoft otrzymała dane źródłowe. Zestaw danych może zawierać dane pozyskane z firmy Microsoft.

Wolumin i przechowywanie

Ten zestaw danych jest przechowywany w formacie Parquet. W 2018 r. łącznie jest około 1,5B wierszy (50 GB).

Ten zestaw danych zawiera historyczne rekordy z lat 2009–2018. Aby pobrać dane z konkretnego przedziału czasowego, należy użyć ustawień parametrów w zestawie SDK.

Lokalizacja magazynu

Ten zestaw danych jest przechowywany w regionie platformy Azure Wschodnie stany USA. Zalecamy przydzielanie zasobów obliczeniowych w regionie Wschodnie stany USA z uwagi na koligację.

Dodatkowe informacje

Komisja ds. taksówek i limuzyn miasta Nowy Jork (TLC):

Dane zostały zebrane i dostarczone do TLC przez dostawców technologii uczestniczących w programach TPEP/LPEP (Taxicab & Livery Passenger Enhancement Program). Dane dotyczące przejazdów nie zostały utworzone przez TLC i komisja nie gwarantuje rzetelności tych danych.

Wyświetl oryginalną lokalizację zestawu danych i oryginalne warunki użytkowania.

Kolumny

Nazwa Typ danych Unikatowe Wartości (przykład) Opis
doLocationId ciąg 265 161 236 Strefa taksówkowa TLC, w której wyłączono taksometr.
endLat double 961,994 41.366138 40.75
endLon double 1,144,935 -73.137393 -73.9824
Dodatkowych double 877 0.5 1.0 Różne opłaty dodatkowe. Obecnie ta wartość obejmuje tylko opłaty w wysokości 0,50 USD i 1 USD stosowane w godzinach szczytu i w nocy.
fareAmount double 18,935 6.5 4.5 Opłata za czas i odległość według taksometru.
improvementSurcharge ciąg 60 0.3 0 Opłata dodatkowa na fundusz modernizacyjny w wysokości 0,30 USD, naliczana w momencie rozpoczęcia przejazdu. Pobieranie tej opłaty dodatkowej rozpoczęto w roku 2015.
mtaTax double 360 0.5 -0.5 Podatek miejski (MTA) w wysokości 0,50 USD, naliczany automatycznie w zależności od stosowanej taryfy taksometru.
konta pasażerów int 64 1 2 Liczba pasażerów w pojeździe. Tę wartość wprowadza kierowca.
typ płatności ciąg 6,282 CSH CRD Kod liczbowy oznaczający metodę płatności za przejazd. 1 = karta kredytowa; 2 = gotówka; 3 = Brak opłat; 4 = Spór; 5 = Nieznany; 6 = przejazd unieważniony.
puLocationId ciąg 266 237 161 Strefa taksówkowa TLC, w której włączono taksometr.
puMonth int 12 3 5
puYear int 29 2012 2011
rateCodeId int 56 1 2 Kod taryfy stosowanej w momencie zakończenia przejazdu. 1 = standardowa stawka; 2 = JFK; 3 = Newark; 4 = Nassau lub Westchester; 5 = taryfa negocjowana; 6 = przejazd grupowy.
startLat double 833,016 41.366138 40.7741
startLon double 957,428 -73.137393 -73.9821
storeAndFwdFlag ciąg 8 N 0 Ta flaga wskazuje, czy rekord przejazdu był przechowywane w pamięci pojazdu przed wysłaniem do dostawcy, znanego również jako "przechowywanie i przekazywanie", ponieważ pojazd nie miał połączenia z serwerem. Y = przejazd sklepu i przesyłania dalej; N = nie jest przejazdem sklepu i przesyłania dalej.
tipAmount double 12,121 1.0 2.0 To pole jest wypełniane automatycznie w przypadku napiwków doliczonych do płatności kartą kredytową. Nie obejmuje napiwków w gotówce.
tollsAmount double 6,634 5.33 4.8 Łączna kwota wszystkich opłat drogowych uiszczonych podczas przejazdu.
totalAmount double 39,707 7.0 7.8 Łączna opłata obciążająca pasażerów. Nie obejmuje napiwków w gotówce.
tpepDropoffDateTime sygnatura czasowa 290,185,010 2010-11-07 01:29:00 2013-11-03 01:22:00 Data i godzina wyłączenia taksometru.
tpepPickupDateTime sygnatura czasowa 289,948,585 2010-11-07 01:00:00 2009-11-01 01:05:00 Data i godzina włączenia taksometru.
tripDistance double 14,003 1.0 0.9 Odległość przejazdu w milach według taksometru.
Vendorid ciąg 7 VTS CMT Kod wskazujący dostawcę danego rekordu w ramach programu TPEP. 1 = Creative Mobile Technologies, LLC; 2 = VeriFone Inc.
Vendorid int 2 2 1 Kod wskazujący dostawcę danego rekordu w ramach programu LPEP. 1 = Creative Mobile Technologies, LLC; 2 = VeriFone Inc.

Wersja zapoznawcza

Vendorid tpepPickupDateTime tpepDropoffDateTime passengerCount tripDistance puLocationId doLocationId rateCodeId storeAndFwdFlag typ płatności fareAmount Dodatkowych mtaTax ulepszenieNapłać tipAmount tollsAmount totalAmount puYear puMonth
2 24.01.2088 12:25:39 24.01.2088 7:28:25 1 4.05 24 162 1 N 2 14,5 0 0,5 0.3 0 0 15,3 2088 1
2 24.01.2088 12:15:42 24.01.2088 12:19:46 1 0.63 41 166 1 N 2 4.5 0 0,5 0.3 0 0 5.3 2088 1
2 2084-11-4 12:32:24 11/4/2084 12:47:41 PM 1 1,34 238 236 1 N 2 10 0 0,5 0.3 0 0 10,8 2084 11
2 2084-11-4 12:25:53 2084-11-4 12:29:00 1 0.32 238 238 1 N 2 4 0 0,5 0.3 0 0 4.8 2084 11
2 2084-11-4 12:08:33 2084-11-4 12:22:24 1 1.85 236 238 1 N 2 10 0 0,5 0.3 0 0 10,8 2084 11
2 11/4/2084 11:41:35 2084-11-4 11:59:41 1 1.65 68 237 1 N 2 12.5 0 0,5 0.3 0 0 13.3 2084 11
2 2084-11-4 11:27:28 2084-11-4 11:39:52 1 1.07 170 68 1 N 2 9 0 0,5 0.3 0 0 9.8 2084 11
2 11/4/2084 11:19:06 11/4/2084 11:26:44 1 1.3 107 170 1 N 2 7,5 0 0,5 0.3 0 0 8.3 2084 11
2 11/4/2084 11:02:59 11/4/2084 11:15:51 1 1.85 113 137 1 N 2 10 0 0,5 0.3 0 0 10,8 2084 11
2 11/4/2084 10:46:05 11/4/2084 10:50:09 1 0.62 231 231 1 N 2 4.5 0 0,5 0.3 0 0 5.3 2084 11

Dostęp do danych

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser

end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Następne kroki

Wyświetl pozostałe zestawy danych w katalogu Open Datasets katalogu.