NYC taxislužby & Limousine provize – zelený taxislužbyový záznam cest

Záznamy o cestách zeleným taxíkem obsahují pole zachytávající data a časy vyzvednutí a vysazení, místa vyzvednutí a vysazení, ujeté vzdálenosti, jízdné rozdělené na položky, typy sazeb, typy plateb a počty cestujících nahlášené řidičem.

Poznámka

Microsoft poskytuje otevřené datové sady pro Azure na základě "tak, jak je". Společnost Microsoft neposkytuje žádné záruky, výslovné ani předpokládané záruky ani podmínky týkající se používání datových sad. V rozsahu povoleném vaším místním zákonem společnost Microsoft vylučuje veškerou odpovědnost za jakékoliv škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo trestních, a výsledkem použití datových sad.

Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.

Objem a uchovávání

Tato datová sada se uchovává ve formátu Parquet. K dispozici jsou přibližně 80M řádky (2 GB), celkem 2018.

Tato datová sada obsahuje historické záznamy shromážděné mezi lety 2009 a 2018. Pomocí nastavení parametrů v naší sadě SDK můžete načíst data v určitém časovém rozsahu.

Umístění úložiště

Tato datová sada se uchovává v oblasti Azure Východní USA. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti Východní USA.

Další informace

Newyorská komise pro taxi a limuzíny (TLC):

Data byla shromažďována a poskytnuta NYC taxislužby a Limousine Komisí (TLC) poskytovateli technologií autorizovanými v rámci taxislužby města & jater programu pro rozšíření osobního cestujícího (TPEP/LPEP). Data o jízdách nevytvořila TLC a TLC nečinní žádná prohlášení ohledně přesnosti těchto dat.

Zobrazit původní umístění datové sady a původní výrazy použití

Sloupce

Name Datový typ Jedinečná Hodnoty (ukázka) Popis
doLocationId řetězec 264 74 42 doLocationID – Taxi zóna TLC, ve které se vypnul taxametr
dropoffLatitude double 109 721 40.7743034362793 40.77431869506836 Zastaralé od verze 2016.07
dropoffLongitude double 75 502 -73.95272827148438 -73.95274353027344 Zastaralé od verze 2016.07
velký double 202 0,5 1,0 Ostatní poplatky a přirážky. V současné době to jsou pouze poplatky za jízdu v dopravní špičce a noční jízdu ve výši 0,50 USD a 1 USD.
fareAmount double 10 367 6,0 5,5 Výše jízdného vypočítaná taxametrem na základě času a vzdálenosti
improvementSurcharge řetězec 92 0,3 0 Příplatek 0,30 USD za jízdu z ulice, který se účtuje při nástupu. Tento příplatek se začal vybírat v roce 2015.
lpepDropoffDatetime časové razítko 58 100 713 2016-05-22 00:00:00 2016-05-09 00:00:00 Datum a čas vypnutí taxametru
lpepPickupDatetime časové razítko 58 157 349 2013-10-22 12:40:36 2014-08-09 15:54:25 Datum a čas zapnutí taxametru
mtaTax double 34 0,5 – 0,5 Daň MTA ve výši 0,50 USD, která se automaticky připočte na základě naměřené sazby
passengerCount int 10 1 2 Počet cestujících ve vozidle. Tuto hodnotu zadává řidič.
paymentType int 5 2 1 Číselný kód označující způsob, jakým cestující zaplatil za jízdu. 1 = kreditní karta 2 = hotovost 3 = bez poplatků 4 = spor 5 = neznámý 6 = Zrušená cesta
pickupLatitude double 95 110 40.721351623535156 40.721336364746094 Zastaralé od verze 2016.07
pickupLongitude double 55 722 -73.84429931640625 -73.84429168701172 Zastaralé od verze 2016.07
puLocationId řetězec 264 74 41 Taxi zóna TLC, ve které se zapnul taxametr
puMonth int 12 3 5
puYear int 14 2015 2016
rateCodeID int 7 1 5 Kód konečné sazby použité na konci jízdy. 1 = standardní sazba 2 = JFK 3 = newyorském 4 = Nassau nebo Westchester 5 = vyjednaný tarif 6 = seskupit jízdní
storeAndFwdFlag řetězec 2 N Y Tento příznak označuje, zda záznam o cestě byl uložen v paměti vozidla před odesláním dodavateli, označovaný také jako "Store a přeposlání", protože vozidlo nevytvořilo připojení k serveru. Y = úložiště a předávací cesta N = nejedná se o úložiště a předávací cestu.
tipAmount double 6 206 1,0 2,0 Výše spropitného – Do tohoto pole se automaticky doplní spropitné přes platební kartu. Spropitné v hotovosti se nezahrnuje.
tollsAmount double 2 150 5,54 5,76 Celková výše zaplaceného mýtného během jízdy
totalAmount double 20 188 7,8 6,8 Celková částka účtovaná cestujícím. Nezahrnuje spropitné v hotovosti.
tripDistance double 7 060 0,9 1,0 Ujetá vzdálenost v mílích hlášená taxametrem
tripType int 3 1 2 Kód, který označuje, jestli se jednalo o jízdu z ulice nebo objednanou jízdu přes dispečink, a který se přiřazuje automaticky na základě naměřené sazby, ale který může řidič upravit. 1 = ulice – Hail 2 = odeslání
vendorID int 2 2 1 Kód označující poskytovatele LPEP, který je autorem záznamu. 1 = kreativní mobilní technologie, LLC; 2 = VeriFone Inc.

Preview

vendorID lpepPickupDatetime lpepDropoffDatetime passengerCount tripDistance puLocationId doLocationId rateCodeID storeAndFwdFlag paymentType fareAmount velký mtaTax improvementSurcharge tipAmount tollsAmount totalAmount tripType puYear puMonth
2 6/24/2081 5:40:37 ODP. 6/24/2081 6:42:47 ODP. 1 16,95 93 117 1 N 1 52 1 0,5 0.3 0 2,16 55,96 1 2081 6
2 11/28/2030 12:19:29 DOP. 11/28/2030 12:25:37 DOP. 1 1.08 42 247 1 N 2 6.5 0 0,5 0.3 0 0 7.3 1 2030 11
2 11/28/2030 12:14:50 DOP. 11/28/2030 12:14:54 DOP. 1 0,03 42 42 5 N 2 5 0 0 0 0 0 5 2 2030 11
2 11/14/2020 11:38:07 DOP. 11/14/2020 11:42:22 DOP. 1 0,63 129 129 1 N 2 4.5 1 0,5 0.3 0 0 6.3 1 2020 11
2 11/14/2020 9:55:36 DOP. 11/14/2020 10:04:54 DOP. 1 3.8 82 138 1 N 2 12,5 1 0,5 0.3 0 0 14.3 1 2020 11
2 8/26/2019 4:18:37 ODP. 8/26/2019 4:19:35 ODP. 1 0 264 264 1 N 2 1 0 0,5 0.3 0 0 1.8 1 2019 8
2 7/1/2019 8:28:33 DOP. 7/1/2019 8:32:33 DOP. 1 0,71 7 7 1 N 1 5 0 0,5 0.3 1,74 0 7,54 1 2019 7
2 7/1/2019 12:04:53 DOP. 7/1/2019 12:21:56 DOP. 1 2,71 223 145 1 N 2 13 0,5 0,5 0.3 0 0 14.3 1 2019 7
2 7/1/2019 12:04:11 DOP. 7/1/2019 12:21:15 DOP. 1 3,14 166 142 1 N 2 14.5 0,5 0,5 0.3 0 0 18,55 1 2019 7
2 7/1/2019 12:03:37 DOP. 7/1/2019 12:09:27 DOP. 1 0,78 74 74 1 N 1 6 0,5 0,5 0.3 1,46 0 8,76 1 2019 7

Přístup k datům

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

# Display data statistic information
display(nyc_tlc_df, summary = True)

Další kroky

Podívejte se na zbytek datových sad v katalogu Open DataSets.