NYC Taxi & Commission – green taxi trip records

Den gröna taxins färdposter innehåller fält som visar datum och tid för upphämtning och avlämning, plats för upphämtning och avlämning, körsträcka, specificerade priser, tarifftyper, betalningssätt och förarrapporterade passagerarantal.

Anteckning

Microsoft tillhandahåller Azure Open Datasets på "i sin"-basis. Microsoft ger inga garantier, uttryckliga eller underförstådda, avseende din användning av datamängderna. I den utsträckning som tillåts enligt din lokala lag frånsäger sig Microsoft allt ansvar för eventuella skador eller förluster, inklusive direkta skador, följdskador, särskilda, indirekta, oförutsedda eller oförutsedda skador, till följd av din användning av datamängderna.

Datamängden tillhandahålls enligt de ursprungliga villkor som gällde när Microsoft tog emot källdatan. Datamängden kan innehålla data från Microsoft.

Volym och kvarhållning

Datamängden lagras i Parquet-format. Det finns cirka 80 miljoner rader (2 GB) sammanlagt 2018.

Datamängden innehåller historiska poster som ackumulerats från 2009 till 2018. Du kan använda parameterinställningar i vår SDK till att hämta data inom ett specifikt tidsintervall.

Lagringsplats

Datamängden lagras i Azure-regionen Östra USA. Vi rekommenderar att beräkningsresurser tilldelas i Östra USA av tillhörighetsskäl.

Ytterligare information

NYC Taxi and Limousine Commission (TLC):

Datan samlades in och överlämnades till NYC Taxi and Limousine Commission (TLC) av teknikleverantörer som är godkända av Taxicab & Livery Passenger Enhancement Programs (TPEP/LPEP). Färddatan skapades inte av TLC och TLC garanterar inte korrektheten i dessa data.

Visa den ursprungliga datauppsättningens plats och de ursprungliga användningsvillkoren.

Kolumner

Name Datatyp Unik Värden (exempel) Beskrivning
doLocationId sträng 264 74 42 DOLocationID för den TLC-taxizon där taxametern kopplades från.
dropoffLatitude double 109,721 40.7743034362793 40.77431869506836 Inaktuellt från och med 2016.07
dropoffLongitude double 75,502 -73.95272827148438 -73.95274353027344 Inaktuellt från och med 2016.07
Extra double 202 0.5 1.0 Övriga tilläggsavgifter. Detta inkluderar för närvarande endast avgifter på $0,50 och $1 vid rusningstrafik och på natten.
fareAmount double 10,367 6.0 5.5 Taxan för tid och avstånd som beräknas av mätaren.
improvementSurcharge sträng 92 0.3 0 $0,30 i förbättringsavgift för utvärderade gatuanropade resor vid flaggan. Förbättringsavgiften började användas 2015.
lpepDropoffDatetime timestamp 58,100,713 2016-05-22 00:00:00 2016-05-09 00:00:00 Datum och tid då mätaren kopplades från.
lpepPickupDatetime timestamp 58,157,349 2013-10-22 12:40:36 2014-08-09 15:54:25 Datum och tid då mätaren användes.
mtaTax double 34 0.5 -0.5 $0,50 i MTA-skatt tillämpas automatiskt baserat på den mätartaxa som används.
passengerCount int 10 1 2 Antal passagerare i fordonet. Detta är ett värde som anges av föraren.
paymentType int 5 2 1 En numerisk kod som visar hur passageraren betalade för resan. 1 = Kreditkort 2 = Kontanter 3 = Ingen avgift 4 = Bestrida 5 = Okänd 6 = Annullerad resa
pickupLatitude double 95,110 40.721351623535156 40.721336364746094 Inaktuellt från och med 2016.07
pickupLongitude double 55,722 -73.84429931640625 -73.84429168701172 Inaktuellt från och med 2016.07
puLocationId sträng 264 74 41 TLC-taxizon där taxametern användes.
puMonth int 12 3 5
puYear int 14 2015 2016
rateCodeID int 7 1 5 Den slutliga kodtaxa som används när resan avslutats. 1 = Standardpris 2 = JFK 3 = Newark 4 = Nassau eller Westchester 5 = Förhandlat pris 6 = Gruppresa
storeAndFwdFlag sträng 2 N Y Den här flaggan anger om färdposten förvarades i fordonsminnet innan den skickades till leverantören, även kallat "lagra och vidarebefordra", eftersom fordonet inte hade någon anslutning till servern. Y = lagra och vidarebefordra resa N = inte en butik och vidarebefordra resa
tipAmount double 6,206 1.0 2.0 Dricksbelopp – Det här fältet fylls i automatiskt med kreditkortsdricks. Kontantdricks visas inte.
tollsAmount double 2,150 5.54 5.76 Sammanlagt belopp för alla tullavgifter som betalats under resan.
totalAmount double 20,188 7.8 6.8 Det totala belopp som debiteras passagerarna. Kontantdricks ingår inte.
tripDistance double 7,060 0.9 1.0 Den utförda resans längd i miles enligt taxametern.
tripType int 3 1 2 En kod visar om taxin anropades på gatan eller var en beställning som automatiskt tilldelas, baserat på den mätartaxa som användes men som kan ändras av föraren. 1 = Gatulyssnare 2 = Dispatch
vendorID int 2 2 1 En kod som visar den LPEP-leverantör som tillhandahöll registret. 1 = Creative Mobile Technologies, LLC; 2= VeriFone Inc.

Förhandsgranskning

vendorID lpepPickupDatetime lpepDropoffDatetime passengerCount tripDistance puLocationId doLocationId rateCodeID storeAndFwdFlag paymentType fareAmount Extra mtaTax improvementSurcharge tipAmount tollsAmount totalAmount tripType puYear puMonth
2 2081-06-24 17:40:37 2081-06-24 18:42:47 1 16.95 93 117 1 N 1 52 1 0,5 0.3 0 2.16 55.96 1 2081 6
2 2030-11-28 12:19:29 2030-11-28 12:25:37 1 1.08 42 247 1 N 2 6.5 0 0,5 0.3 0 0 7.3 1 2030 11
2 2030-11-28 12:14:50 2030-11-28 12:14:54 1 0.03 42 42 5 N 2 5 0 0 0 0 0 5 2 2030 11
2 2020-11-14 11:38:07 2020-11-14 11:42:22 1 0.63 129 129 1 N 2 4,5 1 0,5 0.3 0 0 6.3 1 2020 11
2 2020-11-14 09:55:36 2020-11-14 10:04:54 1 3,8 82 138 1 N 2 12.5 1 0,5 0.3 0 0 14,3 1 2020 11
2 2019-08-26 16:18:37 2019-08-26 16:19:35 1 0 264 264 1 N 2 1 0 0,5 0.3 0 0 1.8 1 2019 8
2 2019-07-01 08:28:33 2019-07-01 08:32:33 1 0.71 7 7 1 N 1 5 0 0,5 0.3 1.74 0 7.54 1 2019 7
2 2019-07-01 12:04:53 2019-07-01 12:21:56 1 2.71 223 145 1 N 2 13 0,5 0,5 0.3 0 0 14,3 1 2019 7
2 2019-07-01 12:04:11 2019-07-01 12:21:15 1 3.14 166 142 1 N 2 14,5 0,5 0,5 0.3 0 0 18.55 1 2019 7
2 2019-07-01 12:03:37 2019-07-01 12:09:27 1 0,78 74 74 1 N 1 6 0,5 0,5 0.3 1.46 0 8.76 1 2019 7

Dataåtkomst

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

# Display data statistic information
display(nyc_tlc_df, summary = True)

Nästa steg

Visa resten av datauppsättningarna i Open Datasets katalogen.