NYC Taxi & Taxi Commission – reseposter för gul taxi

Den gula taxins färdposter innehåller fält som visar datum och tid för upphämtning och avlämning, plats för upphämtning och avlämning, körsträcka, specificerade priser, tarifftyper, betalningssätt och förarrapporterade passagerarantal.

Anteckning

Microsoft tillhandahåller Azure Open Datasets på "i sin"-basis. Microsoft ger inga garantier, uttryckliga eller underförstådda, avseende din användning av datamängderna. I den utsträckning som tillåts enligt din lokala lag frånsäger sig Microsoft allt ansvar för eventuella skador eller förluster, inklusive direkta skador, följdskador, särskilda, indirekta, oförutsedda eller oförutsedda skador, till följd av din användning av datamängderna.

Datamängden tillhandahålls enligt de ursprungliga villkor som gällde när Microsoft tog emot källdatan. Datamängden kan innehålla data från Microsoft.

Volym och kvarhållning

Datamängden lagras i Parquet-format. Det finns cirka 1,5 miljarder rader (50 GB) sammanlagt 2018.

Datamängden innehåller historiska poster som ackumulerats från 2009 till 2018. Du kan använda parameterinställningar i vår SDK till att hämta data inom ett specifikt tidsintervall.

Lagringsplats

Datamängden lagras i Azure-regionen Östra USA. Vi rekommenderar att beräkningsresurser tilldelas i Östra USA av tillhörighetsskäl.

Ytterligare information

NYC Taxi and Limousine Commission (TLC):

Datan samlades in och överlämnades till NYC Taxi and Limousine Commission (TLC) av teknikleverantörer som är godkända av Taxicab & Livery Passenger Enhancement Programs (TPEP/LPEP). Färddatan skapades inte av TLC och TLC garanterar inte korrektheten i dessa data.

Visa den ursprungliga datauppsättningens plats och de ursprungliga användningsvillkoren.

Kolumner

Name Datatyp Unik Värden (exempel) Beskrivning
doLocationId sträng 265 161 236 TLC-taxizon där taxametern kopplades från.
endLat double 961,994 41.366138 40.75
endLon double 1,144,935 -73.137393 -73.9824
Extra double 877 0.5 1.0 Övriga tilläggsavgifter. Detta inkluderar för närvarande endast avgifter på $0,50 och $1 vid rusningstrafik och på natten.
fareAmount double 18,935 6.5 4.5 Taxan för tid och avstånd som beräknas av mätaren.
improvementSurcharge sträng 60 0.3 0 $0,30 i förbättringsavgift för utvärderade resor vid flaggan. Förbättringsavgiften började användas 2015.
mtaTax double 360 0.5 -0.5 $0,50 i MTA-skatt tillämpas automatiskt baserat på den mätartaxa som används.
passengerCount int 64 1 2 Antal passagerare i fordonet. Detta är ett värde som anges av föraren.
paymentType sträng 6,282 CSH CRD En numerisk kod som visar hur passageraren betalade för resan. 1 = Kreditkort; 2 = Kontanter; 3 = Ingen avgift; 4 = Bestrid; 5 = Okänd; 6 = Annullerad resa.
puLocationId sträng 266 237 161 TLC-taxizon där taxametern användes.
puMonth int 12 3 5
puYear int 29 2012 2011
rateCodeId int 56 1 2 Den slutliga kodtaxa som används när resan avslutats. 1 = Standardpris; 2 = JFK; 3 = Newark; 4 = Nassau eller Westchester; 5 = Förhandlat pris; 6 = Gruppresa.
startLat double 833,016 41.366138 40.7741
startLon double 957,428 -73.137393 -73.9821
storeAndFwdFlag sträng 8 N 0 Den här flaggan anger om färdposten förvarades i fordonsminnet innan den skickades till leverantören, även kallat "butik och vidarebefordran", eftersom fordonet inte hade någon anslutning till servern. Y = lagra och vidarebefordra resa; N = inte en butik och vidarebefordra resa.
tipAmount double 12,121 1.0 2.0 Det här fältet fylls i automatiskt med kreditkortdricks. Kontantdricks visas inte.
tollsAmount double 6,634 5.33 4.8 Sammanlagt belopp för alla tullavgifter som betalats under resan.
totalAmount double 39,707 7.0 7.8 Det totala belopp som debiteras passagerarna. Kontantdricks ingår inte.
tpepDropoffDateTime timestamp 290,185,010 2010-11-07 01:29:00 2013-11-03 01:22:00 Datum och tid då mätaren kopplades från.
tpepPickupDateTime timestamp 289,948,585 2010-11-07 01:00:00 2009-11-01 01:05:00 Datum och tid då mätaren användes.
tripDistance double 14,003 1.0 0.9 Den utförda resans längd i miles enligt taxametern.
vendorID sträng 7 VTS CMT En kod som anger den TPEP-leverantör som tillhandahöll posten. 1 = Creative Mobile Technologies, LLC; 2= VeriFone Inc.
vendorID int 2 2 1 En kod som visar den LPEP-leverantör som tillhandahöll registret. 1 = Creative Mobile Technologies, LLC; 2= VeriFone Inc.

Förhandsgranskning

vendorID tpepPickupDateTime tpepDropoffDateTime passengerCount tripDistance puLocationId doLocationId rateCodeId storeAndFwdFlag paymentType fareAmount Extra mtaTax improvementSurcharge tipAmount tollsAmount totalAmount puYear puMonth
2 2088-01-24 12:25:39 2088-01-24 07:28:25 1 4.05 24 162 1 N 2 14,5 0 0,5 0.3 0 0 15,3 2088 1
2 2088-01-24 12:15:42 2088-01-24 12:19:46 1 0.63 41 166 1 N 2 4,5 0 0,5 0.3 0 0 5.3 2088 1
2 2084-11-04 12:32:24 2084-11-04 12:47:41 1 1,34 238 236 1 N 2 10 0 0,5 0.3 0 0 10,8 2084 11
2 2084-11-04 12:25:53 2084-11-04 12:29:00 1 0.32 238 238 1 N 2 4 0 0,5 0.3 0 0 4.8 2084 11
2 2084-11-04 12:08:33 2084-11-04 12:22:24 1 1.85 236 238 1 N 2 10 0 0,5 0.3 0 0 10,8 2084 11
2 2084-11-04 11:41:35 2084-11-04 11:59:41 1 1.65 68 237 1 N 2 12.5 0 0,5 0.3 0 0 13.3 2084 11
2 2084-11-04 11:27:28 2084-11-04 11:39:52 1 1.07 170 68 1 N 2 9 0 0,5 0.3 0 0 9.8 2084 11
2 2084-11-04 11:19:06 2084-11-04 11:26:44 1 1.3 107 170 1 N 2 7.5 0 0,5 0.3 0 0 8.3 2084 11
2 2084-11-04 11:02:59 2084-11-04 11:15:51 1 1.85 113 137 1 N 2 10 0 0,5 0.3 0 0 10,8 2084 11
2 2084-11-04 10:46:05 2084-11-04 10:50:09 1 0.62 231 231 1 N 2 4,5 0 0,5 0.3 0 0 5.3 2084 11

Dataåtkomst

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser

end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Nästa steg

Visa resten av datauppsättningarna i Open Datasets katalogen.