NYC Taxi & Commission - groene taxiritrecords

De groene taxiritrecords bevatten velden met de datums/tijden waarop passagiers zijn opgehaald en afgezet, locaties voor ophalen en afzetten, ritafstanden, in items verdeelde tarieven, tarieftypen, betalingstypen en door de chauffeur gerapporteerde passagiersaantallen.

Notitie

Microsoft biedt Azure Open Datasets op basis van 'as is'. Microsoft biedt geen expliciete of impliciete garanties of voorwaarden met betrekking tot uw gebruik van de gegevenssets. Voor zover dit volgens uw lokale recht is toegestaan, wijst Microsoft alle aansprakelijkheid af voor schade of verliezen, met inbegrip van directe, consequentiële, speciale, indirecte, incidentele of punitieve, die het gevolg zijn van uw gebruik van de gegevenssets.

Deze gegevensset wordt geleverd onder de oorspronkelijke voorwaarden dat Microsoft de brongegevens heeft ontvangen. De gegevensset kan gegevens bevatten die afkomstig zijn van Microsoft.

Volume en retentie

Deze gegevensset wordt opgeslagen in de Parquet-indeling. Vanaf 2018 zijn er in totaal ongeveer 80 miljoen rijen (2 GB).

Deze gegevensset bevat historische records die van 2009 tot en met 2018 heden zijn verzameld. U kunt in onze SDK gebruikmaken van parameterinstellingen om gegevens op te halen binnen een specifiek tijdsbereik.

Opslaglocatie

Deze gegevensset wordt opgeslagen in de Azure-regio US - oost. Het wordt aanbevolen om rekenresources in US - oost toe te wijzen voor affiniteit.

Aanvullende informatie

NYC Taxi and Limousine Commission (TLC):

De gegevens die zijn verzameld en aan de NYC Taxi and Limousine Commission (TLC) zijn gegevens door technologiepartners die bevoegd zijn onder de Taxicab & Livery Passenger Enhancement Programs (TPEP/LPEP). De ritgegevens zijn niet door TLC gemaakt en TLC geeft geen verklaring over de nauwkeurigheid van deze gegevens.

Bekijk de oorspronkelijke locatie van de gegevensset en de oorspronkelijke gebruiksvoorwaarden.

Kolommen

Name Gegevenstype Uniek Waarden (voorbeeld) Beschrijving
doLocationId tekenreeks 264 74 42 De TLC-taxizone voor de DOLocationID waarin de taximeter is uitgeschakeld.
dropoffLatitude double 109,721 40.7743034362793 40.77431869506836 Afgeschaft vanaf 2016.07
dropoffLongitude double 75,502 -73.95272827148438 -73.95274353027344 Afgeschaft vanaf 2016.07
extra double 202 0.5 1.0 Diverse extra kosten en toeslagen. Op dit moment bestaat deze lijst alleen uit de extra kosten van USD 0,50 en USD 1,00 voor ritten in de spits en nachtritten.
fareAmount double 10,367 6.0 5.5 Het tarief op basis van tijd en afstand dat door de meter is berekend.
improvementSurcharge tekenreeks 92 0.3 0 Ritten die zijn beoordeeld voor de verhoging van de toeslag met USD 0,30 voor ritten waarbij de passagier de taxi heeft aangehouden, op het moment van markering. De toeslagen worden vanaf 2015 geheven.
lpepDropoffDatetime tijdstempel 58,100,713 2016-05-22 00:00:00 2016-05-09 00:00:00 De datum en tijd waarop de meter is uitgeschakeld.
lpepPickupDatetime tijdstempel 58,157,349 2013-10-22 12:40:36 2014-08-09 15:54:25 De datum en tijd waarop de meter is ingeschakeld.
mtaTax double 34 0.5 -0.5 MTA-belasting van USD 0,50 wordt automatisch geactiveerd op basis van het berekende tarief dat wordt gebruikt.
passengerCount int 10 1 2 Het aantal passagiers in het voertuig. Deze waarde wordt door de chauffeur ingevoerd.
paymentType int 5 2 1 Een numerieke code waarmee wordt aangeduid hoe de passagier voor de rit heeft betaald. 1 = creditcard 2 = cash 3 = geen kosten 4 = betwisten 5 = onbekend 6 = ongeldige reis
pickupLatitude double 95,110 40.721351623535156 40.721336364746094 Afgeschaft vanaf 2016.07
pickupLongitude double 55,722 -73.84429931640625 -73.84429168701172 Afgeschaft vanaf 2016.07
puLocationId tekenreeks 264 74 41 De taxizone voor TLC waarin de taximeter is ingeschakeld.
puMonth int 12 3 5
puYear int 14 2015 2016
rateCodeID int 7 1 5 De uiteindelijke tariefcode die aan het einde van de reis van toepassing is. 1 = Standard rate 2 = RIJ 3 = Newark 4 = Voorkomen of Westchester 5 = Onderhandeld tarief 6 = Groepsrit
storeAndFwdFlag tekenreeks 2 N Y Deze vlag geeft aan of de ritrecord in het voertuiggeheugen is bewaard voordat deze naar de leverancier werd verzonden, ook wel 'opslaan en doorsturen' genoemd, omdat het voertuig geen verbinding met de server had. Y = reis opslaan en doorsturen N = geen winkel- en doorsturenrit
tipAmount double 6,206 1.0 2.0 Fooibedrag: dit veld wordt automatisch ingevuld voor fooi die met creditcard wordt betaald. Contante fooi wordt niet meegerekend.
tollsAmount double 2,150 5.54 5.76 Het totale bedrag van alle tolheffingen die tijdens de reis zijn betaald.
totalAmount double 20,188 7.8 6.8 Het totale bedrag dat in rekening is gebracht voor de passagiers. Dit is exclusief fooien in contant geld.
tripDistance double 7,060 0.9 1.0 De afgelegde afstand van de reis, in mijl, die door de taximeter wordt gemeld.
tripType int 3 1 2 Een code die aangeeft of de taxi is aangehouden op straat of via een centrale is gestuurd en die automatisch wordt toegewezen op basis van het gebruikte metertarief. Kan door de chauffeur worden gewijzigd. 1 = straatroede 2 = Verzending
vendorID int 2 2 1 Een code die aangeeft welke LPEP-provider het record heeft geleverd. 1 = Creative Mobile Technologies, LLC; 2 = VeriFone Inc.

Preview

vendorID lpepPickupDatetime lpepDropoffDatetime passengerCount tripDistance puLocationId doLocationId rateCodeID storeAndFwdFlag paymentType fareAmount extra mtaTax improvementSurcharge tipAmount tollsAmount totalAmount tripType puYear puMonth
2 24-6-2081 17:40:37 24-6-2081 18:42:47 uur 1 16.95 93 117 1 N 1 52 1 0,5 0,3 0 2.16 55.96 1 2081 6
2 28-11-2030 12:19:29 uur 28-11-2030 12:25:37 uur 1 1.08 42 247 1 N 2 6.5 0 0,5 0,3 0 0 7.3 1 2030 11
2 28-11-2030 12:14:50 uur 28-11-2030 12:14:54 uur 1 0.03 42 42 5 N 2 5 0 0 0 0 0 5 2 2030 11
2 14-11-2020 11:38:07 uur 14-11-2020 11:42:22 uur 1 0.63 129 129 1 N 2 4.5 1 0,5 0,3 0 0 6.3 1 2020 11
2 14-11-2020 9:55:36 uur 14-11-2020 10:04:54 uur 1 3.8 82 138 1 N 2 12.5 1 0,5 0,3 0 0 14.3 1 2020 11
2 26-8-2019 16:18:37 uur 26-8-2019 16:19:35 uur 1 0 264 264 1 N 2 1 0 0,5 0,3 0 0 1.8 1 2019 8
2 1-7-2019 8:28:33 uur 1-7-2019 8:32:33 uur 1 0.71 7 7 1 N 1 5 0 0,5 0,3 1.74 0 7.54 1 2019 7
2 1-7-2019 12:04:53 uur 1-7-2019 12:21:56 1 2.71 223 145 1 N 2 13 0,5 0,5 0,3 0 0 14.3 1 2019 7
2 1-7-2019 12:04:11 uur 1-7-2019 12:21:15 uur 1 3.14 166 142 1 N 2 14.5 0,5 0,5 0,3 0 0 18.55 1 2019 7
2 1-7-2019 12:03:37 uur 1-7-2019 12:09:27 uur 1 0,78 74 74 1 N 1 6 0,5 0,5 0,3 1.46 0 8.76 1 2019 7

Toegang tot gegevens

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

# Display data statistic information
display(nyc_tlc_df, summary = True)

Volgende stappen

Bekijk de rest van de gegevenssets in de Open Datasets catalogus.