NYC Taxi & Limousine Commission - registros amarelos de viagem de táxi

Os registos de corridas de "yellow taxi" incluem campos que registam as datas/horas de recolha e entrega, as localizações de recolha e entrega, as distâncias das corridas, tarifas discriminadas, tipos de taxas, tipos de pagamentos e contagens de passageiros feitas pelo motorista.

Nota

A Microsoft fornece os Conjuntos de Dados Abertos do Azure "no estado em que se encontram". A Microsoft não oferece garantias, expressas ou implícitas, garantias ou condições em relação ao seu uso dos conjuntos de dados. Na medida permitida pela legislação local, a Microsoft se isenta de qualquer responsabilidade por quaisquer danos ou perdas, incluindo diretos, consequenciais, especiais, indiretos, incidentais ou punitivos, resultantes do uso dos conjuntos de dados por parte do cliente.

Este conjunto de dados é disponibilizado de acordo com os termos originais em que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados obtidos junto da Microsoft.

Volume e retenção

Este conjunto de dados é armazenado no formato Parquet. Há cerca de 1,5 bilhões de linhas (50 GB) no total em 2018.

Este conjunto de dados contém registos históricos acumulados de 2009 a 2018. Pode utilizar as definições de parâmetros no nosso SDK para obter os dados num intervalo de tempo específico.

Localização do armazenamento

Este conjunto de dados é armazenado na região do Azure E.U.A. Leste. A alocação de recursos de computação nos E.U.A. Leste é recomendada por questões de afinidade.

Informações adicionais

Comissão de Táxis e Limusinas (TLC) de Nova Iorque:

Os dados foram recolhidos e fornecidos à Comissão de Táxis e Limusinas (TLC) de Nova Iorque por fornecedores de tecnologia autorizados ao abrigo dos Programas Taxicab e Livery Passenger Enhancement (TPEP/LPEP). Os dados das corridas não foram criados pela TLC, a qual não assume qualquer responsabilidade pela exatidão desses dados.

Exiba o local original do conjunto de dados e os termos de uso originais.

Colunas

Name Tipo de dados Exclusivo Values (sample) Description
doLocationId string 265 161 236 A Zona de Táxi da TLC na qual o taxímetro foi desligado.
endLat duplo 961,994 41.366138 40.75
endLon duplo 1,144,935 -73.137393 -73.9824
extra duplo 877 0.5 1.0 Extras e outras cobranças diversas. Atualmente, só inclui a hora de ponta de 0,50 $ e de 1,00 $ e a bandeirada com a sobretaxa noturna.
fareAmount duplo 18,935 6.5 4.5 A bandeirada de hora e distância calculada pelo taxímetro.
melhoriaSobretaxa string 60 0.3 0 Sobretaxa de melhoria ambiental de 0,30 $ para viagens com bandeirada. A sobretaxa de melhoria começou a ser cobrada em 2015.
mtaImposto duplo 360 0.5 -0.5 Taxa de 0,50 $ da Área Metropolitana que é acionada automaticamente com base na bandeirada do taxímetro que está a ser utilizada.
passengerCount número inteiro 64 1 2 O número de passageiros no veículo. Este valor é introduzido pelo motorista.
Tipo de pagamento string 6,282 CSH CRD Um código numérico que significa o modo como o passageiro pagou a viagem. 1= Cartão de crédito; 2= Numerário; 3= Sem encargos; 4= Disputa; 5= Desconhecido; 6= Viagem anulada.
puLocationId string 266 237 161 A Zona de Táxi da TLC na qual o taxímetro foi ligado.
puMês número inteiro 12 3 5
puAno número inteiro 29 2012 2011
rateCodeId número inteiro 56 1 2 O código da tarifa final em vigor no final da viagem. 1= Taxa normal; 2= JFK; 3= Newark; 4= Nassau ou Westchester; 5= Tarifa negociada; 6= Passeio em grupo.
startLat duplo 833,016 41.366138 40.7741
startLon duplo 957,428 -73.137393 -73.9821
storeAndFwdFlag string 8 N 0 Esse sinalizador indica se o registro de viagem foi mantido na memória do veículo antes de enviar ao fornecedor, também conhecido como "armazenar e encaminhar", porque o veículo não tinha uma conexão com o servidor. Y= viagem de armazenamento e encaminhamento; N= não é uma viagem de loja e encaminhamento.
gorjetaMontante duplo 12,121 1.0 2.0 Este campo é preenchido automaticamente para gorjetas pagas com cartão de crédito. Não inclui gorjetas pagas em dinheiro.
PortagensMontante duplo 6,634 5.33 4.8 Montante total de todas as portagens pagas na viagem.
totalAmount duplo 39,707 7.0 7.8 O montante total cobrado aos passageiros. Não inclui gorjetas pagas em dinheiro.
tpepDropoffDateTime carimbo de data/hora 290,185,010 2010-11-07 01:29:00 2013-11-03 01:22:00 A data e hora em que o taxímetro foi desativado.
tpepPickupDateTime carimbo de data/hora 289,948,585 2010-11-07 01:00:00 2009-11-01 01:05:00 A data e hora em que o taxímetro foi ativado.
tripDistância duplo 14,003 1.0 0.9 A distância percorrida da viagem em milhas, conforme mostrada no taxímetro.
ID do fornecedor string 7 VTS CMT Um código que indica o fornecedor TPEP que forneceu o registo. 1= Tecnologias Móveis Criativas, LLC; 2= VeriFone Inc.
ID do fornecedor número inteiro 2 2 1 Um código que indica o fornecedor LPEP que forneceu o registo. 1= Tecnologias Móveis Criativas, LLC; 2= VeriFone Inc.

Pré-visualizar

ID do fornecedor tpepPickupDateTime tpepDropoffDateTime passengerCount tripDistância puLocationId doLocationId rateCodeId storeAndFwdFlag Tipo de pagamento fareAmount extra mtaImposto melhoriaSobretaxa gorjetaMontante PortagensMontante totalAmount puAno puMês
2 24/01/2088 12:25:39 24/01/2088 07:28:25 5 4.05 24 162 5 N 2 14,5 0 0.5 0.3 0 0 15,3 2088 1
2 24/01/2088 12:15:42 24/01/2088 12:19:46 5 0.63 41 166 5 N 2 4,5 0 0.5 0.3 0 0 5.3 2088 1
2 04/11/2084 12:32:24 04/11/2084 12:47:41 5 1.34 238 236 5 N 2 10 0 0.5 0.3 0 0 10.8 2084 11
2 04/11/2084 12:25:53 04/11/2084 12:29:00 5 0.32 238 238 5 N 2 4 0 0.5 0.3 0 0 4.8 2084 11
2 04/11/2084 12:08:33 04/11/2084 12:22:24 5 1.85 236 238 5 N 2 10 0 0.5 0.3 0 0 10.8 2084 11
2 04/11/2084 11:41:35 04/11/2084 11:59:41 5 1.65 68 237 5 N 2 12.5 0 0.5 0.3 0 0 13.3 2084 11
2 04/11/2084 11:27:28 04/11/2084 11:39:52 5 1.07 170 68 5 N 2 9 0 0.5 0.3 0 0 9.8 2084 11
2 04/11/2084 11:19:06 04/11/2084 11:26:44 5 1.3 107 170 5 N 2 7.5 0 0.5 0.3 0 0 8.3 2084 11
2 04/11/2084 11:02:59 04/11/2084 11:15:51 5 1.85 113 137 5 N 2 10 0 0.5 0.3 0 0 10.8 2084 11
2 04/11/2084 10:46:05 04/11/2084 10:50:09 5 0,62 231 231 5 N 2 4,5 0 0.5 0.3 0 0 5.3 2084 11

Acesso a dados

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser

end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Próximos passos

Exiba o restante dos conjuntos de dados no catálogo Open Datasets.