Comissão de Táxis & Limousine - registos amarelos da viagem de táxi

Os registos de corridas de "yellow taxi" incluem campos que registam as datas/horas de recolha e entrega, as localizações de recolha e entrega, as distâncias das corridas, tarifas discriminadas, tipos de taxas, tipos de pagamentos e contagens de passageiros feitas pelo motorista.

Nota

A Microsoft fornece conjuntos de dados Azure Open numa base "ase". A Microsoft não oferece garantias, expressas ou implícitas, garantias ou condições relativas à utilização dos conjuntos de dados. Na medida do permitido pela sua legislação local, a Microsoft declina toda a responsabilidade por quaisquer danos ou perdas, incluindo danos ou perdas diretas, consequentes, especiais, indiretos, incidentais ou punitivas, resultantes da utilização dos conjuntos de dados.

Este conjunto de dados é disponibilizado de acordo com os termos originais em que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados obtidos junto da Microsoft.

Volume e retenção

Este conjunto de dados é armazenado no formato Parquet. Existem cerca de 1,5B linhas (50 GB) no total a partir de 2018.

Este conjunto de dados contém registos históricos acumulados de 2009 a 2018. Pode utilizar as definições de parâmetros no nosso SDK para obter os dados num intervalo de tempo específico.

Localização do armazenamento

Este conjunto de dados é armazenado na região do Azure E.U.A. Leste. A alocação de recursos de computação nos E.U.A. Leste é recomendada por questões de afinidade.

Informações adicionais

Comissão de Táxis e Limusinas (TLC) de Nova Iorque:

Os dados foram recolhidos e fornecidos à Comissão de Táxis e Limusinas (TLC) de Nova Iorque por fornecedores de tecnologia autorizados ao abrigo dos Programas Taxicab e Livery Passenger Enhancement (TPEP/LPEP). Os dados das corridas não foram criados pela TLC, a qual não assume qualquer responsabilidade pela exatidão desses dados.

Ver a localização original do conjunto de dados e os termos de utilização originais.

Colunas

Name Tipo de dados Exclusivo Valores (amostra) Description
doLocationId string 265 161 236 A Zona de Táxi da TLC na qual o taxímetro foi desligado.
endLat double 961,994 41.366138 40.75
endLon double 1,144,935 -73.137393 -73.9824
extra double 877 0.5 1.0 Extras e outras cobranças diversas. Atualmente, só inclui a hora de ponta de 0,50 $ e de 1,00 $ e a bandeirada com a sobretaxa noturna.
fareAmount double 18,935 6.5 4.5 A bandeirada de hora e distância calculada pelo taxímetro.
melhoriaSSurcharge string 60 0.3 0 Sobretaxa de melhoria ambiental de 0,30 $ para viagens com bandeirada. A sobretaxa de melhoria começou a ser cobrada em 2015.
mtaTax double 360 0.5 -0.5 Taxa de 0,50 $ da Área Metropolitana que é acionada automaticamente com base na bandeirada do taxímetro que está a ser utilizada.
passageiroso int 64 1 2 O número de passageiros no veículo. Este valor é introduzido pelo motorista.
tipo de pagamento string 6,282 CSH CRD Um código numérico que significa o modo como o passageiro pagou a viagem. 1= Cartão de crédito; 2= Dinheiro; 3= Sem custo; 4= Disputa; 5= Desconhecido; 6= Viagem vazia.
puLocationId string 266 237 161 A Zona de Táxi da TLC na qual o taxímetro foi ligado.
puMonth int 12 3 5
puYear int 29 2012 2011
rateCodeId int 56 1 2 O código da tarifa final em vigor no final da viagem. 1= Taxa normal; 2= JFK; 3= Newark; 4= Nassau ou Westchester; 5= Tarifa negociada; 6= Passeio em grupo.
startLat double 833,016 41.366138 40.7741
startLon double 957,428 -73.137393 -73.9821
lojaAndFwdFlag string 8 N 0 Esta bandeira indica se o registo da viagem foi mantido na memória do veículo antes de enviar ao vendedor, também conhecido como "armazenar e avançar", porque o veículo não tinha uma ligação ao servidor. Y= loja e viagem para a frente; N= não uma loja e viagem antecipada.
tipAmount double 12,121 1.0 2.0 Este campo é preenchido automaticamente para gorjetas pagas com cartão de crédito. Não inclui gorjetas pagas em dinheiro.
portagensAmont double 6,634 5.33 4.8 Montante total de todas as portagens pagas na viagem.
totalAmonto double 39,707 7.0 7.8 O montante total cobrado aos passageiros. Não inclui gorjetas pagas em dinheiro.
tpepDropoffDateTime carimbo de data/hora 290,185,010 2010-11-07 01:29:00 2013-11-03 01:22:00 A data e hora em que o taxímetro foi desativado.
tpepPickupDateTime carimbo de data/hora 289,948,585 2010-11-07 01:00:00 2009-11-01 01:05:00 A data e hora em que o taxímetro foi ativado.
tripDistance double 14,003 1.0 0.9 A distância percorrida da viagem em milhas, conforme mostrada no taxímetro.
vendorID string 7 VTS CMT Um código que indica o fornecedor TPEP que forneceu o registo. 1= Tecnologias Móveis Criativas, LLC; 2= VeriFone Inc.
vendorID int 2 2 1 Um código que indica o fornecedor LPEP que forneceu o registo. 1= Tecnologias Móveis Criativas, LLC; 2= VeriFone Inc.

Pré-visualizar

vendorID tpepPickupDateTime tpepDropoffDateTime passageiroso tripDistance puLocationId doLocationId rateCodeId lojaAndFwdFlag tipo de pagamento fareAmount extra mtaTax melhoriaSSurcharge tipAmount portagensAmont totalAmonto puYear puMonth
2 1/24/2088 12:25:39 1/24/2088 7:28:25 1 4.05 24 162 1 N 2 14,5 0 0,5 0.3 0 0 15,3 2088 1
2 1/24/2088 12:15:42 1/24/2088 12:19:46 1 0.63 41 166 1 N 2 4,5 0 0,5 0.3 0 0 5.3 2088 1
2 11/4/2084 12:32:24 11/4/2084 12:47:41 1 1.34 238 236 1 N 2 10 0 0,5 0.3 0 0 10.8 2084 11
2 11/4/2084 12:25:53 11/4/2084 12:29:00 1 0.32 238 238 1 N 2 4 0 0,5 0.3 0 0 4.8 2084 11
2 11/4/2084 12:08:33 11/4/2084 12:22:24 1 1.85 236 238 1 N 2 10 0 0,5 0.3 0 0 10.8 2084 11
2 11/4/2084 11:41:35 11/4/2084 11:59:41 1 1.65 68 237 1 N 2 12.5 0 0,5 0.3 0 0 13.3 2084 11
2 11/4/2084 11:27:28 11/4/2084 11:39:52 1 1.07 170 68 1 N 2 9 0 0,5 0.3 0 0 9.8 2084 11
2 11/4/2084 11:19:06 11/4/2084 11:26:44 1 1.3 107 170 1 N 2 7,5 0 0,5 0.3 0 0 8.3 2084 11
2 11/4/2084 11:02:59 11/4/2084 11:15:51 1 1.85 113 137 1 N 2 10 0 0,5 0.3 0 0 10.8 2084 11
2 11/4/2084 10:46:05 11/4/2084 10:50:09 1 0.62 231 231 1 N 2 4,5 0 0,5 0.3 0 0 5.3 2084 11

Acesso a dados

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser

end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Passos seguintes

Ver o resto dos conjuntos de dados no catálogo Open Datasets.