Comissão de & Limousine de Táxis de NYC - registos de viagem de veículos For-Hire (FHV)

Os registos de corridas de Veículos de Aluguer (For-Hire Vehicle, “FHV”) incluem campos que registam o número de licença da central, a data e hora da recolha e o ID da localização da zona do táxi (ficheiro de forma abaixo). Estes registos são gerados a partir das submissões de Registos de Corridas de FHV realizadas pelas centrais.

Nota

A Microsoft fornece conjuntos de dados Azure Open numa base "ase". A Microsoft não oferece garantias, expressas ou implícitas, garantias ou condições relativas à utilização dos conjuntos de dados. Na medida do permitido pela sua legislação local, a Microsoft declina toda a responsabilidade por quaisquer danos ou perdas, incluindo danos ou perdas diretas, consequentes, especiais, indiretos, incidentais ou punitivas, resultantes da utilização dos conjuntos de dados.

Este conjunto de dados é disponibilizado de acordo com os termos originais em que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados obtidos junto da Microsoft.

Volume e retenção

Este conjunto de dados é armazenado no formato Parquet. Existem cerca de 500M linhas (5 GB) a partir de 2018.

Este conjunto de dados contém registos históricos acumulados de 2009 a 2018. Pode utilizar as definições de parâmetros no nosso SDK para obter os dados num intervalo de tempo específico.

Localização do armazenamento

Este conjunto de dados é armazenado na região do Azure E.U.A. Leste. A alocação de recursos de computação nos E.U.A. Leste é recomendada por questões de afinidade.

Informações adicionais

Comissão de Táxis e Limusinas (TLC) de Nova Iorque:

Os dados foram recolhidos e fornecidos à Comissão de Táxis e Limusinas (TLC) de Nova Iorque por fornecedores de tecnologia autorizados ao abrigo dos Programas Taxicab e Livery Passenger Enhancement (TPEP/LPEP). Os dados das corridas não foram criados pela TLC, a qual não assume qualquer responsabilidade pela exatidão desses dados.

Ver a localização original do conjunto de dados e os termos de utilização originais.

Colunas

Name Tipo de dados Exclusivo Valores (amostra) Description
despachoBaseNum string 1,144 B02510 B02764 O número de Licença de Central TLC da central que pediu a viagem
doLocationId string 267 265 132 Zona de Táxi da TLC onde a viagem terminou.
dropOffDateTime carimbo de data/hora 57,110,352 2017-07-31 23:59:00 2017-10-15 00:44:34 A data e a hora do fim da corrida.
pickupDateTime carimbo de data/hora 111,270,396 2016-08-16 00:00:00 2016-08-17 00:00:00 A data e a hora da recolha da viagem.
puLocationId string 266 79 161 Zona de Táxi da TLC onde a viagem começou.
puMonth int 12 1 12
puYear int 5 2018 2017
srFlag string 44 1 2 Indica se a viagem fazia parte de uma cadeia de passeios partilhada oferecida por uma empresa de Alta Volume FHV (por exemplo, Uber Pool, Lyft Line). Para as corridas partilhadas, o valor é 1. Para as viagens não partilhadas, este campo é nulo. OBSERVAÇÃO: Relativamente à maioria das empresas de Serviços de Aluguer de Grande Volume, só são sinalizadas deslocações partilhadas que foram pedidas E corresponderam a outro pedido de viagem partilhada ao longo da jornada. Contudo, a Lyft (números de licenças base B02510 + B02844) também sinaliza viagens nas quais foram pedidas viagens partilhadas, mas em que nenhum outro passageiro correspondeu com êxito para essa partilha. Por esse motivo, os registos de corridas com SR_Flag=1 dessas duas bases poderão significar OU uma primeira viagem numa corrente de viagem partilhada OU uma corrida na qual foi pedida uma viagem partilhada, mas nunca houve correspondência para a mesma. Os utilizadores devem contar com uma contagem excessiva de viagens partilhadas bem-sucedidas realizadas pela Lyft.

Pré-visualizar

despachoBaseNum pickupDateTime dropOffDateTime puLocationId doLocationId srFlag puYear puMonth
B03157 6/30/2019 11:59:57 7/1/2019 12:07:21 264 nulo nulo 2019 6
B01667 6/30/2019 11:59:56 7/1/2019 12:28:06 264 nulo nulo 2019 6
B02849 6/30/2019 11:59:55 PM 7/1/2019 12:14:10 264 nulo nulo 2019 6
B02249 6/30/2019 11:59:53 PM 7/1/2019 12:15:53 264 nulo nulo 2019 6
B00887 6/30/2019 11:59:48 PM 7/1/2019 12:29:29 264 nulo nulo 2019 6
B01626 6/30/2019 11:59:45 PM 7/1/2019 12:18:20 264 nulo nulo 2019 6
B01259 6/30/2019 11:59:44 PM 7/1/2019 12:03:15 264 nulo nulo 2019 6
B01145 6/30/2019 11:59:43 PM 7/1/2019 12:11:15 264 nulo nulo 2019 6
B00887 6/30/2019 11:59:42 PM 7/1/2019 12:34:21 264 nulo nulo 2019 6
B00821 6/30/2019 11:59:40 PM 7/1/2019 12:02:57 264 nulo nulo 2019 6

Acesso a dados

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Passos seguintes

Ver o resto dos conjuntos de dados no catálogo Open Datasets.