NYC 計程車 & 禮車委員會-For-Hire 車輛 (FHV) 行程記錄

租用車輛 (“FHV”) 行程記錄包括擷取分派公司授權號碼以及上車日期、時間和計程車區域位置識別碼 (下列形狀檔) 的欄位。 這些記錄是根據公司提交的 FHV 行程記錄所產生。

注意

Microsoft 以「現狀」為基礎提供 Azure 開放資料集。 Microsoft 對於您使用資料集不提供任何擔保、明示或默示、保證或條件。 在貴使用者當地法律許可的範圍內,Microsoft 不會對任何損害或損失(包括直接、衍生、特殊、間接、偶發或懲罰性)承擔任何責任,因為您使用資料集。

此資料集是根據 Microsoft 接收來源資料的原始條款所提供。 資料集可能包含源自 Microsoft 的資料。

磁片區和保留期

此資料集以 Parquet 格式儲存, 500M 資料列 (5 GB) ,從2018。

此資料集包含從 2009 年累積到 2018 年的歷程記錄。 在我們的 SDK 中,您可以使用參數設定來擷取特定時間範圍內的資料。

儲存位置

此資料集儲存於美國東部 Azure 區域。 建議您在美國東部配置計算資源,以確保同質性。

其他資訊

紐約市計程車委員會 (TLC):

資料由依計程車與載客量加強計劃 (TPEP/LPEP) 授權的技術提供者收集,並提供給紐約市計程車委員會 (TLC)。 行程資料並非由 TLC 所建立,且 TLC 不保證這些資料的準確性。

查看 原始資料集位置原始的使用規定。

資料行

名稱 資料類型 唯一 (範例) 的值 Description
dispatchBaseNum string 1144 B02510 B02764 已分派行程之公司的 TLC 公司授權號碼
doLocationId string 267 265 132 行程結束的 TLC 計程車區域。
dropOffDateTime timestamp 57110352 2017-07-31 23:59:00 2017-10-15 00:44:34 行程下車的日期和時間。
pickupDateTime timestamp 111270396 2016-08-16 00:00:00 2016-08-17 00:00:00 行程接送的日期和時間。
puLocationId string 266 79 161 行程開始的 TLC 計程車區域。
puMonth int 12 1 12
puYear int 5 2018 2017
srFlag string 44 1 2 指出行程是否為大量 FHV 公司所提供的共用下鏈的一部分 (例如 Uber 集區、Lyft 行) 。 針對共乘的行程,值為 1。 針對非共乘的行程,此欄位為 Null。 注意:針對大多數大量 FHV 公司,只會標幟在旅途中所要求並與另一個共乘要求配對的共乘。 但是,Lyft (公司執照編號 B02510 + B02844) 也會標幟要求共乘但未成功與另一位乘客配對共乘的行程,因此這兩間公司的 SR_Flag = 1 行程記錄可能是指共乘行程鏈中的第一趟行程,也可能是指已要求但未配對到乘客的共乘行程。 使用者可以預期 Lyft 成功完成的共乘行程數量會超量。

預覽

dispatchBaseNum pickupDateTime dropOffDateTime puLocationId doLocationId srFlag puYear puMonth
B03157 6/30/2019 11:59:57 PM 上午 7/1/2019 12:07:21 264 null null 2019 6
B01667 6/30/2019 11:59:56 PM 上午 7/1/2019 12:28:06 264 null null 2019 6
B02849 6/30/2019 11:59:55 PM 上午 7/1/2019 12:14:10 264 null null 2019 6
B02249 6/30/2019 11:59:53 PM 上午 7/1/2019 12:15:53 264 null null 2019 6
B00887 6/30/2019 11:59:48 PM 上午 7/1/2019 12:29:29 264 null null 2019 6
B01626 6/30/2019 11:59:45 PM 上午 7/1/2019 12:18:20 264 null null 2019 6
B01259 6/30/2019 11:59:44 PM 上午 7/1/2019 12:03:15 264 null null 2019 6
B01145 6/30/2019 11:59:43 PM 上午 7/1/2019 12:11:15 264 null null 2019 6
B00887 6/30/2019 11:59:42 PM 上午 7/1/2019 12:34:21 264 null null 2019 6
B00821 6/30/2019 11:59:40 PM 上午 7/1/2019 12:02:57 264 null null 2019 6

資料存取

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

下一步

開啟的資料集目錄中,查看資料集的其餘部分。