NYC 計程車和豪華轎車委員會 - 黃色計程車車程記錄

黃色計程車車程記錄包括各種欄位:用以擷取上車和下車日期/時間、上車和下車地點、車程距離、列舉車資、費率類型、付款類型和司機回報的乘客數。

注意

Microsoft 會以「如目前」為基礎提供 Azure 開放數據集。 Microsoft 不會就您使用數據集做出任何明示或默示擔保或條件。 根據當地法律所允許的範圍,Microsoft 會免除因使用數據集而產生的任何損害或損失的所有責任,包括直接、衍生、特殊、間接、附帶或懲罰性。

此資料集是根據 Microsoft 接收來源資料的原始條款所提供。 資料集可能包含源自 Microsoft 的資料。

磁碟區和保留期

此資料集以 Parquet 格式儲存, 截至 2018 年,總共大約有 1.5B 個數據列 (50 GB)。

此資料集包含從 2009 年累積到 2018 年的歷程記錄。 在我們的 SDK 中,您可以使用參數設定來擷取特定時間範圍內的資料。

儲存位置

此資料集儲存於美國東部 Azure 區域。 建議您在美國東部配置計算資源,以確保同質性。

其他資訊

紐約市計程車委員會 (TLC):

資料由依計程車與載客量加強計劃 (TPEP/LPEP) 授權的技術提供者收集,並提供給紐約市計程車委員會 (TLC)。 行程資料並非由 TLC 所建立,且 TLC 不保證這些資料的準確性。

檢視原始數據集位置和原始使用規定。

資料行

名稱 資料類型 唯一 Values (sample) 描述
doLocationId string 265 161 236 計程車計費表未涵蓋的 TLC 計程車區域。
endLat double 961,994 41.366138 40.75
endLon double 1,144,935 -73.137393 -73.9824
額外 double 877 0.5 1.0 其他事項和附加費。 目前僅包括美金 $0.50 元和美金 $1 元的尖峰時段與隔夜費用。
fareAmount double 18,935 6.5 4.5 計費表計算的時間和距離票價。
improvementSurcharge string 60 0.3 0 行程起跳價另含美金 $0.30 元的改善附加費。 自 2015 年起開始徵收改善附加費。
mtaTax double 360 0.5 -0.5 根據使用中計費率自動觸發的美金 $0.50 元 MTA 稅金。
passengerCount int 64 1 2 車輛中的乘客數量。 此值由司機輸入。
paymentType string 6,282 CSH CRD 表示旅客應如何支付行程費用的數字代碼。 1= 信用卡;2= 現金;3= 不收費;4= 爭議;5= 未知;6= 無效的車程。
puLocationId string 266 237 161 計程車計費表已涵蓋的 TLC 計程車區域。
puMonth int 12 3 5
puYear int 29 2012 2011
rateCodeId int 56 1 2 行程結束時生效的最終費率代碼。 1= 標準速率;2= JFK;3= 紐瓦克;4= 納斯索或韋斯特切斯特;5= 交涉票價;6= 團體車程。
startLat double 833,016 41.366138 40.7741
startLon double 957,428 -73.137393 -73.9821
storeAndFwdFlag string 8 N 0 此旗標指出,在傳送給廠商之前,行程記錄是否保留在車輛記憶體中,也稱為“儲存和轉寄”,因為車輛沒有與伺服器連接。 Y= 儲存和轉寄行程;N= 不是存放區和轉寄行程。
tipAmount double 12,121 1.0 2.0 此欄位會自動填寫信用卡小費。 不含現金小費。
tollsAmount double 6,634 5.33 4.8 行程中支付的所有通行費總金額。
totalAmount double 39,707 7.0 7.8 向乘客收取的總金額。 不含現金小費。
tpepDropoffDateTime timestamp 290,185,010 2010-11-07 01:29:00 2013-11-03 01:22:00 計量分離的日期和時間。
tpepPickupDateTime timestamp 289,948,585 2010-11-07 01:00:00 2009-11-01 01:05:00 計費表計費的日期和時間。
tripDistance double 14,003 1.0 0.9 計程車計費表所報告的經過行程距離 (英哩)。
vendorID string 7 VTS CMT 指出提供記錄的 TPEP 提供者代碼。 1= 創意行動技術,LLC;2= VeriFone Inc.
vendorID int 2 Z 1 指出提供記錄的 LPEP 提供者代碼。 1= 創意行動技術,LLC;2= VeriFone Inc.

預覽

vendorID tpepPickupDateTime tpepDropoffDateTime passengerCount tripDistance puLocationId doLocationId rateCodeId storeAndFwdFlag paymentType fareAmount 額外 mtaTax improvementSurcharge tipAmount tollsAmount totalAmount puYear puMonth
2 2088/1/24 上午 12:25:39 2088/1/24 上午 7:28:25 1 4.05 24 162 1 2 14.5 0 0.5 0.3 0 0 15.3 2088 1
2 2088/1/24 上午 12:15:42 2088/1/24 上午 12:19:46 1 0.63 41 166 1 2 4.5 0 0.5 0.3 0 0 5.3 2088 1
2 2084/11/4 下午 12:32:24 2084/11/4 下午 12:47:41 1 1.34 238 236 1 2 10 0 0.5 0.3 0 0 10.8 2084 11
2 2084/11/4 下午 12:25:53 2084/11/4 下午 12:29:00 1 0.32 238 238 1 2 4 0 0.5 0.3 0 0 4.8 2084 11
2 2084/11/4 下午 12:08:33 2084/11/4 下午 12:22:24 1 1.85 236 238 1 2 10 0 0.5 0.3 0 0 10.8 2084 11
2 2084/11/4 上午 11:41:35 2084/11/4 上午 11:59:41 1 1.65 68 237 1 2 12.5 0 0.5 0.3 0 0 13.3 2084 11
2 2084/11/4 上午 11:27:28 2084/11/4 上午 11:39:52 1 1.07 170 68 1 2 9 0 0.5 0.3 0 0 9.8 2084 11
2 2084/11/4 上午 11:19:06 2084/11/4 上午 11:26:44 1 1.3 107 170 1 2 7.5 0 0.5 0.3 0 0 8.3 2084 11
2 2084/11/4 上午 11:02:59 2084/11/4 上午 11:15:51 1 1.85 113 137 1 2 10 0 0.5 0.3 0 0 10.8 2084 11
2 2084/11/4 上午 10:46:05 2084/11/4 上午 10:50:09 1 0.62 231 231 1 2 4.5 0 0.5 0.3 0 0 5.3 2084 11

資料存取

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser

end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

下一步

檢視開放式數據集目錄中的其餘數據集