NYC 計程車 & 禮車委員會-綠計程車行程記錄

綠色計程車車程記錄包括各種欄位:用以擷取上車和下車日期/時間、上車和下車地點、車程距離、列舉車資、費率類型、付款類型和司機回報的乘客數。

注意

Microsoft 以「現狀」為基礎提供 Azure 開放資料集。 Microsoft 對於您使用資料集不提供任何擔保、明示或默示、保證或條件。 在貴使用者當地法律許可的範圍內,Microsoft 不會對任何損害或損失(包括直接、衍生、特殊、間接、偶發或懲罰性)承擔任何責任,因為您使用資料集。

此資料集是根據 Microsoft 接收來源資料的原始條款所提供。 資料集可能包含源自 Microsoft 的資料。

磁片區和保留期

此資料集以 Parquet 格式儲存, 80M 資料列 (2 GB) 總共2018個。

此資料集包含從 2009 年累積到 2018 年的歷程記錄。 在我們的 SDK 中,您可以使用參數設定來擷取特定時間範圍內的資料。

儲存位置

此資料集儲存於美國東部 Azure 區域。 建議您在美國東部配置計算資源,以確保同質性。

其他資訊

紐約市計程車委員會 (TLC):

資料由依計程車與載客量加強計劃 (TPEP/LPEP) 授權的技術提供者收集,並提供給紐約市計程車委員會 (TLC)。 行程資料並非由 TLC 所建立,且 TLC 不保證這些資料的準確性。

查看 原始資料集位置原始的使用規定。

資料行

名稱 資料類型 唯一 (範例) 的值 Description
doLocationId string 264 74 42 計程車計費表未涵蓋的 DOLocationID TLC 計程車區域。
dropoffLatitude double 109721 40.7743034362793 40.77431869506836 2016 年 7 月起已淘汰
dropoffLongitude double 75502 -73.95272827148438 -73.95274353027344 2016 年 7 月起已淘汰
extra double 202 0.5 1.0 其他事項和附加費。 目前僅包括美金 $0.50 元和美金 $1 元的尖峰時段與隔夜費用。
fareAmount double 10367 6.0 5.5 計費表計算的時間和距離票價。
improvementSurcharge string 92 0.3 0 叫車行程起跳價另含美金 $0.30 元的改善附加費。 自 2015 年起開始徵收改善附加費。
lpepDropoffDatetime timestamp 58100713 2016-05-22 00:00:00 2016-05-09 00:00:00 計量分離的日期和時間。
lpepPickupDatetime timestamp 58157349 2013-10-22 12:40:36 2014-08-09 15:54:25 計費表計費的日期和時間。
mtaTax double 34 0.5-0。5 根據使用中計費率自動觸發的美金 $0.50 元 MTA 稅金。
passengerCount int 10 1 2 車輛中的乘客數量。 此值由司機輸入。
paymentType int 5 2 1 表示旅客應如何支付行程費用的數字代碼。 1 = 信用卡 2 = 現金 3 = 不收費 4 = 爭議 5 = 未知 6 = 不正確行程
pickupLatitude double 95110 40.721351623535156 40.721336364746094 2016 年 7 月起已淘汰
pickupLongitude double 55722 -73.84429931640625 -73.84429168701172 2016 年 7 月起已淘汰
puLocationId string 264 74 41 計程車計費表已涵蓋的 TLC 計程車區域。
puMonth int 12 3 5
puYear int 14 2015 2016
rateCodeID int 7 1 5 行程結束時生效的最終費率代碼。 1 = 標準速率 2 = JFK 飛往 3 = 紐華克 4 = 拿索或西徹斯特 5 = 協商費用 6 = 群組傳輸
storeAndFwdFlag 字串 2 N Y 此旗標會指出在傳送給廠商之前(也稱為「儲存和轉寄」),是否在車輛記憶體中保留旅程記錄,因為車輛沒有連接到伺服器。 Y = 儲存和轉寄行程 N = 不是儲存和轉寄行程
tipAmount double 6206 1.0 2.0 小費金額 – 此欄位會自動填寫信用卡小費。 不含現金小費。
tollsAmount double 2150 5.54 5.76 行程中支付的所有通行費總金額。
totalAmount double 20188 7.8 6.8 向乘客收取的總金額。 不含現金小費。
tripDistance double 7060 0.9 1.0 計程車計費表所報告的經過行程距離 (英哩)。
tripType int 3 1 2 此代碼指出行程屬於街道叫車或是派遣 (根據使用中的計量費率自動指派,但可以由司機變更)。 1 = 街道-hail 2 = 分派
vendorID int 2 2 1 指出提供記錄的 LPEP 提供者代碼。 1 = 創意的行動技術,LLC;2 = VeriFone Inc。

預覽

vendorID lpepPickupDatetime lpepDropoffDatetime passengerCount tripDistance puLocationId doLocationId rateCodeID storeAndFwdFlag paymentType fareAmount extra mtaTax improvementSurcharge tipAmount tollsAmount totalAmount tripType puYear puMonth
2 6/24/2081 5:40:37 PM 6/24/2081 6:42:47 PM 1 16.95 93 117 1 N 1 52 1 0.5 0.3 0 2.16 55.96 1 2081 6
2 上午 11/28/2030 12:19:29 上午 11/28/2030 12:25:37 1 1.08 42 247 1 N 2 6.5 0 0.5 0.3 0 0 7.3 1 2030 11
2 上午 11/28/2030 12:14:50 上午 11/28/2030 12:14:54 1 0.03 42 42 5 N 2 5 0 0 0 0 0 5 2 2030 11
2 上午 11/14/2020 11:38:07 上午 11/14/2020 11:42:22 1 0.63 129 129 1 N 2 4.5 1 0.5 0.3 0 0 6.3 1 2020 11
2 上午 11/14/2020 9:55:36 上午 11/14/2020 10:04:54 1 3.8 82 138 1 N 2 12.5 1 0.5 0.3 0 0 14.3 1 2020 11
2 8/26/2019 4:18:37 PM 8/26/2019 4:19:35 PM 1 0 264 264 1 N 2 1 0 0.5 0.3 0 0 1.8 1 2019 8
2 上午 7/1/2019 8:28:33 上午 7/1/2019 8:32:33 1 0.71 7 7 1 N 1 5 0 0.5 0.3 1.74 0 7.54 1 2019 7
2 上午 7/1/2019 12:04:53 上午 7/1/2019 12:21:56 1 2.71 223 145 1 N 2 13 0.5 0.5 0.3 0 0 14.3 1 2019 7
2 上午 7/1/2019 12:04:11 上午 7/1/2019 12:21:15 1 3.14 166 142 1 N 2 14.5 0.5 0.5 0.3 0 0 18.55 1 2019 7
2 上午 7/1/2019 12:03:37 上午 7/1/2019 12:09:27 1 0.78 74 74 1 N 1 6 0.5 0.5 0.3 1.46 0 8.76 1 2019 7

資料存取

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

# Display data statistic information
display(nyc_tlc_df, summary = True)

下一步

開啟的資料集目錄中,查看資料集的其餘部分。