Комиссия по такси и лимузинам Нью-Йорка — зеленые записи о поездках на такси

Необработанные записи поездок в такси включают такие поля, как время или дата посадки и высадки пассажиров, пункты посадки и высадки, дальность поездки, детализированные пассажирские тарифы, виды тарифов, виды оплаты и отчет водителя о количестве пассажиров.

Примечание.

Корпорация Майкрософт предоставляет Открытые наборы данных Azure как есть. Корпорация Майкрософт не предоставляет никаких гарантий (явных или подразумеваемых) и не определяет никаких условий в связи с использованием этих наборов данных. В рамках, допускаемых местным законодательством, корпорация Майкрософт отказывается от ответственности за ущерб и убытки (в том числе прямые, косвенные, специальные, опосредованные, случайные и штрафные), понесенные в результате использования вами этих наборов данных.

Этот набор данных предоставляется на тех же условиях, на которых корпорация Майкрософт получила исходные данные. Этот набор может включать данные, полученные от корпорации Майкрософт.

Объем данных и их хранение

Этот набор данных хранится в формате Parquet. Всего на 2018 год насчитывается около 80 миллионов строк (2 ГБ).

Этот набор данных содержит архивные записи, собранные с 2009 по 2018 гг. Вы можете использовать параметры из нашего пакета SDK, чтобы получить данные за определенный диапазон времени.

Расположение хранилища

Этот набор данных хранится в регионе Azure "Восточная часть США". Для обеспечения приближенности рекомендуется выделять вычислительные ресурсы в регионе "Восточная часть США".

Дополнительная информация:

NYC Taxi and Limousine Commission (TLC).

Данные собраны и предоставлены комиссии NYC Taxi and Limousine Commission (TLC) поставщиками технологий, авторизованными в соответствии с программами Taxicab & Livery Passenger Enhancement (TPEP/LPEP). Данные поездок не создавались TLC, и TLC не несет ответственности за их достоверность.

Просмотрите исходное местоположение набора данных и исходные условия использования.

Столбцы

Имя. Тип данных Уникальный Значения (пример) Description
doLocationId строка 264 74 42 Параметр DOLocationID для зона работы такси TLC, в которой был выключен таксометр.
dropoffLatitude двойной точности 109,721 40.7743034362793 40.77431869506836 Данные считаются устаревшими с июля 2016 года.
dropoffLongitude двойной точности 75,502 -73.95272827148438 -73.95274353027344 Данные считаются устаревшими с июля 2016 года.
extra двойной точности 202 0.5 1.0 Прочие начисления и доплаты. Сейчас включает только доплату в размере 0,50 доллара США и 1 доллар США за милю за поездку в час пик и в ночное время.
fareAmount двойной точности 10,367 6.0 5.5 Время и расстояние поездки по таксометру.
improvementSurcharge строка 92 0.3 0 Сбор в размере 0,30 доллара США, если "ловить" такси на улице. Дополнительная плата взимается с 2015 года.
lpepDropoffDatetime TIMESTAMP 58,100,713 2016-05-22 00:00:00 2016-05-09 00:00:00 Дата и время выключения таксометра.
lpepPickupDatetime TIMESTAMP 58,157,349 2013-10-22 12:40:36 2014-08-09 15:54:25 Дата и время включения таксометра.
mtaTax двойной точности 34 0.5 -0.5 Налог MTA в сумме 0,50 доллара США, который автоматически начисляется в зависимости от применяемого тарифа.
passengerCount INT 10 1 2 Количество пассажиров такси. Это значение указывает водитель.
paymentType INT 5 2 1 Код способа оплаты поездки пассажиром. 1 = кредитная карта 2 = наличные 3 = бесплатно 4 = спор 5 = неизвестно 6 = аннулированная поездка
pickupLatitude двойной точности 95,110 40.721351623535156 40.721336364746094 Данные считаются устаревшими с июля 2016 года.
pickupLongitude двойной точности 55,722 -73.84429931640625 -73.84429168701172 Данные считаются устаревшими с июля 2016 года.
puLocationId строка 264 74 41 Зона работы такси TLC, в которой был включен таксометр.
puMonth INT 12 5
puYear INT 14 2015 2016
rateCodeID INT 7 1 5 Код тарифа окончательного счета, выставляемого в конце поездки. 1 = Стандартный тариф 2 = JFK 3 = Ньюарк 4 = Нассау или Вестчестер 5 = Цена договорная 6 = Групповая поездка
storeAndFwdFlag строка 2 N Y Данный флаг указывает на то, хранилась ли запись поездки в памяти транспортного средства перед отправкой поставщику, также известная как «сохранение и пересылка», поскольку у транспортного средства не было соединения с сервером. Y = поездка с сохранением и перемоткой N = не с накоплением и перемоткой вперед
tipAmount двойной точности 6,206 1.0 2.0 Размер чаевых — это поле автоматически заполняется для чаевых, начисляемых с кредитной карты. Чаевые в наличной форме не учитываются.
tollsAmount двойной точности 2150 5.54 5.76 Общая сумма сборов, уплаченных во время поездки.
totalAmount двойной точности 20,188 7.8 6.8 Общая сумма, удержанная с пассажиров. Не включает чаевые в наличной форме.
tripDistance двойной точности 7,060 0.9 1.0 Дальность поездки в милях по таксометру.
tripType INT 3 1 2 Код, указывающий тип поездки: посадка пассажира по дороге и или же его перевозка из заранее оговоренного расположения. Код автоматически назначается на основе рассчитанной платы. Но водитель может изменить его. 1 = Поиск такси 2 = Отправка
vendorID INT 2 2 1 Код, указывающий поставщика услуг LPEP, который предоставил запись. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc.

"Предварительная версия"

vendorID lpepPickupDatetime lpepDropoffDatetime passengerCount tripDistance puLocationId doLocationId rateCodeID storeAndFwdFlag paymentType fareAmount extra mtaTax improvementSurcharge tipAmount tollsAmount totalAmount tripType puYear puMonth
2 6/24/2081 5:40:37 PM 6/24/2081 6:42:47 PM 1 16.95 93 117 1 N 1 52 1 0,5 0,3 0 2,16 55.96 1 2081 6
2 11/28/2030 12:19:29 AM 11/28/2030 12:25:37 AM 1 1.08 42 247 1 N 2 6,5 0 0,5 0,3 0 0 7.3 1 2030 11
2 11/28/2030 12:14:50 AM 11/28/2030 12:14:54 AM 1 0,03 42 42 5 N 2 5 0 0 0 0 0 5 2 2030 11
2 11/14/2020 11:38:07 AM 11/14/2020 11:42:22 AM 1 0,63 129 129 1 N 2 4,5 1 0,5 0,3 0 0 6.3 1 2020 11
2 11/14/2020 9:55:36 AM 11/14/2020 10:04:54 AM 1 3,8 82 138 1 N 2 12.5 1 0,5 0,3 0 0 14,3 1 2020 11
2 8/26/2019 4:18:37 PM 8/26/2019 4:19:35 PM 1 0 264 264 1 N 2 1 0 0,5 0,3 0 0 1.8 1 2019 8
2 7/1/2019 8:28:33 AM 7/1/2019 8:32:33 AM 1 0.71 7 7 1 N 1 5 0 0,5 0,3 1.74 0 7.54 1 2019 7
2 7/1/2019 12:04:53 AM 7/1/2019 12:21:56 AM 1 2.71 223 145 1 N 2 13 0,5 0,5 0,3 0 0 14,3 1 2019 7
2 7/1/2019 12:04:11 AM 7/1/2019 12:21:15 AM 1 3,14 166 142 1 N 2 14,5 0,5 0,5 0,3 0 0 18.55 1 2019 7
2 7/1/2019 12:03:37 AM 7/1/2019 12:09:27 AM 1 0,78 74 74 1 N 1 6 0,5 0,5 0,3 1,46 0 8.76 1 2019 7

Доступ к данным

Записные книжки Azure

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

# Display data statistic information
display(nyc_tlc_df, summary = True)

Следующие шаги

Ознакомьтесь с другими наборами в каталоге Открытых наборов данных.