NycTlcGreen 类

表示纽约市出租车和轿车委员会-绿色出租车行程公共数据集。

绿色的出租车行程记录包括捕获以下信息的字段:上车和下车日期/时间、上车和下车位置、行程距离、逐条记录的车费、费率类型、付款类型和司机报告的乘客数。 有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的纽约市出租车&和轿车委员会-绿色出租车的行程记录

有关使用 NycTlcGreen 类的示例,请参阅教程:使用自动化机器学习来预测出租车费用

继承
azureml.opendatasets._nyc_taxi_base.NycTaxiBase
NycTlcGreen

构造函数

NycTlcGreen(start_date: datetime.datetime = datetime.datetime(2015, 1, 1, 0, 0), end_date: datetime.datetime = datetime.datetime(2022, 6, 30, 0, 0), cols: Optional[List[str]] = None, limit: Optional[int] = - 1, enable_telemetry: bool = True)

参数

start_date
datetime
默认值: 2015-01-01 00:00:00

开始加载数据的日期(含)。 如果为“无”,则使用 default_start_date

end_date
datetime
默认值: 2022-06-30 00:00:00

结束加载数据的日期(含)。 如果为“无”,则使用 default_end_date

cols
list[str]
默认值: None

要从数据集加载的列名称的列表。 如果为 None,则加载所有列。 有关此数据集中的可用列的信息,请参阅纽约市出租车和轿车委员会 - 绿色出租车的行程记录

limit
int
默认值: -1

一个值,该值指示要加载 to_pandas_dataframe() 的数据的天数。 如果未指定,则默认值为 -1,表示不限制加载的天数。

enable_telemetry
bool
默认值: True

是否对此数据集启用遥测。

注解

下面的示例演示如何访问数据集。


   from azureml.opendatasets import NycTlcGreen
   from dateutil import parser

   end_date = parser.parse('2018-06-06')
   start_date = parser.parse('2018-05-01')
   nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
   nyc_tlc_df = nyc_tlc.to_pandas_dataframe()