OpenDatasetBase 类

用于继承的开放数据集基类。

继承
OpenDatasetBase

构造函数

OpenDatasetBase(cols: Optional[List[str]] = None, enable_telemetry: bool = True, **kwargs)

参数

cols
默认值: None
enable_telemetry
默认值: True

方法

get_file_dataset

获取开放数据集的文件数据集。

get_tabular_dataset

使用 blob url 初始化 AbstractTabularOpenDataset。

to_pandas_dataframe

到 pandas 数据帧。

to_spark_dataframe

到 spark 数据帧。

get_file_dataset

获取开放数据集的文件数据集。

get_file_dataset(start_date: datetime.datetime = None, end_date: datetime.datetime = None, enable_telemetry: bool = True, **kwargs) -> azureml.data.file_dataset.FileDataset

参数

cls
type
必需

当前类

start_date
datetime
必需

开始日期,默认值为“无”

end_date
datetime
必需

结束日期,默认值为“无”

enable_telemetry
bool
必需

是否启用遥测,默认值为 True

返回

文件数据集

返回类型

get_tabular_dataset

使用 blob url 初始化 AbstractTabularOpenDataset。

get_tabular_dataset(start_date: datetime.datetime = None, end_date: datetime.datetime = None, cols: List[str] = None, enable_telemetry: bool = True, **kwargs) -> azureml.data.tabular_dataset.TabularDataset

参数

cls
type
必需

键入数据集的类型名称。

start_date
datetime
必需

要查询的开始日期(含)。

end_date
datetime
必需

要查询的结束日期(含)。

cols
list[str]
必需

要检索的列名列表。 “无”将获取所有列。

enable_telemetry
bool
必需

是否启用遥测,仅针对 UT 禁用。

返回

TabularDataset

返回类型

to_pandas_dataframe

到 pandas 数据帧。

to_pandas_dataframe() -> pandas.core.frame.DataFrame

to_spark_dataframe

到 spark 数据帧。

to_spark_dataframe()

属性

cols

获取要检索的列名列表。

data

获取 OpenDataset 对象的数据。

id

获取开放数据的位置 ID。

log_properties

获取日志属性。

registry_id

获取在后端注册的此公共数据集的注册表 ID。

此注册表 ID 用于获取存储位置等最新元数据。 预期所有公共数据子类都分配 _registry_id。

返回

注册表 ID 字符串。

返回类型

str

time_column_name

时间列名称。