OutputTabularDatasetConfig 类
表示如何复制运行的输出以及如何将其提升为 TabularDataset。
- 继承
-
OutputTabularDatasetConfig
构造函数
OutputTabularDatasetConfig(**kwargs)
注解
不应直接调用此构造函数,而应创建一个 OutputFileDatasetConfig,然后调用相应的 read_* 方法将其转换为 OutputTabularDatasetConfig。
OutputTabularDatasetConfig 将输出复制到目标的方式与 OutputFileDatasetConfig 相同。 它们的区别在于,创建的数据集将是包含所有指定转换的 TabularDataset。
方法
| as_input |
指定如何在后续管道步骤中将输出用作输入。 |
| as_mount |
将输出的模式设置为装载。 对于装载模式,输出目录将是装载 FUSE 的目录。 当文件关闭时,将上传写入已装载目录的文件。 |
| as_upload |
将输出模式设置为上传。 对于上传模式,写入到输出目录的文件将在作业结束时上传。 如果作业失败或被取消,将不会上传输出目录。 |
| drop_columns |
从数据集中删除指定列。 |
| keep_columns |
保留指定列并从数据集中删除所有其他列。 |
| random_split |
按指定百分比随机并大致地将数据集中的记录拆分为两个部分。 结果输出配置将更改其名称,第一个将在名称后附加 _1,第二个将在名称后附加 _2。 如果会导致名称冲突或想要指定自定义名称,请手动设置其名称。 |
as_input
as_mount
将输出的模式设置为装载。
对于装载模式,输出目录将是装载 FUSE 的目录。 当文件关闭时,将上传写入已装载目录的文件。
as_mount()
返回
模式设置为装载的 OutputTabularDatasetConfig 实例。
返回类型
as_upload
将输出模式设置为上传。
对于上传模式,写入到输出目录的文件将在作业结束时上传。 如果作业失败或被取消,将不会上传输出目录。
as_upload(overwrite=False, source_globs=None)
参数
返回
模式设置为上传的 OutputTabularDatasetConfig 实例。
返回类型
drop_columns
keep_columns
random_split
按指定百分比随机并大致地将数据集中的记录拆分为两个部分。
结果输出配置将更改其名称,第一个将在名称后附加 _1,第二个将在名称后附加 _2。 如果会导致名称冲突或想要指定自定义名称,请手动设置其名称。
random_split(percentage, seed=None)
参数
返回
返回表示拆分后两个数据集的两个 OutputTabularDatasetConfig 对象的元组。
返回类型
反馈
提交和查看相关反馈