subsample_utilities 模块

用于计算数据集的子样本百分比的模块。

函数

subsample_train_valid_set

使用来自试验存储的训练/有效数据获取二次采样的数据集。

subsample_train_valid_set(subsample_percent: Union[int, float], random_state: Optional[int] = None) -> Tuple[Union[numpy.ndarray, pandas.core.frame.DataFrame, scipy.sparse.base.spmatrix], Union[numpy.ndarray, pandas.core.frame.DataFrame, scipy.sparse.base.spmatrix], Optional[Union[numpy.ndarray, pandas.core.frame.DataFrame, scipy.sparse.base.spmatrix]]]

参数

subsample_percent
必需

用于训练的训练数据的百分比。 范围为 (0, 100],包含小数值或整数值。

random_state
默认值: None

int、RandomState 实例或 None,可选 (default=None)。如果为 int,则 random_state 是随机数生成器使用的种子;如果为 RandomState 实例,则 random_state 是随机数生成器;如果为 None,则随机数生成器是 np.random 使用的 RandomState 实例。

返回

X、y、sample_weight 全部由 subsample_percent 二次采样。 如果试验存储不包含样本权重,则 sample_weight 将为 None。