subsample_utilities 模块
用于计算数据集的子样本百分比的模块。
函数
subsample_train_valid_set
使用来自试验存储的训练/有效数据获取二次采样的数据集。
subsample_train_valid_set(subsample_percent: Union[int, float], random_state: Optional[int] = None) -> Tuple[Union[numpy.ndarray, pandas.core.frame.DataFrame, scipy.sparse.base.spmatrix], Union[numpy.ndarray, pandas.core.frame.DataFrame, scipy.sparse.base.spmatrix], Optional[Union[numpy.ndarray, pandas.core.frame.DataFrame, scipy.sparse.base.spmatrix]]]
参数
- subsample_percent
必需
用于训练的训练数据的百分比。 范围为 (0, 100],包含小数值或整数值。
- random_state
默认值: None
int、RandomState 实例或 None,可选 (default=None)。如果为 int,则 random_state 是随机数生成器使用的种子;如果为 RandomState 实例,则 random_state 是随机数生成器;如果为 None,则随机数生成器是 np.random 使用的 RandomState 实例。
返回
X、y、sample_weight 全部由 subsample_percent 二次采样。 如果试验存储不包含样本权重,则 sample_weight 将为 None。
反馈
提交和查看相关反馈