utilities 模块

用于验证和转换的实用工具方法。

函数

check_input

检查转换的输入。

check_input(df: pandas.core.frame.DataFrame) -> None

参数

df
必需

输入数据帧。

extract_user_data

从包含 get_data() 的用户模块中提取数据。

此方法在自动化机器学习试验期间自动运行。 :param user_script {module} - 包含 get_data() 函数的 Python 模块:

extract_user_data(user_script: Any) -> Dict[str, Optional[Union[numpy.ndarray, List[str], float, List[int]]]]

参数

user_script

返回

dict - 字典包含 X_train, y_train、sample_weight、X_valid、y_valid、sample_weight_valid、cv_splits_indices。

例外

DataException -- Get data script was not defined and X
y inputs were not provided.
DataException -- Could not execute get_data
from user script.
DataException -- Could not extract data from user script.

is_known_date_time_format

检查给定字符串是否与已知日期时间正则表达式匹配。

is_known_date_time_format(datetime_str: str) -> bool

参数

datetime_str
必需

用于检查它是否为日期的输入字符串

返回

给定字符串是否采用已知的日期时间格式

issparse

检查对象是否稀疏。

issparse(obj: Any) -> bool

参数

obj
必需

输入对象。

返回

对象是否稀疏。

sparse_isnan

返回矩阵中的任何元素是否为 nan。

sparse_isnan(x)

参数

x
必需

稀疏矩阵

返回

True/False

sparse_std

计算稀疏矩阵的标准。

标准是通过除以 N(而不是 N-1)计算得出的,以匹配 numpy 的计算。

sparse_std(x)

参数

x
必需

稀疏矩阵

返回

标准偏差

stratified_shuffle

使前 1%、2%、4% 等都是分层样本,以这种方式来打乱索引。

实现这一点的方法是,首先得到 1:99 的拆分,然后对于 99 部分,做 1:98 的拆分,然后在 98 部分,做 2:96 的拆分,在 96 部分,做 4:92 的拆分,然后依次是 8:86、16:70、32:38

stratified_shuffle(indices, y, random_state)

参数

{numpy.ndarray} -- indices to shuffle.
<xref:indices>
必需
{numpy.ndarray} -- field to stratify by.
<xref:y>
必需
{RandomState
<xref:random_state>
必需
int
必需
-- random_state for random operations.
<xref:<xref:NoneType}>>
必需

返回

numpy.ndarray - 随机索引。