utilities 模块
用于验证和转换的实用工具方法。
函数
check_input
检查转换的输入。
check_input(df: pandas.core.frame.DataFrame) -> None
参数
- df
必需
输入数据帧。
extract_user_data
从包含 get_data() 的用户模块中提取数据。
此方法在自动化机器学习试验期间自动运行。 :param user_script {module} - 包含 get_data() 函数的 Python 模块:
extract_user_data(user_script: Any) -> Dict[str, Optional[Union[numpy.ndarray, List[str], float, List[int]]]]
参数
- user_script
返回
dict - 字典包含 X_train, y_train、sample_weight、X_valid、y_valid、sample_weight_valid、cv_splits_indices。
例外
DataException -- Get data script was not defined and X
y inputs were not provided.
DataException -- Could not execute get_data
from user script.
DataException -- Could not extract data from user script.
is_known_date_time_format
检查给定字符串是否与已知日期时间正则表达式匹配。
is_known_date_time_format(datetime_str: str) -> bool
参数
- datetime_str
必需
用于检查它是否为日期的输入字符串
返回
给定字符串是否采用已知的日期时间格式
issparse
检查对象是否稀疏。
issparse(obj: Any) -> bool
参数
- obj
必需
输入对象。
返回
对象是否稀疏。
sparse_isnan
返回矩阵中的任何元素是否为 nan。
sparse_isnan(x)
参数
- x
必需
稀疏矩阵
返回
True/False
sparse_std
计算稀疏矩阵的标准。
标准是通过除以 N(而不是 N-1)计算得出的,以匹配 numpy 的计算。
sparse_std(x)
参数
- x
必需
稀疏矩阵
返回
标准偏差
stratified_shuffle
使前 1%、2%、4% 等都是分层样本,以这种方式来打乱索引。
实现这一点的方法是,首先得到 1:99 的拆分,然后对于 99 部分,做 1:98 的拆分,然后在 98 部分,做 2:96 的拆分,在 96 部分,做 4:92 的拆分,然后依次是 8:86、16:70、32:38
stratified_shuffle(indices, y, random_state)
参数
- {numpy.ndarray} -- indices to shuffle.
- <xref:indices>
必需
- {numpy.ndarray} -- field to stratify by.
- <xref:y>
必需
- {RandomState
- <xref:random_state>
必需
- int
必需
- -- random_state for random operations.
- <xref:<xref:NoneType}>>
必需
返回
numpy.ndarray - 随机索引。
反馈
提交和查看相关反馈