您现在访问的是微软AZURE全球版技术文档网站,若需要访问由世纪互联运营的MICROSOFT AZURE中国区技术文档网站,请访问 https://docs.azure.cn.

糖尿病数据集

糖尿病数据集中包含带有 10 个特性的 442 个样本,因此非常适合用于机器学习算法入门练习。 它是最常用的 Scikit Learn Toy 数据集之一。

原始数据集说明 | 原始数据文件

备注

Microsoft 按“原样”提供 Azure 开放数据集。 Microsoft 对数据集的使用不提供任何担保(明示或暗示)、保证或条件。 在当地法律允许的范围内,Microsoft 对使用数据集而导致的任何损害或损失不承担任何责任,包括直接、必然、特殊、间接、偶发或惩罚性损害或损失。

此数据集是根据 Microsoft 接收源数据的原始条款提供的。 数据集可能包含来自 Microsoft 的数据。

名称 数据类型 唯一 值(示例)
年龄 bigint 58 53 60
BMI Double 163 24.1 23.5
BP Double 100 93.0 83.0
S1 bigint 141 162 184
S2 Double 302 125.8 114.8
S3 Double 63 46.0 38.0
S4 Double 66 3.0 4.0
S5 Double 184 4.4427 4.3041
S6 bigint 56 92 96
性别 bigint 2 1 2
Y bigint 214 72 200

预览

年龄 性别 BMI BP S1 S2 S3 S4 S5 S6 Y
59 2 32.1 101 157 93.2 38 4 4.8598 87 151
48 1 21.6 87 183 103.2 70 3 3.8918 69 75
72 2 30.5 93 156 93.6 41 4 4.6728 85 141
24 1 25.3 84 198 131.4 40 5 4.8903 89 206
50 1 23 101 192 125.4 52 4 4.2905 80 135
23 1 22.6 89 139 64.8 61 2 4.1897 68 97
36 2 22 90 160 99.6 50 3 3.9512 82 138
66 2 26.2 114 255 185 56 4.55 4.2485 92 63
60 2 32.1 83 179 119.4 42 4 4.4773 94 110
29 1 30 85 180 93.4 43 4 5.3845 88 310

数据访问

在 Azure Notebooks、Azure Databricks 或 Azure Synapse 中,请使用以下代码示例来访问此数据集。

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import Diabetes

diabetes = Diabetes.get_tabular_dataset()
diabetes_df = diabetes.to_pandas_dataframe()

diabetes_df.info()

Azure Databricks

# This is a package in preview.
from azureml.opendatasets import Diabetes

diabetes = Diabetes.get_tabular_dataset()
diabetes_df = diabetes.to_spark_dataframe()

display(diabetes_df.limit(5))

Azure Synapse

没有适用于此平台/包组合的示例。

后续步骤

查看开放数据集目录中的其余数据集。