Databricks 特征存储
本页介绍什么是特征存储,它提供哪些优势,以及 Databricks 特征存储的特定优势。
Databricks 特征存储库仅适用于机器学习的 Databricks Runtime,并且可通过 Azure Databricks 笔记本和工作流访问。
要求
Databricks Runtime 9.1 LTS ML 或更高版本。
什么是特征存储?
特征存储是一个集中式存储库,使数据科学家能够查找和共享特征,并确保用于计算特征值的相同代码用于模型训练和推理。
机器学习使用现有数据生成模型以预测将来的结果。 几乎所有情况下,原始数据都需要预处理和转换,然后才能用于生成模型。 此过程称为特征化或特征工程,此过程的输出称为特征 - 模型的构建基块。
开发特征非常复杂且耗时。 另一个复杂因素是,对于机器学习,需要对模型训练执行特征化计算,然后在使用模型进行预测时再次执行。 这些实现不能由同一团队或使用相同的代码环境来完成,这可能会导致延迟和错误。 此外,组织中的不同团队通常具有类似的特征需求,但可能不知道其他团队所做的工作。 特征存储旨在解决这些问题。
为何使用 Databricks 特征存储?
Databricks 特征存储与其他 Azure Databricks 组件完全集成。
- 世系。 使用 Databricks 特征存储创建特征表时,用于创建特征表的数据源将被保存并可访问。 对于特征表中的每个特征,还可以访问使用该特征的模型、笔记本、作业和终结点。
- 可发现性。 可从 Databricks 工作区访问 Databricks 特征存储 UI,可让你浏览和搜索现有特征。
- 与模型评分和服务集成。 使用 Databricks 特征存储中的特征训练模型时,模型将与特征元数据一起打包。 使用模型进行批量评分或联机推理时,它会自动从特征存储中检索特征。 调用方无需了解这些特征或包括逻辑即可查找或联接特征以对新数据进行评分。 这使得模型部署和更新变得更容易。