什么是 Azure Databricks?

Azure Databricks 是一个已针对 Microsoft Azure 云服务平台进行优化的数据分析平台。 Azure Databricks开发数据密集型应用程序的三个环境:Databricks SQL、Databricks Data Science Engineering 和 & Databricks 机器学习。

Databricks SQL 为想要针对数据湖运行 SQL 查询、创建多种可视化类型以从不同角度探索查询结果,以及生成和共享仪表板的分析员提供了一个易于使用的平台。

Databricks Data Science 工程 提供了一个交互式工作区,可实现数据工程师、数据科学家和机器学习工程师之间的协作。 使用大数据管道时,原始或结构化的数据将通过 Azure 数据工厂以批的形式引入 Azure,或者通过 Apache Kafka、事件中心或 IoT 中心进行准实时的流式传输。 此数据将驻留在 Data Lake(长久存储)、Azure Blob 存储或 Azure Data Lake Storage 中。 在分析工作流中,使用 Azure Databricks 从多个数据源读取数据,并使用 Spark 将数据转换为突破性见解。

Databricks 机器学习是一个集成式端到端机器学习环境,其中整合了用于试验跟踪、模型训练、特征开发和管理以及特征与模型传送的托管服务。

若要选择环境,启动一个 Azure Databricks 工作区并使用边栏中的角色切换器:

Azure Databricks Persona Switcher

后续步骤