将 OneLake 与 Azure HDInsight 集成

Azure HDInsight是一种基于云的托管服务,用于大数据分析,可帮助组织处理大量数据。 本教程演示了如何从 Azure HDInsight 群集使用 Jupyter 笔记本连接到 OneLake。

使用 Azure HDInsight

要从 HDInsight 群集使用 Jupyter 笔记本连接到 OneLake:

  1. 创建 HDInsight (HDI) Spark 群集。 请遵循以下说明:在 HDInsight 中设置群集

    1. 提供群集信息时,请记住群集登录用户名和密码,因为稍后需要使用它们访问群集。

    2. 创建用户分配的托管标识(UAMI):为 Azure HDInsight 创建 - UAMI,并在“存储”屏幕中选择它作为标识。

      屏幕截图显示了在“存储”屏幕中输入用户分配的托管身份的位置。

  2. 向此 UAMI 授予对包含项的 Fabric 工作区的访问权限。 有关确定最佳角色的帮助,请参阅 工作区角色

    屏幕截图显示了在“管理访问”面板中选择项的位置。

  3. 导航到湖屋并找到工作区和湖屋的名称。 可以在湖屋的 URL 或文件的“属性”窗格中找到它们。

  4. 在 Azure 门户中,查找群集并选择笔记本。

    屏幕截图显示了在 Azure 门户中查找集群和笔记本的位置。

  5. 输入创建群集时提供的凭据信息。

    屏幕截图显示了输入凭据信息的位置。

  6. 新建 Spark 笔记本。

  7. 将工作区和湖屋名称复制到笔记本中,并为湖屋生成 OneLake URL。 现在可以从此文件路径读取任何文件。

    fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
    df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
    df.show()
    
  8. 尝试将一些数据写入湖屋。

    writecsvdf = df.write.format("csv").save(fp + "out.csv") 
    
  9. 签入湖屋或读取新加载的文件,从而测试数据是否已成功写入。

现在,可以使用 HDI Spark 群集中的 Jupyter 笔记本在 OneLake 中读取和写入数据。