将 OneLake 与 Azure HDInsight 集成

项目
11/15/2023

Azure HDInsight是一种基于云的托管服务，用于大数据分析，可帮助组织处理大量数据。本教程演示了如何从 Azure HDInsight 群集使用 Jupyter 笔记本连接到 OneLake。

使用 Azure HDInsight

要从 HDInsight 群集使用 Jupyter 笔记本连接到 OneLake：

创建 HDInsight (HDI) Spark 群集。请遵循以下说明：在 HDInsight 中设置群集。
1. 提供群集信息时，请记住群集登录用户名和密码，因为稍后需要使用它们访问群集。
2. 创建用户分配的托管标识(UAMI)：为 Azure HDInsight 创建 - UAMI，并在“存储”屏幕中选择它作为标识。
向此 UAMI 授予对包含项的 Fabric 工作区的访问权限。有关确定最佳角色的帮助，请参阅工作区角色。
导航到湖屋并找到工作区和湖屋的名称。可以在湖屋的 URL 或文件的“属性”窗格中找到它们。
在 Azure 门户中，查找群集并选择笔记本。
输入创建群集时提供的凭据信息。
新建 Spark 笔记本。

将工作区和湖屋名称复制到笔记本中，并为湖屋生成 OneLake URL。现在可以从此文件路径读取任何文件。

fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
df.show()

尝试将一些数据写入湖屋。

writecsvdf = df.write.format("csv").save(fp + "out.csv")

签入湖屋或读取新加载的文件，从而测试数据是否已成功写入。

现在，可以使用 HDI Spark 群集中的 Jupyter 笔记本在 OneLake 中读取和写入数据。

OneLake 安全性

通过

将 OneLake 与 Azure HDInsight 集成

使用 Azure HDInsight

反馈

反馈

其他资源

通过

将 OneLake 与 Azure HDInsight 集成

使用 Azure HDInsight

相关内容

反馈

反馈

其他资源