Share via


Migrieren von Daten und Pipelines von Azure Synapse zu Microsoft Fabric

Der erste Schritt bei der Daten- und Pipelinemigration besteht in der Identifizierung der Daten, die Sie in OneLake verfügbar machen möchten, und der Pipelines, die Sie verschieben möchten.

Für die Datenmigration stehen zwei Optionen zur Verfügung:

  • Option 1: Azure Data Lake Storage (ADLS) Gen2 als Standardspeicher. Wenn Sie derzeit ADLS Gen2 verwenden und das Kopieren von Daten vermeiden möchten, können Sie OneLake-Verknüpfungen verwenden.
  • Option 2: OneLake als Standardspeicher. Wenn Sie von ADLS Gen2 zu OneLake als Speicherebene wechseln möchten, ziehen Sie das Lesen aus bzw. Schreiben in OneLake über Ihre Notebooks und Spark-Auftragsdefinitionen in Betracht.

Datenmigration

Option 1: ADLS Gen2 als Speicher (Verknüpfungen)

Wenn Sie mit ADLS Gen2 interagieren und Datenduplizierung vermeiden möchten, können Sie in OneLake eine Verknüpfung mit dem ADLS Gen2-Quellpfad erstellen. Sie können Verknüpfungen in den Abschnitten Dateien und Tabellen des Lakehouse in Fabric erstellen. Berücksichtigen Sie dabei jedoch Folgendes:

  • Der Abschnitt Dateien ist der nicht verwaltete Bereich des Lake. Wenn Ihre Daten im CSV-, JSON- oder Parquet-Format vorliegen, empfiehlt es sich, eine Verknüpfung mit diesem Bereich zu erstellen.
  • Der Abschnitt Tabellen ist der verwaltete Bereich des Lake. Hier werden alle Tabellen registriert. Das gilt sowohl für von Spark verwaltete Tabellen als auch nicht verwaltete Tabellen. Wenn Ihre Daten im Delta-Format vorliegen, können Sie eine Verknüpfung mit diesem Bereich erstellen. Der automatische Ermittlungsprozess registriert diese Delta-Tabellen daraufhin automatisch im Metastore des Lakehouse.

Weitere Informationen zur Erstellung einer ADLS Gen2-Verknüpfung finden Sie hier.

Option 2: OneLake als Speicher

Um OneLake als Speicherebene zu verwenden und Daten aus ADLS Gen2 zu verschieben, müssen Sie zunächst für die Azure Synapse Spark-bezogenen Elemente Verweise auf OneLake erstellen und dann die vorhandenen Daten an OneLake übertragen. Informationen für Ersteres finden Sie unter Integrieren von OneLake mit Azure Synapse Analytics.

Für die Verschiebung der vorhandenen Daten in OneLake stehen mehrere Optionen zur Verfügung:

  • mssparkutils fastcp: Die Bibliothek mssparkutils stellt eine fastcp-API bereit, mit der Sie Daten aus ADLS Gen2 in OneLake kopieren können.
  • AzCopy: Sie können das Befehlszeilenprogramm AzCopy verwenden, um Daten aus ADLS Gen2 in OneLake zu kopieren.
  • Azure Data Factory, Azure Synapse und Data Factory in Fabric: Verwenden Sie die Kopieraktivität, um Daten in das Lakehouse zu kopieren.
  • Verwenden von Verknüpfungen: Sie können ADLS Gen2-Verlaufsdaten in OneLake mit Verknüpfungen aktivieren. Es müssen keine Daten kopiert werden.
  • Azure Storage-Explorer: Sie können Dateien aus dem ADLS Gen2-Speicherort mithilfe des Azure Storage-Explorers in OneLake verschieben. Weitere Informationen finden Sie unter Integrieren von OneLake in Azure Storage-Explorer

Wenn Ihre Azure Synapse-Datenpipelines Notebookaktivitäten und/oder Spark-Auftragsdefinitionsaktivitäten enthalten, müssen diese Pipelines aus Azure Synapse in Data Factory-Datenpipelines in Fabric verschoben werden und auf die Zielnotebooks verweisen. Die Notebook-Aktivität ist in Data Factory-Datenpipelines verfügbar. Alle unterstützten Datenpipelineaktivitäten in Fabric finden Sie hier.