Azure 上的大型主機檔案複寫和同步

Azure Data Factory
Azure Data Lake
Azure SQL Database
Azure 儲存體
Azure 虛擬機器

解決方案構想

本文是解決方案概念。 如果您想要使用詳細資訊來擴充內容,例如潛在的使用案例、替代服務、實作考慮或定價指引,請提供 GitHub 意見反應讓我們知道。

當您將內部部署大型主機或中型應用程式移轉至 Azure 時,傳輸數據是主要考慮。 數個現代化案例需要快速復寫檔案至 Azure,或維護內部部署檔案與 Azure 檔案之間的同步處理。

本文說明將檔案傳輸至 Azure、轉換和轉換檔案數據,以及將數據儲存在內部部署和 Azure 中的數個程式。

架構

下圖顯示將內部部署檔案複寫和同步至 Azure 的一些選項:

此圖顯示將內部部署檔案移轉至 Azure 的三個步驟:傳輸、轉換和轉換,以及儲存在永續性記憶體中。

下載此架構的 Visio 檔案

資料流程

  1. 將檔案傳輸至 Azure:

    • 在內部部署或 Azure 傳輸檔案的最簡單方式是使用 檔案傳輸通訊協定 (FTP) 。 您可以在 Azure 虛擬機器 (VM) 上裝載 FTP 伺服器。 簡單的 FTP 作業控制語言 (JCL) 會以二進位格式將檔案傳送至 Azure,這對於保留大型主機和中範圍計算和二進位數據類型至關重要。 您可以將傳輸的檔案儲存在內部部署磁碟、Azure VM 檔案記憶體或 Azure Blob 儲存體 中。

    • 您也可以使用 AzCopy 之類的工具,將內部部署檔案上傳至 Blob 儲存體。

    • Azure Data Factory FTP/SFTP 連接器也可用來將數據從大型主機系統傳輸到 Blob 儲存體。 此方法需要安裝自我裝載整合運行時間 (SHIR) 的中繼 VM。

    • 您也可以在 Azure Marketplace 中找到第三方工具,以將檔案從大型主機傳輸到 Azure。

  2. 協調、轉換和轉換資料:

    • Azure 無法在 Azure VM 磁碟或 Blob 儲存體 中讀取 IBM 擴充二進位編碼十進位交換碼 (EBCDIC) 代碼頁檔案。 為了讓這些檔案與 Azure 相容,主機整合伺服器 (HIS) 會將這些檔案從 EBCDIC 轉換為美國資訊交換標準代碼 (ASCII) 格式。

      Copybook 會定義 COBOL、PL/I 和元件語言檔案的數據結構。 HIS 會根據 copybook 版面配置將這些檔案轉換成 ASCII。

    • 將資料傳輸到 Azure 資料存放區之前,您可能需要轉換資料或使用它進行分析。 Data Factory 可以管理這些擷取-轉換載入 (ETL) 和擷取載入轉換 (ELT) 活動,並將數據直接儲存在 Azure Data Lake 儲存體。

    • 針對巨量數據整合,Azure Databricks 和 Azure Synapse Analytics 可以使用 Apache Spark 引擎來執行記憶體內部計算,以快速且有效地執行所有轉換活動。

  3. 儲存資料:

    視您的需求而定,您可以將傳輸的數據儲存在數種可用的永續性 Azure 記憶體模式之一中。

    • 如果不需要分析,Azure Data Factory 可以直接將數據儲存在各種記憶體選項中,例如 Data Lake 儲存體 和 Blob 儲存體。

    • Azure 會裝載各種資料庫,以因應不同的需求:

      • 關係資料庫包括 SQL Server 系列,以及 PostgreSQL 和 MySQL 等開放原始碼資料庫。
      • 非關係資料庫包括 Azure Cosmos DB、快速、多模型、全域散發的 NoSQL 資料庫。
  4. 檢閱分析和商業智慧:

    Microsoft Fabric 是一種全方位分析解決方案,貴組織可用來研究數據移動、實驗數據科學,以及檢閱即時分析和商業智慧。 它提供完整的功能套件,包括數據湖、數據工程和數據整合。

元件

各種文件傳輸、整合和儲存案例會使用不同的元件。 請參閱 Azure 定價計算機,以估計 Azure 資源的成本。

網路

內部部署數據閘道是將內部部署數據連線到雲端服務的網橋軟體。 您可以在專用的內部部署 VM 上安裝閘道

資料整合和轉換

  • 主機檔案的數據提供者是 HIS元件,可將 EBCDIC 程式碼頁檔案轉換成 ASCII。 提供者可以在本機二進位檔中離線讀取和寫入記錄,或使用系統網路架構(SNA)或傳輸控制通訊協定/因特網通訊協定/因特網通訊協定(TCP/IP)來讀取和寫入遠端 IBM z/OS 大型主機數據集或 i5/OS 實體檔案中的記錄。 HIS 連接器適用於 BizTalkAzure Logic Apps

  • Azure Data Factory 是混合式數據整合服務,可用來建立、排程及協調 ETL 和 ELT 工作流程。

  • Azure Databricks 是針對 Azure 優化的 Apache Spark 分析平臺。 您可以使用 Databricks 將傳入的數據相互關聯,並與 Databricks 中儲存的其他數據進行擴充。

  • Azure Synapse Analytics 是一個快速且彈性的雲端數據倉儲,具有大量平行處理 (MPP) 架構,可用來彈性且獨立地調整、計算及儲存數據。

資料庫

  • Azure SQL 資料庫 是可調整的關係型雲端資料庫服務。 Azure SQL 資料庫 是常青的,且一律是最新狀態,且具有 AI 支援的自動化功能,可優化效能和持久性。 無伺服器計算和超大規模資料庫記憶體選項會自動視需要調整資源。 透過 Azure Hybrid Benefit,您可以在雲端上使用現有的內部部署 SQL Server 授權,而不需要額外費用。

  • Azure SQL 受控執行個體 結合最廣泛的 SQL Server 資料庫引擎相容性,以及完全受控且常綠的平臺即服務 (PaaS) 的所有優點。 透過 SQL 受管理執行個體,您可以使用熟悉的工具、技能和資源,大規模地將現有的應用程式現代化。

  • Azure 上的 SQL Server 虛擬機器 隨即將 SQL Server 工作負載隨即轉移至雲端,以將 Azure 的彈性和混合式連線與 SQL Server 效能、安全性和分析相結合。 您可以使用 100% 的程式代碼相容性來存取最新的 SQL Server 更新和版本。

  • 適用於 PostgreSQL 的 Azure 資料庫 是以開放原始碼 PostgreSQL 資料庫引擎社群版為基礎的完全受控關係資料庫服務。

  • 適用於 MySQL 的 Azure 資料庫 是以開放原始碼 MySQL 資料庫引擎社群版為基礎的完全受控關係資料庫服務。

  • Azure Cosmos DB 是完全受控的多模型 NoSQL 資料庫服務,可建置和現代化可調整且高效能的應用程式。 Azure Cosmos DB 可彈性且獨立地跨地理區域調整輸送量和記憶體,並保證全球第 99 個百分位數可用性的單一位數毫秒延遲。

其他數據存放區

  • Blob 儲存體 儲存大量的非結構化數據,例如文字或二進位數據,您可以透過 HTTP 或 HTTPS 從任何地方存取。 您可以使用 Blob 儲存體 公開數據,或私下儲存應用程式數據。

  • Data Lake 儲存體 是儲存原生原始格式大量數據的記憶體存放庫。 Data Lake 儲存體 提供巨量數據分析工作負載的調整,其中包含數 TB 和 PB 的數據。 數據通常來自多個異質來源,而且可能是結構化、半結構化或非結構化。

潛在的使用案例

內部部署檔案複寫和同步處理使用案例包括:

  • 下游或上游相依性,例如,如果在大型主機上執行的應用程式,以及在 Azure 上執行的應用程式需要透過檔案交換數據。

  • 使用內部部署應用程式在 Azure 上平行測試重新裝載或重新設計的應用程式。

  • 在無法立即補救或現代化之系統上緊密結合的內部部署應用程式。

參與者

本文由 Microsoft 維護。 原始投稿人如下。

主要作者:

若要查看非公用LinkedIn配置檔,請登入LinkedIn。

下一步