Share via


Adatfolyam létrehozása az Azure Data Factory, a DevOps és a gépi tanulás használatával

Azure DevOps Services

Az adatbetöltés, az adatátalakítás és a modell betanításával megkezdheti az adatfolyamatok kiépítését.

Megtudhatja, hogyan hozhat létre adatokat egy CSV-fájlból (vesszővel tagolt értékekből), és hogyan mentheti az adatokat az Azure Blob Storage-ba. Alakítsa át az adatokat, és mentse őket átmeneti területre. Ezután betanítsa a gépi tanulási modellt az átalakított adatok használatával. Írja a modellt a Blob Storage-ba Python-pickle-fájlként.

Előfeltételek

Mielőtt hozzákezdene, a következőkre van szüksége:

Azure-erőforrások kiépítése

  1. Jelentkezzen be az Azure Portalra.

  2. A menüben válassza a Cloud Shell gombot. Amikor a rendszer kéri, válassza ki a Bash-felületet .

    Screenshot showing where to select Cloud Shell from the menu.

    Megjegyzés:

    Szüksége lesz egy Azure Storage-erőforrásra az Azure Cloud Shellben létrehozott fájlok megőrzéséhez. A Cloud Shell első megnyitásakor a rendszer kérni fogja, hogy hozzon létre egy erőforráscsoportot, tárfiókot és Azure Files-megosztást. Ezt a beállítást a rendszer automatikusan használja az összes jövőbeli Cloud Shell-munkamenethez.

Azure-régió kiválasztása

A régió egy vagy több Azure-adatközpont egy földrajzi helyen belül. Ilyen régió például az USA keleti régiója, az USA nyugati régiója vagy Észak-Európa. Minden Azure-erőforrás, beleértve az App Service-példányt is, régióhoz van rendelve.

A parancsok egyszerűbb futtatásához először válasszon ki egy alapértelmezett régiót. Az alapértelmezett régió megadása után a későbbi parancsok ezt a régiót használják, hacsak nem ad meg másik régiót.

  1. A Cloud Shellben futtassa a következő az account list-locations parancsot az Azure-előfizetésből elérhető régiók listázásához.

    az account list-locations \
      --query "[].{Name: name, DisplayName: displayName}" \
      --output table
    
  2. Name A kimenet oszlopában válasszon egy Önhöz közeli régiót. Például válassza ki asiapacific vagy westus2.

  3. Futtassa az config az alapértelmezett régió beállításához. Az alábbi példában cserélje le <REGION> a választott régió nevét.

    az config set defaults.location=<REGION>
    

    Az alábbi példa alapértelmezett régióként van beállítva westus2 .

    az config set defaults.location=westus2
    

Bash-változók létrehozása

  1. A Cloud Shellben hozzon létre egy véletlenszerű számot. Ezzel a számmal globálisan egyedi neveket hozhat létre bizonyos szolgáltatásokhoz a következő lépésben.

    resourceSuffix=$RANDOM
    
  2. Globálisan egyedi neveket hozhat létre a tárfiókhoz és a kulcstartóhoz. Az alábbi parancsok kettős idézőjeleket használnak, amelyek arra utasítják a Basht, hogy a beágyazott szintaxis használatával interpolálja a változókat.

    storageName="datacicd${resourceSuffix}"
    keyVault="keyvault${resourceSuffix}"
    
  3. Hozzon létre még egy Bash-változót az erőforráscsoport nevének és régiójának tárolásához. Az alábbi példában cserélje le <REGION> azt a régiót, amelyet az alapértelmezett régióhoz választott.

    rgName='data-pipeline-cicd-rg'
    region='<REGION>'
    
  4. Változóneveket hozhat létre az Azure Data Factory és az Azure Databricks-példányok számára.

    datafactorydev='data-factory-cicd-dev'
    datafactorytest='data-factory-cicd-test'
    databricksname='databricks-cicd-ws'
    

Azure-erőforrások létrehozása

  1. Futtassa a következő az group create parancsot egy erőforráscsoport létrehozásához a következő paranccsal rgName.

    az group create --name $rgName
    
  2. Futtassa a következő az storage account create parancsot egy új tárfiók létrehozásához.

    az storage account create \
        --name $storageName \
        --resource-group $rgName \
        --sku Standard_RAGRS \
        --kind StorageV2
    
  3. Futtassa a következő az storage container create parancsot két tároló létrehozásához, rawdata és prepareddata.

    az storage container create -n rawdata --account-name $storageName 
    az storage container create -n prepareddata --account-name $storageName 
    
  4. Futtassa az alábbi az keyvault create parancsot egy új kulcstartó létrehozásához.

    az keyvault create \
        --name $keyVault \
        --resource-group $rgName
    
  5. Hozzon létre egy új adat-előállítót a portál felhasználói felületén vagy az Azure CLI-vel:

    • Name: data-factory-cicd-dev
    • Változat: V2
    • Erőforráscsoport: data-pipeline-cicd-rg
    • Hely: A legközelebbi hely
    • Törölje a git engedélyezése jelölőnégyzet jelölését.
    1. Adja hozzá az Azure Data Factory bővítményt.

      az extension add --name datafactory
      
    2. Futtassa a következő az datafactory create parancsot egy új adat-előállító létrehozásához.

       az datafactory create \
           --name data-factory-cicd-dev \
           --resource-group $rgName
      
    3. Másolja ki az előfizetői azonosítót. Az adat-előállító később ezt az azonosítót fogja használni.

  6. Hozzon létre egy második adat-előállítót a portál felhasználói felületén vagy az Azure CLI-vel. Ezt az adat-előállítót fogja használni tesztelésre.

    • Name: data-factory-cicd-test
    • Változat: V2
    • Erőforráscsoport: data-pipeline-cicd-rg
    • Hely: A legközelebbi hely
    • Törölje a git engedélyezése jelölőnégyzet jelölését.
    1. Futtassa a következő az datafactory create parancsot egy új adat-előállító létrehozásához teszteléshez.

       az datafactory create \
           --name data-factory-cicd-test \
           --resource-group $rgName
      
    2. Másolja ki az előfizetői azonosítót. Az adat-előállító később ezt az azonosítót fogja használni.

  7. Új Azure Databricks-szolgáltatás hozzáadása:

    • Erőforráscsoport: data-pipeline-cicd-rg
    • Munkaterület neve: databricks-cicd-ws
    • Hely: A legközelebbi hely
    1. Adja hozzá az Azure Databricks bővítményt, ha még nincs telepítve.

       az extension add --name databricks
      
    2. Új munkaterület létrehozásához futtassa a következő az databricks workspace create parancsot.

      az databricks workspace create \
          --resource-group $rgName \
          --name databricks-cicd-ws  \
          --location eastus2  \
          --sku trial
      
    3. Másolja ki az előfizetői azonosítót. A Databricks-szolgáltatás később ezt az azonosítót fogja használni.

Adatok feltöltése a tárolóba

  1. Az Azure Portalon nyissa meg a tárfiókot az data-pipeline-cicd-rg erőforráscsoportban.
  2. Nyissa meg a Blob Service-tárolókat>.
  3. Nyissa meg a tárolót prepareddata .
  4. Töltse fel a sample.csv fájlt.

A Key Vault beállítása

Az Azure Key Vault használatával fogja tárolni az Azure-szolgáltatások összes kapcsolati információját.

Databricks személyes hozzáférési jogkivonat létrehozása

  1. Az Azure Portalon nyissa meg a Databrickset, majd nyissa meg a munkaterületet.
  2. Az Azure Databricks felhasználói felületén hozzon létre és másolja ki a személyes hozzáférési jogkivonatot.

A tárfiók fiókkulcsának és kapcsolati sztring másolása

  1. Nyissa meg a tárfiókot.
  2. Nyissa meg a hozzáférési kulcsokat.
  3. Másolja ki az első kulcsot és kapcsolati sztring.

Értékek mentése a Key Vaultba

  1. Hozzon létre három titkos kódot:

    • databricks-token: your-databricks-pat
    • StorageKey: your-storage-key
    • Storage Csatlakozás String:your-storage-connection
  2. A kulcstartó titkos kulcsainak hozzáadásához futtassa a következő az keyvault secret set parancsot.

    az keyvault secret set --vault-name "$keyVault" --name "databricks-token" --value "your-databricks-pat"
    az keyvault secret set --vault-name "$keyVault" --name "StorageKey" --value "your-storage-key"
    az keyvault secret set --vault-name "$keyVault" --name "StorageConnectString" --value "your-storage-connection"
    

Az adatfolyam-megoldás importálása

  1. Jelentkezzen be az Azure DevOps-szervezetbe, majd nyissa meg a projektet.
  2. Nyissa meg az Adattárat , majd importálja a GitHub-adattár elágaztatott verzióját. További információ: Git-adattár importálása a projektbe.

Azure Resource Manager-szolgáltatáskapcsolat hozzáadása

  1. Azure Resource Manager-szolgáltatáskapcsolat létrehozása.
  2. Válassza a Szolgáltatásnév (automatikus) lehetőséget.
  3. Válassza ki az data-pipeline-cicd-rg erőforráscsoportot.
  4. Nevezze el a szolgáltatáskapcsolatot azure_rm_connection.
  5. Válassza a Hozzáférési engedély megadása az összes folyamathoz lehetőséget. A beállítás kiválasztásához rendelkeznie kell a Service Csatlakozás ions Rendszergazda istrator szerepkörével.

Folyamatváltozók hozzáadása

  1. Hozzon létre egy új változócsoportot .datapipeline-vg

  2. Ha még nincs telepítve, adja hozzá az Azure DevOps-bővítményt.

    az extension add --name azure-devops 
    
  3. Jelentkezzen be az Azure DevOps-szervezetbe.

    az devops login --org https://dev.azure.com/<yourorganizationname>
    
    az pipelines variable-group create --name datapipeline-vg -p <yourazuredevopsprojectname> --variables \
                                        "LOCATION=$region" \
                                        "RESOURCE_GROUP=$rgName" \
                                        "DATA_FACTORY_NAME=$datafactorydev" \
                                        "DATA_FACTORY_DEV_NAME=$datafactorydev" \
                                        "DATA_FACTORY_TEST_NAME=$datafactorytest" \
                                        "ADF_PIPELINE_NAME=DataPipeline" \
                                        "DATABRICKS_NAME=$databricksname" \
                                        "AZURE_RM_CONNECTION=azure_rm_connection" \
                                        "DATABRICKS_URL=<URL copied from Databricks in Azure portal>" \
                                        "STORAGE_ACCOUNT_NAME=$storageName" \
                                        "STORAGE_CONTAINER_NAME=rawdata"
    
  4. Hozzon létre egy második változócsoportot .keys-vg Ez a csoport adatváltozókat fog lekérni a Key Vaultból.

  5. Válassza a Titkos kulcsok csatolása lehetőséget egy Azure Key Vaultból változóként. További információ: Titkos kulcsok csatolása egy Azure-kulcstartóból.

  6. Engedélyezze az Azure-előfizetést.

  7. Válassza ki az összes rendelkezésre álló titkos kulcs változóként való hozzáadását (databricks-token;StorageConnectString).StorageKey

Az Azure Databricks és az Azure Data Factory konfigurálása

Az Azure Databricks és az Azure Data Factory beállításához kövesse a következő szakaszok lépéseit.

Testscope létrehozása az Azure Databricksben

  1. Az Azure Portalon lépjen a Key Vault>tulajdonságai elemre.
  2. Másolja ki a DNS-nevet és az erőforrás-azonosítót.
  3. Az Azure Databricks-munkaterületen hozzon létre egy titkos hatókört.testscope

Új fürt hozzáadása az Azure Databricksben

  1. Az Azure Databricks-munkaterületen lépjen a Fürtök elemre.
  2. Válassza a Fürt létrehozása lehetőséget.
  3. Nevezze el és mentse az új fürtöt.
  4. Válassza ki az új fürt nevét.
  5. Az URL-sztringben másolja a tartalmat a következő közé /clusters/ : és /configuration. A sztringben clusters/0306-152107-daft561/configurationpéldául másolni 0306-152107-daft561kell.
  6. Mentse ezt a sztringet későbbi használatra.

A kódtár beállítása az Azure Data Factoryben

  1. Az Azure Data Factoryben nyissa meg a Szerző és monitor lehetőséget. További információ: Adat-előállító létrehozása.
  2. Válassza a Kódtár beállítása lehetőséget, majd csatlakoztassa az adattárat.
    • Adattár típusa: Azure DevOps Git
    • Azure DevOps-szervezet: Az aktív fiók
    • Projekt neve: Az Azure DevOps-adatfolyamat-projekt
    • Git-adattár neve: Meglévő használata.
      • Válassza ki a ágat az együttműködéshez.
      • Állítsa be az /azure-data-pipeline/factorydata értéket gyökérmappáként.
    • Ág, amelybe importálni szeretné az erőforrást: Válassza a Meglévő és a használata lehetőséget.
  1. Az Azure Portal felhasználói felületén nyissa meg a kulcstartót.
  2. Válassza a Hozzáférési szabályzatok lehetőséget.
  3. Válassza a Hozzáférési szabályzat hozzáadása lehetőséget.
  4. A sablonból való konfiguráláshoz válassza a Key &Secret Management lehetőséget.
  5. Az Egyszerű kiválasztása területen keresse meg a fejlesztői adat-előállító nevét, és adja hozzá.
  6. A hozzáférési szabályzatok hozzáadásához válassza a Hozzáadás lehetőséget.
  7. Ismételje meg ezeket a lépéseket a tesztadat-előállító hozzáférési szabályzatának hozzáadásához.

A Key Vault társított szolgáltatásának frissítése az Azure Data Factoryben

  1. Nyissa meg a Társított szolgáltatások kezelése>elemet.
  2. Frissítse az Azure Key Vaultot az előfizetéshez való csatlakozáshoz.

A tárhoz társított szolgáltatás frissítése az Azure Data Factoryben

  1. Nyissa meg a Társított szolgáltatások kezelése>elemet.
  2. Frissítse az Azure Blob Storage értékét az előfizetéshez való csatlakozáshoz.

Az Azure Databricks társított szolgáltatásának frissítése az Azure Data Factoryben

  1. Nyissa meg a Társított szolgáltatások kezelése>elemet.
  2. Frissítse az Azure Databricks értékét az előfizetéshez való csatlakozáshoz.
  3. A meglévő fürtazonosítóhoz adja meg a korábban mentett fürtértéket.

Az adat-előállító tesztelése és közzététele

  1. Az Azure Data Factoryben nyissa meg a Szerkesztés elemet.
  2. Nyílt DataPipeline.
  3. Válassza a Változók lehetőséget.
  4. Ellenőrizze, hogy a storage_account_name tárfiókra hivatkozik-e az Azure Portalon. Szükség esetén frissítse az alapértelmezett értéket. Módosítások mentése.
  5. Az ellenőrzéshez DataPipelineválassza az Ellenőrzés lehetőséget.
  6. Válassza a Közzététel lehetőséget, ha adat-előállítói objektumokat szeretne közzétenni az adf_publish adattár ágában.

A CI/CD-folyamat futtatása

A folyamatos integrációs és folyamatos kézbesítési (CI/CD) folyamat futtatásához kövesse az alábbi lépéseket:

  1. Lépjen a Folyamatok lapra . Ezután válassza ki a műveletet egy új folyamat létrehozásához.
  2. Válassza az Azure Repos Gitet a forráskód helyeként.
  3. Amikor megjelenik az adattárak listája, válassza ki az adattárat.
  4. A folyamat beállításakor válassza a Meglévő Azure Pipelines YAML-fájlt. Válassza ki a YAML-fájlt: /azure-data-pipeline/data_pipeline_ci_cd.yml.
  5. A folyamat futtatása. Ha a folyamatot még nem futtatták, előfordulhat, hogy engedélyt kell adnia egy erőforrás elérésére a futtatás során.

Clean up resources

Ha nem folytatja az alkalmazás használatát, törölje az adatfolyamot az alábbi lépések végrehajtásával:

  1. Törölje az data-pipeline-cicd-rg erőforráscsoportot.
  2. Törölje az Azure DevOps-projektet.

További lépések