Adatfolyam létrehozása az Azure Data Factory, a DevOps és a gépi tanulás használatával
Azure DevOps Services
Az adatbetöltés, az adatátalakítás és a modell betanításával megkezdheti az adatfolyamatok kiépítését.
Megtudhatja, hogyan hozhat létre adatokat egy CSV-fájlból (vesszővel tagolt értékekből), és hogyan mentheti az adatokat az Azure Blob Storage-ba. Alakítsa át az adatokat, és mentse őket átmeneti területre. Ezután betanítsa a gépi tanulási modellt az átalakított adatok használatával. Írja a modellt a Blob Storage-ba Python-pickle-fájlként.
Előfeltételek
Mielőtt hozzákezdene, a következőkre van szüksége:
- Aktív előfizetéssel rendelkező Azure-fiók. Fiók ingyenes létrehozása.
- Aktív Azure DevOps-szervezet. Regisztráljon az Azure Pipelines szolgáltatásra.
- Az Azure DevOps-projekt szolgáltatáskapcsolatainak Rendszergazda istrator szerepköre. Megtudhatja, hogyan vehet fel Rendszergazda istrator szerepkört.
- Adatok a sample.csv-ből.
- Hozzáférés az adatfolyam-megoldáshoz a GitHubon.
- DevOps for Azure Databricks.
Azure-erőforrások kiépítése
Jelentkezzen be az Azure Portalra.
A menüben válassza a Cloud Shell gombot. Amikor a rendszer kéri, válassza ki a Bash-felületet .
Megjegyzés:
Szüksége lesz egy Azure Storage-erőforrásra az Azure Cloud Shellben létrehozott fájlok megőrzéséhez. A Cloud Shell első megnyitásakor a rendszer kérni fogja, hogy hozzon létre egy erőforráscsoportot, tárfiókot és Azure Files-megosztást. Ezt a beállítást a rendszer automatikusan használja az összes jövőbeli Cloud Shell-munkamenethez.
Azure-régió kiválasztása
A régió egy vagy több Azure-adatközpont egy földrajzi helyen belül. Ilyen régió például az USA keleti régiója, az USA nyugati régiója vagy Észak-Európa. Minden Azure-erőforrás, beleértve az App Service-példányt is, régióhoz van rendelve.
A parancsok egyszerűbb futtatásához először válasszon ki egy alapértelmezett régiót. Az alapértelmezett régió megadása után a későbbi parancsok ezt a régiót használják, hacsak nem ad meg másik régiót.
A Cloud Shellben futtassa a következő
az account list-locations
parancsot az Azure-előfizetésből elérhető régiók listázásához.az account list-locations \ --query "[].{Name: name, DisplayName: displayName}" \ --output table
Name
A kimenet oszlopában válasszon egy Önhöz közeli régiót. Például válassza kiasiapacific
vagywestus2
.Futtassa
az config
az alapértelmezett régió beállításához. Az alábbi példában cserélje le<REGION>
a választott régió nevét.az config set defaults.location=<REGION>
Az alábbi példa alapértelmezett régióként van beállítva
westus2
.az config set defaults.location=westus2
Bash-változók létrehozása
A Cloud Shellben hozzon létre egy véletlenszerű számot. Ezzel a számmal globálisan egyedi neveket hozhat létre bizonyos szolgáltatásokhoz a következő lépésben.
resourceSuffix=$RANDOM
Globálisan egyedi neveket hozhat létre a tárfiókhoz és a kulcstartóhoz. Az alábbi parancsok kettős idézőjeleket használnak, amelyek arra utasítják a Basht, hogy a beágyazott szintaxis használatával interpolálja a változókat.
storageName="datacicd${resourceSuffix}" keyVault="keyvault${resourceSuffix}"
Hozzon létre még egy Bash-változót az erőforráscsoport nevének és régiójának tárolásához. Az alábbi példában cserélje le
<REGION>
azt a régiót, amelyet az alapértelmezett régióhoz választott.rgName='data-pipeline-cicd-rg' region='<REGION>'
Változóneveket hozhat létre az Azure Data Factory és az Azure Databricks-példányok számára.
datafactorydev='data-factory-cicd-dev' datafactorytest='data-factory-cicd-test' databricksname='databricks-cicd-ws'
Azure-erőforrások létrehozása
Futtassa a következő
az group create
parancsot egy erőforráscsoport létrehozásához a következő paranccsalrgName
.az group create --name $rgName
Futtassa a következő
az storage account create
parancsot egy új tárfiók létrehozásához.az storage account create \ --name $storageName \ --resource-group $rgName \ --sku Standard_RAGRS \ --kind StorageV2
Futtassa a következő
az storage container create
parancsot két tároló létrehozásához,rawdata
ésprepareddata
.az storage container create -n rawdata --account-name $storageName az storage container create -n prepareddata --account-name $storageName
Futtassa az alábbi
az keyvault create
parancsot egy új kulcstartó létrehozásához.az keyvault create \ --name $keyVault \ --resource-group $rgName
Hozzon létre egy új adat-előállítót a portál felhasználói felületén vagy az Azure CLI-vel:
- Name:
data-factory-cicd-dev
- Változat:
V2
- Erőforráscsoport:
data-pipeline-cicd-rg
- Hely: A legközelebbi hely
- Törölje a git engedélyezése jelölőnégyzet jelölését.
Adja hozzá az Azure Data Factory bővítményt.
az extension add --name datafactory
Futtassa a következő
az datafactory create
parancsot egy új adat-előállító létrehozásához.az datafactory create \ --name data-factory-cicd-dev \ --resource-group $rgName
Másolja ki az előfizetői azonosítót. Az adat-előállító később ezt az azonosítót fogja használni.
- Name:
Hozzon létre egy második adat-előállítót a portál felhasználói felületén vagy az Azure CLI-vel. Ezt az adat-előállítót fogja használni tesztelésre.
- Name:
data-factory-cicd-test
- Változat:
V2
- Erőforráscsoport:
data-pipeline-cicd-rg
- Hely: A legközelebbi hely
- Törölje a git engedélyezése jelölőnégyzet jelölését.
Futtassa a következő
az datafactory create
parancsot egy új adat-előállító létrehozásához teszteléshez.az datafactory create \ --name data-factory-cicd-test \ --resource-group $rgName
Másolja ki az előfizetői azonosítót. Az adat-előállító később ezt az azonosítót fogja használni.
- Name:
Új Azure Databricks-szolgáltatás hozzáadása:
- Erőforráscsoport:
data-pipeline-cicd-rg
- Munkaterület neve:
databricks-cicd-ws
- Hely: A legközelebbi hely
Adja hozzá az Azure Databricks bővítményt, ha még nincs telepítve.
az extension add --name databricks
Új munkaterület létrehozásához futtassa a következő
az databricks workspace create
parancsot.az databricks workspace create \ --resource-group $rgName \ --name databricks-cicd-ws \ --location eastus2 \ --sku trial
Másolja ki az előfizetői azonosítót. A Databricks-szolgáltatás később ezt az azonosítót fogja használni.
- Erőforráscsoport:
Adatok feltöltése a tárolóba
- Az Azure Portalon nyissa meg a tárfiókot az
data-pipeline-cicd-rg
erőforráscsoportban. - Nyissa meg a Blob Service-tárolókat>.
- Nyissa meg a tárolót
prepareddata
. - Töltse fel a sample.csv fájlt.
A Key Vault beállítása
Az Azure Key Vault használatával fogja tárolni az Azure-szolgáltatások összes kapcsolati információját.
Databricks személyes hozzáférési jogkivonat létrehozása
- Az Azure Portalon nyissa meg a Databrickset, majd nyissa meg a munkaterületet.
- Az Azure Databricks felhasználói felületén hozzon létre és másolja ki a személyes hozzáférési jogkivonatot.
A tárfiók fiókkulcsának és kapcsolati sztring másolása
- Nyissa meg a tárfiókot.
- Nyissa meg a hozzáférési kulcsokat.
- Másolja ki az első kulcsot és kapcsolati sztring.
Értékek mentése a Key Vaultba
Hozzon létre három titkos kódot:
- databricks-token:
your-databricks-pat
- StorageKey:
your-storage-key
- Storage Csatlakozás String:
your-storage-connection
- databricks-token:
A kulcstartó titkos kulcsainak hozzáadásához futtassa a következő
az keyvault secret set
parancsot.az keyvault secret set --vault-name "$keyVault" --name "databricks-token" --value "your-databricks-pat" az keyvault secret set --vault-name "$keyVault" --name "StorageKey" --value "your-storage-key" az keyvault secret set --vault-name "$keyVault" --name "StorageConnectString" --value "your-storage-connection"
Az adatfolyam-megoldás importálása
- Jelentkezzen be az Azure DevOps-szervezetbe, majd nyissa meg a projektet.
- Nyissa meg az Adattárat , majd importálja a GitHub-adattár elágaztatott verzióját. További információ: Git-adattár importálása a projektbe.
Azure Resource Manager-szolgáltatáskapcsolat hozzáadása
- Azure Resource Manager-szolgáltatáskapcsolat létrehozása.
- Válassza a Szolgáltatásnév (automatikus) lehetőséget.
- Válassza ki az data-pipeline-cicd-rg erőforráscsoportot.
- Nevezze el a szolgáltatáskapcsolatot
azure_rm_connection
. - Válassza a Hozzáférési engedély megadása az összes folyamathoz lehetőséget. A beállítás kiválasztásához rendelkeznie kell a Service Csatlakozás ions Rendszergazda istrator szerepkörével.
Folyamatváltozók hozzáadása
Hozzon létre egy új változócsoportot .
datapipeline-vg
Ha még nincs telepítve, adja hozzá az Azure DevOps-bővítményt.
az extension add --name azure-devops
Jelentkezzen be az Azure DevOps-szervezetbe.
az devops login --org https://dev.azure.com/<yourorganizationname>
az pipelines variable-group create --name datapipeline-vg -p <yourazuredevopsprojectname> --variables \ "LOCATION=$region" \ "RESOURCE_GROUP=$rgName" \ "DATA_FACTORY_NAME=$datafactorydev" \ "DATA_FACTORY_DEV_NAME=$datafactorydev" \ "DATA_FACTORY_TEST_NAME=$datafactorytest" \ "ADF_PIPELINE_NAME=DataPipeline" \ "DATABRICKS_NAME=$databricksname" \ "AZURE_RM_CONNECTION=azure_rm_connection" \ "DATABRICKS_URL=<URL copied from Databricks in Azure portal>" \ "STORAGE_ACCOUNT_NAME=$storageName" \ "STORAGE_CONTAINER_NAME=rawdata"
Hozzon létre egy második változócsoportot .
keys-vg
Ez a csoport adatváltozókat fog lekérni a Key Vaultból.Válassza a Titkos kulcsok csatolása lehetőséget egy Azure Key Vaultból változóként. További információ: Titkos kulcsok csatolása egy Azure-kulcstartóból.
Engedélyezze az Azure-előfizetést.
Válassza ki az összes rendelkezésre álló titkos kulcs változóként való hozzáadását (
databricks-token
;StorageConnectString
).StorageKey
Az Azure Databricks és az Azure Data Factory konfigurálása
Az Azure Databricks és az Azure Data Factory beállításához kövesse a következő szakaszok lépéseit.
Testscope létrehozása az Azure Databricksben
- Az Azure Portalon lépjen a Key Vault>tulajdonságai elemre.
- Másolja ki a DNS-nevet és az erőforrás-azonosítót.
- Az Azure Databricks-munkaterületen hozzon létre egy titkos hatókört.
testscope
Új fürt hozzáadása az Azure Databricksben
- Az Azure Databricks-munkaterületen lépjen a Fürtök elemre.
- Válassza a Fürt létrehozása lehetőséget.
- Nevezze el és mentse az új fürtöt.
- Válassza ki az új fürt nevét.
- Az URL-sztringben másolja a tartalmat a következő közé
/clusters/
: és/configuration
. A sztringbenclusters/0306-152107-daft561/configuration
például másolni0306-152107-daft561
kell. - Mentse ezt a sztringet későbbi használatra.
A kódtár beállítása az Azure Data Factoryben
- Az Azure Data Factoryben nyissa meg a Szerző és monitor lehetőséget. További információ: Adat-előállító létrehozása.
- Válassza a Kódtár beállítása lehetőséget, majd csatlakoztassa az adattárat.
- Adattár típusa: Azure DevOps Git
- Azure DevOps-szervezet: Az aktív fiók
- Projekt neve: Az Azure DevOps-adatfolyamat-projekt
- Git-adattár neve: Meglévő használata.
- Válassza ki a fő ágat az együttműködéshez.
- Állítsa be az /azure-data-pipeline/factorydata értéket gyökérmappáként.
- Ág, amelybe importálni szeretné az erőforrást: Válassza a Meglévő és a Fő használata lehetőséget.
Az Azure Data Factory csatlakoztatása a kulcstartóhoz
- Az Azure Portal felhasználói felületén nyissa meg a kulcstartót.
- Válassza a Hozzáférési szabályzatok lehetőséget.
- Válassza a Hozzáférési szabályzat hozzáadása lehetőséget.
- A sablonból való konfiguráláshoz válassza a Key &Secret Management lehetőséget.
- Az Egyszerű kiválasztása területen keresse meg a fejlesztői adat-előállító nevét, és adja hozzá.
- A hozzáférési szabályzatok hozzáadásához válassza a Hozzáadás lehetőséget.
- Ismételje meg ezeket a lépéseket a tesztadat-előállító hozzáférési szabályzatának hozzáadásához.
A Key Vault társított szolgáltatásának frissítése az Azure Data Factoryben
- Nyissa meg a Társított szolgáltatások kezelése>elemet.
- Frissítse az Azure Key Vaultot az előfizetéshez való csatlakozáshoz.
A tárhoz társított szolgáltatás frissítése az Azure Data Factoryben
- Nyissa meg a Társított szolgáltatások kezelése>elemet.
- Frissítse az Azure Blob Storage értékét az előfizetéshez való csatlakozáshoz.
Az Azure Databricks társított szolgáltatásának frissítése az Azure Data Factoryben
- Nyissa meg a Társított szolgáltatások kezelése>elemet.
- Frissítse az Azure Databricks értékét az előfizetéshez való csatlakozáshoz.
- A meglévő fürtazonosítóhoz adja meg a korábban mentett fürtértéket.
Az adat-előállító tesztelése és közzététele
- Az Azure Data Factoryben nyissa meg a Szerkesztés elemet.
- Nyílt
DataPipeline
. - Válassza a Változók lehetőséget.
- Ellenőrizze, hogy a
storage_account_name
tárfiókra hivatkozik-e az Azure Portalon. Szükség esetén frissítse az alapértelmezett értéket. Módosítások mentése. - Az ellenőrzéshez
DataPipeline
válassza az Ellenőrzés lehetőséget. - Válassza a Közzététel lehetőséget, ha adat-előállítói objektumokat szeretne közzétenni az
adf_publish
adattár ágában.
A CI/CD-folyamat futtatása
A folyamatos integrációs és folyamatos kézbesítési (CI/CD) folyamat futtatásához kövesse az alábbi lépéseket:
- Lépjen a Folyamatok lapra . Ezután válassza ki a műveletet egy új folyamat létrehozásához.
- Válassza az Azure Repos Gitet a forráskód helyeként.
- Amikor megjelenik az adattárak listája, válassza ki az adattárat.
- A folyamat beállításakor válassza a Meglévő Azure Pipelines YAML-fájlt. Válassza ki a YAML-fájlt: /azure-data-pipeline/data_pipeline_ci_cd.yml.
- A folyamat futtatása. Ha a folyamatot még nem futtatták, előfordulhat, hogy engedélyt kell adnia egy erőforrás elérésére a futtatás során.
Clean up resources
Ha nem folytatja az alkalmazás használatát, törölje az adatfolyamot az alábbi lépések végrehajtásával:
- Törölje az
data-pipeline-cicd-rg
erőforráscsoportot. - Törölje az Azure DevOps-projektet.
További lépések
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: