Organisera och konfigurera Azure Machine Learning miljöerOrganize and set up Azure Machine Learning environments

När du planerar en Azure Machine Learning distribution för en företags miljö finns det några vanliga besluts punkter som påverkar hur du skapar arbets ytan:When planning an Azure Machine Learning deployment for an enterprise environment, there are some common decision points that affect how you create the workspace:

  • Team struktur: Hur dina Machine Learning-team organiseras och samar beta med projekt som har fått användnings fall och data åtskillnad eller krav för kostnads hantering.Team structure: The way your Machine Learning teams are organized and collaborate on projects given use case and data segregation, or cost management requirements.

  • Miljöer: De miljöer som används som en del av ditt utvecklings-och publicerings arbets flöde för att åtskilja utvecklingen från produktionen.Environments: The environments used as part of your development and release workflow to segregate development from production.

  • Region: Platsen för dina data och den mål grupp som du behöver för att kunna hantera din Machine Learning-lösning.Region: The location of your data and the audience you need to serve your Machine Learning solution to.

Konfiguration av team struktur och arbets ytaTeam structure and workspace setup

Arbets ytan är resursen på den översta nivån i Azure Machine Learning.The workspace is the top-level resource in Azure Machine Learning. Den innehåller de artefakter som skapas när du arbetar med Machine Learning och den hanterade beräkningen och pekarna till anslutna och associerade resurser.It stores the artifacts produced when working with Machine Learning and the managed compute and pointers to attached and associated resources. Från en hanterings synpunkt kan arbets ytan som en Azure Resource Manager resurs tillåta rollbaserad åtkomst kontroll i Azure (Azure RBAC), hantering per princip och kan användas som en enhet för kostnads rapportering.From a manageability standpoint, the workspace as an Azure Resource Manager resource allows for Azure role-based access control (Azure RBAC), management by Policy, and can be used as a unit for cost reporting.

Organisationer väljer vanligt vis en eller en kombination av följande lösnings mönster för att följa hanterings kraven.Organizations typically choose one or a combination of the following solution patterns to follow manageability requirements.

Arbets yta per team: Välj att använda en arbets yta för varje team när alla medlemmar i ett team kräver samma åtkomst nivå till data och experiment till gångar.Workspace per team: Choose to use one workspace for each team when all members of a team require the same level of access to data and experimentation assets. Till exempel kan en organisation med tre maskin inlärnings team skapa tre arbets ytor, en för varje team.For example, an organization with three machine learning teams might create three workspaces, one for each team.

Fördelen med att använda en arbets yta per team är att alla Machine Learning artefakter för teamets projekt lagras på ett och samma ställe.The benefit of using one workspace per team is that all Machine Learning artifacts for the team’s projects are stored in one place. Produktivitets ökningar kan realiseras eftersom grupp medlemmar enkelt kan komma åt, utforska och återanvända experiment resultat.Productivity increases can be realized because team members can easily access, explore, and reuse experimentation results. Genom att organisera dina arbets ytor efter grupp minskar du ditt Azure-utrymme och fören klar kostnads hanteringen per team.Organizing your workspaces by team reduces your Azure footprint and simplifies cost management by team. Eftersom antalet experiment resurser kan växa snabbt kan du hålla dina artefakter ordnade genom att följa namn och tagga konventioner.Because the number of experimentation assets can grow quickly, you can keep your artifacts organized by following naming and tagging conventions. Rekommendationer om hur du namnger resurser finns i utveckla din namngivnings-och taggnings strategi för Azure-resurser.For recommendations about how to name resources, see Develop your naming and tagging strategy for Azure resources.

Ett övervägande för den här metoden är att varje grupp medlem måste ha liknande behörigheter för data åtkomst nivå.A consideration for this approach is each team member must have similar data access level permissions. Detaljerade RBAC-och åtkomst kontrol listor (ACL) för data källor och experiment resurser är begränsade inom en arbets yta.Granular RBAC and access control lists (ACL) for data sources and experimentation assets are limited within a workspace. Du kan inte ha krav för användnings fall data uppdelning.You can’t have use case data segregation requirements.

Arbets yta per projekt: Välj att använda en arbets yta för varje projekt om du behöver särskiljande data och experimentering i projektet, eller om du har kostnads rapportering och budget krav på projekt nivå.Workspace per project: Choose to use one workspace for each project if you require segregation of data and experimentation assets by project, or have cost reporting and budgeting requirements at a project level. Till exempel kan en organisation med fyra maskin inlärnings team som varje kör tre projekt Skapa 12 arbets ytans instanser.For example, an organization with four machine learning teams that each runs three projects, might create 12 workspace instances.

Fördelen med att använda en arbets yta per projekt är att kostnaderna kan hanteras på projekt nivå.The benefit of using one workspace per project is that costs can be managed at the project level. Team skapar vanligt vis en dedikerad resurs grupp för Azure Machine Learning och tillhör ande resurser av liknande skäl.Teams typically create a dedicated resource group for Azure Machine Learning and associated resources for similar reasons. När du arbetar med externa deltagare fören klar en projekt – centrerad arbets yta samarbete i ett projekt eftersom externa användare bara behöver beviljas åtkomst till projekt resurserna, inte team resurserna.When you work with external contributors, for example, a project-centered workspace simplifies collaboration on a project because external users only need to be granted access to the project resources, not the team resources.

Ett övervägande med den här metoden är isolering av experiment resultat och till gångar.A consideration with this approach is the isolation of experimentation results and assets. Identifiering och åter användning av till gångar kan vara svårare eftersom det är svårt att sprida till gångar över flera arbets ytans instanser.The discovery and reuse of the assets might be more difficult because of assets being spread across multiple workspace instances.

Enskild arbets yta: Välj att använda en arbets yta för icke-grupprelaterade eller icke-projektrelaterade arbete, eller när kostnader inte kan kopplas direkt till en speciell fakturerings enhet, till exempel med R&D.Single Workspace: Choose to use one workspace for non-team or non-project related work, or when costs can’t be directly associated to a specific unit of billing, for example with R&D.

Fördelen med den här konfigurationen är kostnaden för enskilda, icke-projektrelaterade arbete som kan frigöras från projektrelaterade kostnader.The benefit of this setup is the cost of individual, non-project related work can be decoupled from project-related costs. När du konfigurerar en enskild arbets yta för att alla användare ska kunna utföra sitt arbete minskar du ditt Azure-utrymme.When you set up a single workspace for all users to do their individual work, you reduce your Azure footprint.

Ett övervägande för den här metoden är att arbets ytan kan bli rörigt snabbt när många Machine Learning läkare delar samma instans.A consideration for this approach is the workspace might become cluttered quickly when many Machine Learning practitioners share the same instance. Användare kan behöva UI-baserad filtrering av till gångar för att effektivt hitta sina resurser.Users might require UI-based filtering of assets to effectively find their resources. Du kan skapa delade Machine Learning arbets ytor för varje affärs division för att minimera skalnings problem eller för att segmentera budgetar.You can create shared Machine Learning workspaces for each business division to mitigate scale concerns or to segment budgets.

Installation av miljöer och arbets ytorEnvironments and workspace setup

En miljö är en samling resurser som distribuerar mål baserat på deras fas i programmets livs cykel.An environment is a collection of resources that deployments target based on their stage in the application lifecycle. Vanliga exempel på miljö namn är utveckling, testning, frågor och svar, mellanlagring och produktion.Common examples of environment names are Dev, Test, QA, Staging, and Production.

Utvecklings processen i din organisation påverkar kraven för miljö användning.The development process in your organization affects requirements for environment usage. Din miljö påverkar konfigurationen av Azure Machine Learning och tillhör ande resurser, till exempel kopplad beräkning.Your environment affects the setup of Azure Machine Learning and associated resources, for example attached compute. Till exempel kan data tillgänglighet innebära begränsningar för hanteringen av en Machine Learning instans som är tillgänglig för varje miljö.For example, data availability might put constraints on the manageability of having a Machine Learning instance available for each environment. Följande lösnings mönster är vanliga:The following solution patterns are common:

Distribution av enskild miljö arbets yta: När du väljer en distribution av en arbets yta för en miljö, distribueras Azure Machine Learning till en miljö.Single environment workspace deployment: When you choose a single environment workspace deployment, Azure Machine Learning is deployed to one environment. Den här inställningen är vanlig för scenarier med forsknings Center, där det inte finns några behov av att släppa Machine Learning artefakter som baseras på deras livs cykel steg, i olika miljöer.This setup is common for research-centered scenarios, where there is no need to release Machine Learning artifacts based on their lifecycle stage, across environments. Ett annat scenario där den här installationen är obegriplig är när endast inferencing-tjänster, och inte Machine Learning pipelines, distribueras i olika miljöer.Another scenario where this setup makes sense is when only inferencing services, and not Machine Learning pipelines, are deployed across environments.

Fördelen med en forskning – centrerad installation är ett mindre Azure-utrymme och minimal hantering.The benefit of a research-centered setup is a smaller Azure footprint and minimal management overhead. Det här sättet att arbeta innebär att du inte behöver ha en Azure Machine Learning arbets yta distribuerad i varje miljö.This way of working implies no need to have an Azure Machine Learning workspace deployed in each environment.

Ett övervägande för den här metoden är en enskild miljö distribution som är beroende av data tillgänglighet.A consideration for this approach is a single environment deployment is subject to data availability. Varning krävs med data lagrings inställningen.Caution is required with the Datastore set up. Om du konfigurerar omfattande åtkomst, till exempel skrivar åtkomst på produktions data källor, kan du oavsiktligt skada data kvaliteten.If you set up extensive access, for example, writer access on production data sources, you might unintentionally harm data quality. Om du använder produktion i samma miljö där utvecklingen är färdig gäller samma RBAC-begränsningar för både utvecklings arbetet och produktions arbetet.If you bring work to production in the same environment where development is done, the same RBAC restrictions apply for both the development work and the production work. Den här installationen kan göra båda miljöerna för stela eller för flexibla.This setup might make both environments too rigid or too flexible.

Distribution av enskild miljö

Distribution av flera miljö arbets ytor: När du väljer en distributions arbets yta för flera miljöer distribueras en instans av arbets ytan för varje miljö.Multiple environment workspace deployment: When you choose a multiple environment workspace deployment, a workspace instance is deployed for each environment. Ett vanligt scenario för den här installationen är en reglerad arbets yta med en tydlig separation av uppgifter mellan miljöer och för användare som har resurs åtkomst till dessa miljöer.A common scenario for this setup is a regulated workplace with a clear separation of duties between environments, and for users who have resource access to those environments.

Fördelarna med den här konfigurationen är:The benefits of this setup are:

  • Stegvis distribution av Machine Learning arbets flöden och artefakter.Staged rollout of Machine Learning workflows and artifacts. Till exempel modeller över miljöer, med potentialen att öka flexibiliteten och minska tiden till distribution.For example, models across environments, with the potential of enhancing agility and reducing time-to-deployment.

  • Förbättrad säkerhet och kontroll av resurser eftersom du kan tilldela fler åtkomst begränsningar i underordnade miljöer.Enhanced security and control of resources because you have the ability to assign more access restrictions in downstream environments.

  • Tränings scenarier för produktions data i miljöer som inte är utvecklings miljöer, eftersom du kan ge en Välj grupp med användare åtkomst.Training scenarios on production data in non-development environments because you can give a select group of users access.

Ett övervägande för den här metoden är att du är utsatt för större hanterings-och process kostnader eftersom den här installationen kräver en detaljerad utvecklings-och distributions process för Machine Learning artefakter mellan arbets ytans instanser.A consideration for this approach is you are at risk for more management and process overhead since this setup requires a fine-grained development and rollout process for Machine Learning artifacts across workspace instances. Dessutom kan data hantering och teknik ansträngning krävas för att göra produktions data tillgängliga för utbildning i utvecklings miljön.Additionally, data management and engineering effort might be required to make production data available for training in the development environment. Åtkomst hantering krävs för att du ska få en grupp åtkomst för att lösa och undersöka incidenter i produktionen.Access management is required for you to give a team access to resolve and investigate incidents in production. Och slutligen behövs Azure-DevOps och Machine Learning teknik expert isen i teamet för att implementera automatiserings arbets flöden.And finally, Azure DevOps and Machine Learning engineering expertise is needed on your team to implement automation workflows.

Distribution av flera miljöer

En miljö med begränsad data åtkomst, en med åtkomst till produktions data: När du väljer den här konfigurationen distribueras Azure Machine Learning till två miljöer – en miljö som har begränsad data åtkomst och en miljö som har åtkomst till produktions data.One environment with limited data access, one with production data access: When you choose this setup, Azure Machine Learning is deployed to two environments – one environment that has limited data access, and one environment that has production data access. Den här inställningen är vanlig om du har ett krav för att åtskilja utvecklings-och produktions miljöer.This setup is common if you have a requirement to segregate development and production environments. Om du till exempel arbetar under organisations begränsningar för att göra produktions data tillgängliga i en miljö eller när du vill särskilja utvecklings arbete från produktions arbetet utan att behöva duplicera data mer än vad som krävs på grund av den höga kostnaden för underhållet.For example, if you are working under organizational constraints to make production data available in any environment or when you want to segregate development work from production work without duplicating data more than required due to the high cost of maintenance.

Fördelen med den här konfigurationen är den tydliga separationen av uppgifter och åtkomst mellan utvecklings-och produktions miljöer.The benefit of this setup is the clear separation of duties and access between development and production environments. En annan förmån är lägre resurs hanterings kostnader jämfört med ett distributions scenario med flera miljöer.Another benefit is lower resource management overhead when compared to a multi-environment deployment scenario.

En beskrivning av den här metoden är att en definierad utvecklings-och distributions process för Machine Learning artefakter mellan arbets ytor krävs.A consideration for this approach a defined development and rollout process for Machine Learning artifacts across workspaces is required. Ett annat övervägande är att data hantering och teknik arbete kan krävas för att göra produktions data tillgängliga för utbildning i en utvecklings miljö.Another consideration is data management and engineering effort might be required to make production data available for training in a development environment. Det kan dock kräva relativt mindre ansträngning än en distribution av flera miljö arbets ytor.However, it might require relatively less effort than a multi-environment workspace deployment.

En miljö med begränsad data åtkomst, en miljö med åtkomst till produktions data

Regioner och resurs inställningarRegions and resource setup

Platsen för dina resurser, data eller användare kan kräva att du skapar Azure Machine Learning arbets ytans instanser och tillhör ande resurser i flera Azure-regioner.The location of your resources, data, or users, might require you to create Azure Machine Learning workspace instances and associated resources in multiple Azure regions. Ett projekt kan till exempel omfatta sina resurser i regionerna Europa, västra och USA, östra Azure för prestanda, kostnad och efterlevnad.For example, one project might span its resources across the West Europe and East US Azure regions for performance, cost, and compliance reasons. Följande scenarier är vanliga:The following scenarios are common:

Regional utbildning: Utbildnings jobben för Machine Learning körs i samma Azure-region som data befinner sig.Regional training: The machine learning training jobs run in the same Azure region as where the data is located. I den här installationen distribueras en Machine Learning arbets yta till varje Azure-region där data finns.In this setup, a Machine Learning workspace is deployed to each Azure region where data is located. Det är ett vanligt scenario när du agerar under efterlevnad, eller när du har begränsningar för data förflyttning i flera regioner.It's a common scenario when you are acting under compliance, or when you have data movement constraints across regions.

Fördelen med den här konfigurationen är att experimentering kan utföras i data centret där data finns med minsta möjliga nätverks svars tid.The benefit of this setup is experimentation can be done in the data center where the data is located with the least network latency. Ett övervägande för den här metoden är när en Machine Learning pipelinen körs över flera arbets ytans instanser, men den lägger till mer hanterings komplexitet.A consideration for this approach is when a Machine Learning pipeline is run across multiple workspace instances, it adds more management complexity. Det blir svårt att jämföra experiment resultatet över flera instanser och lägger till kostnader för kvot-och beräknings hantering.It becomes challenging to compare experimentation results across instances and adds overhead to quota and compute management.

Om du vill koppla lagring över regioner, men använda beräkning från en region, Azure Machine Learning har stöd för scenariot med att bifoga lagrings konton i en region i stället för arbets ytan.If you want to attach storage across regions, but use compute from one region, Azure Machine Learning supports the scenario of attaching storage accounts in a region rather than the workspace. Metadata, till exempel mått, kommer att lagras i region för arbets ytan.Metadata, for example metrics, will be stored in the workspace region.

Regional utbildning

Regional betjäning: Machine Learning Services distribueras nära den plats där mål publiken bor.Regional serving: Machine Learning services are deployed close to where the target audience lives. Om till exempel mål användare finns i Australien och den huvudsakliga lagrings-och experiment regionen är Västeuropa, distribuerar du Machine Learning arbets ytan för experimentering i Västeuropa och distribuerar ett AKS-kluster för distribution av slut punkts slut punkt i Australien.For example, if target users are in Australia and the main storage and experimentation region is West Europe, deploy the Machine Learning workspace for experimentation in West Europe, and deploy an AKS cluster for inference endpoint deployment in Australia.

Fördelarna med den här installationen är möjligheten för inferencing i data centret där nya data matas in, minimerar svars tid och data förflyttning samt efterlevnad av lokala föreskrifter.The benefits of this setup are the opportunity for inferencing in the data center where new data is ingested, minimizing latency and data movement, and compliance with local regulations.

En fördel med den här metoden är att en installation med flera regioner ger flera fördelar, men ger också större kostnader för kvot-och beräknings hantering.A consideration for this approach is a multi-region setup provides several advantages, it also adds more overhead on quota and compute management. Om det finns ett krav för batch-inferencing kan regional betjäning kräva en distribution med flera arbets ytor.When there is a requirement for batch inferencing, regional serving might require a multi-workspace deployment. Data som samlas in via inferencing-slutpunkter kan behöva överföras mellan regioner för omskolnings scenarier.Data collected through inferencing endpoints might require to be transferred across regions for retraining scenarios.

Regional betjäning

Regional fin justering: En bas modell tränas på en ursprunglig data uppsättning, till exempel offentliga data eller data från alla regioner och är senare finjusterad med en regional data uppsättning.Regional fine-tuning: A base model is trained on an initial dataset, for example, public data or data from all regions, and is later fine-tuned with a regional dataset. Den regionala data uppsättningen kan bara finnas i en viss region på grund av begränsningar för efterlevnad eller data förflyttning.The regional dataset might only exist in a particular region because of compliance or data movement constraints. Till exempel kan bas modell träning utföras i en arbets yta i region A, medan fin justering kan göras i en arbets yta i region B.For example, base model training might be done in a workspace in region A, while fine tuning might be done in a workspace in region B.

Fördelen med den här inställningen är att experimentering är tillgängligt i data centret där data finns och fortfarande utnyttjar bas modell utbildningen på en större data uppsättning i en tidigare pipeline-fas.The benefit of this setup is experimentation is available in compliance with the data center where the data resides, and still takes advantage of base model training on a larger dataset in an earlier pipeline stage.

Ett övervägande är att den här metoden ger möjlighet till komplexa experimentbaserade pipelines, men det kan också skapa fler utmaningar.A consideration is this approach provides the ability for complex experimentation pipelines, however it might create more challenges. Du kan till exempel jämföra experiment resultat mellan regioner och lägga till mer kostnader för kvot-och beräknings hantering.For example, comparing experiment results across regions and more adding more overhead to quota and compute management.

Regional fin justering

ReferensimplementeringReference implementation

För att illustrera distributionen av Azure Machine Learning i en större inställning beskriver det här avsnittet hur organisationen "contoso" har konfigurerat Azure Machine Learning med hänsyn till deras organisations begränsningar, rapportering och budget krav:To illustrate the deployment of Azure Machine Learning in a larger setting, this section outlines how the organization 'Contoso' has set up Azure Machine Learning given their organizational constraints, reporting, and budgeting requirements:

  • Contoso skapar resurs grupper baserat på en lösning för kostnads hantering och rapporterings orsaker.Contoso creates resource groups on a solution basis for cost management and reporting reasons.

  • IT-administratörer skapar bara resurs grupper och resurser för finansiering av lösningar som uppfyller budget kraven.IT administrators only create resource groups and resources for funded solutions to meet budget requirements.

  • På grund av Explorative och osäker typ av data vetenskap behöver användarna ha en plats för att experimentera och arbeta för användnings fall och data utforskning.Because of the explorative and uncertain nature of Data Science, there’s a need for users to have a place to experiment and work for use case and data exploration. Explorative arbete många gånger kan inte vara direkt kopplat till ett visst användnings fall och kan bara kopplas till R&D-budget.Explorative work many times can’t be directly associated to a particular use case, and can be associated only to R&D budget. Contoso vill finansiera vissa Machine Learning-resurser centralt så att vem som helst kan använda dem i utforsknings syfte.Contoso is looking to fund some Machine Learning resources centrally that anyone can use for exploration purposes.

  • När ett Machine Learning användnings fall visar sig vara klart i Explorative-miljön kan teamen begära resurs grupper.Once a Machine Learning use case proves to be successful in the explorative environment, teams can request resource groups. Till exempel utveckling, frågor och svar för återkommande experimentering av projekt, och åtkomst till produktions data källor kan konfigureras.For example, Dev, QA, and Prod for iterative experimentation project work, and access to production data sources can be set up.

  • Krav för data särskiljning och efterlevnad tillåter inte att Live-produktions data finns i utvecklings miljöerData segregation and compliance requirements don’t allow live production data to exist in development environments

  • Det finns olika RBAC-krav för olika användar grupper efter IT-princip per miljö, till exempel åtkomst är mer restriktiv i produktionen.Different RBAC requirements exist for various user groups by IT policy per environment, for example access is more restrictive in production.

  • Alla data, experiment och inferencing görs i en enda Azure-region.All data, experimentation, and inferencing is done in a single Azure region.

Contoso har ställt in sina resurser på följande sätt för att uppfylla ovanstående krav:To adhere to the above requirements, Contoso has set up their resources in the following way:

  • Azure Machine Learning arbets ytor och resurs grupper omfattas av projekt för att följa kraven för budgetering och användnings fall.Azure Machine Learning workspaces and resource groups are scoped per project to follow budgeting and use case segregation requirements.
  • En konfiguration med flera miljöer för Azure Machine Learning och associerade resurser för att hantera kostnads hanterings-, RBAC-och data åtkomst krav.A multiple-environment setup for Azure Machine Learning and associated resources to address cost management, RBAC, and data access requirements.
  • En enda resurs grupp och Machine Learning arbets yta som är dedikerad för utforskning.A single resource group and Machine Learning workspace that is dedicated for exploration.
  • Azure Active Directory grupper som är olika per användar roll och miljö, till exempel åtgärder som en data expert kan utföra i en produktions miljö skiljer sig åt i utvecklings miljön, och åtkomst nivåerna kan skilja sig per lösning.Azure Active Directory groups that are different per user role and environment, for example operations that a data scientist can do in a production environment are different than in the development environment, and access levels might differ per solution.
  • Alla resurser skapas i en enda Azure-regionAll resources are created in a single Azure region

Contoso referens implementering