Share via


Gegevensbeheer

Meer informatie over het beheren van gegevenstoegang en verificatie in Azure Machine Learning.

VAN TOEPASSING OP:Azure CLI ml extension v2 (current)Python SDK azure-ai-ml v2 (current)

Belangrijk

Dit artikel is bedoeld voor Azure-beheerders die de vereiste infrastructuur willen maken voor een Azure Machine Learning-oplossing.

Gegevensverificatie op basis van referenties

Over het algemeen omvat verificatie op basis van referenties de volgende controles:

  • Heeft de gebruiker die toegang heeft tot gegevens uit het gegevensarchief op basis van referenties een rol toegewezen met op rollen gebaseerd toegangsbeheer (RBAC) dat Microsoft.MachineLearningServices/workspaces/datastores/listsecrets/action?

    • Deze machtiging is vereist om referenties op te halen uit het gegevensarchief voor de gebruiker.
    • Ingebouwde rollen die deze machtiging bevatten, zijn al Inzender, Azure AI Developer of Azure Machine Learning Datawetenschapper. Als er een aangepaste rol wordt toegepast, moet u er ook voor zorgen dat deze machtiging wordt toegevoegd aan die aangepaste rol.
    • U moet weten welke specifieke gebruiker toegang probeert te krijgen tot de gegevens. Het kan een echte gebruiker zijn met een gebruikersidentiteit of een computer met een beheerde identiteit (MSI). Zie de sectie Scenario's en verificatieopties om de identiteit te identificeren waarvoor u machtigingen moet toevoegen.
  • Heeft de opgeslagen referentie (service-principal, accountsleutel of handtekeningtoken voor gedeelde toegang) toegang tot de gegevensresource?

Op identiteit gebaseerde gegevensverificatie

Over het algemeen omvat verificatie op basis van identiteiten de volgende controles:

  • Welke gebruiker wil toegang krijgen tot de resources?
    • Afhankelijk van de context wanneer de gegevens worden geopend, zijn er verschillende typen verificatie beschikbaar, bijvoorbeeld:
      • Gebruikersidentiteit
      • Beheerde identiteit berekenen
      • Beheerde identiteit voor werkruimte
    • Taken, inclusief de optie voor gegevenssets Generate Profile , worden uitgevoerd op een rekenresource in uw abonnement en hebben toegang tot de gegevens vanaf die locatie. De beheerde identiteit van het rekenproces heeft toestemming nodig voor de opslagresource, in plaats van de identiteit van de gebruiker die de taak heeft ingediend.
    • Voor verificatie op basis van een gebruikersidentiteit moet u weten welke specifieke gebruiker toegang probeert te krijgen tot de opslagresource. Zie Verificatie voor Azure Machine Learning voor meer informatie over gebruikersverificatie. Zie Verificatie tussen Azure Machine Learning en andere services voor meer informatie over verificatie op serviceniveau.
  • Heeft deze gebruiker toestemming om te lezen?
  • Heeft deze gebruiker toestemming om te schrijven?
    • Heeft de gebruikersidentiteit of de beheerde identiteit voor compute de benodigde machtigingen voor die opslagresource? Machtigingen worden verleend met behulp van Azure RBAC.
    • De lezer van het opslagaccount leest de metagegevens van de opslag.
    • De inzender voor opslagblobgegevens leest, schrijft en verwijdert Azure Storage-containers en -blobs.
    • Zie ingebouwde Azure-rollen voor opslag voor meer informatie.

Andere algemene controles op verificatie

  • Waar komt de toegang vandaan?
    • Gebruiker: Bevindt het IP-adres van de client zich in het virtuele netwerk/subnetbereik?
    • Werkruimte: Is de werkruimte openbaar of heeft deze een privé-eindpunt in een virtueel netwerk/subnet?
    • Opslag: Staat de opslag openbare toegang toe of beperkt deze de toegang via een service-eindpunt of een privé-eindpunt?
  • Welke bewerking wordt uitgevoerd?
    • Azure Machine Learning verwerkt bewerkingen voor maken, lezen, bijwerken en verwijderen (CRUD) in een gegevensarchief/gegevensset.
    • Archiefbewerkingen op gegevensassets in Azure Machine Learning-studio deze RBAC-bewerking vereisen:Microsoft.MachineLearningServices/workspaces/datasets/registered/delete
    • Aanroepen voor gegevenstoegang (bijvoorbeeld preview of schema) gaan naar de onderliggende opslag en hebben extra machtigingen nodig.
  • Wordt deze bewerking uitgevoerd in rekenresources of resources van uw Azure-abonnement die worden gehost in een Microsoft-abonnement?
    • Alle aanroepen naar services voor gegevenssets en gegevensopslag (behalve de Generate Profile optie) maken gebruik van resources die worden gehost in een Microsoft-abonnement om de bewerkingen uit te voeren.
    • Taken, inclusief de optie voor gegevenssets Generate Profile , worden uitgevoerd op een rekenresource in uw abonnement en hebben toegang tot de gegevens vanaf die locatie. De rekenidentiteit moet zijn gemachtigd voor de opslagresource, in plaats van de identiteit van de gebruiker die de taak heeft ingediend.

In dit diagram ziet u de algemene stroom van een aanroep voor gegevenstoegang. Hier probeert een gebruiker een gegevenstoegang aan te roepen via een Machine Learning-werkruimte, zonder een rekenresource te gebruiken.

Diagram met de logische stroom bij het openen van gegevens.

Scenario's en verificatieopties

Deze tabel bevat de identiteiten die moeten worden gebruikt voor specifieke scenario's.

Configuratie Lokale SDK-/notebook-VM Project Voorbeeld van gegevensset Bladeren door gegevensarchief
Referentie + werkruimte-MSI Referentie Referentie Werkruimte-MSI Referentie (alleen accountsleutel en handtekeningtoken voor gedeelde toegang)
Geen referentie en werkruimte-MSI MSI/gebruikersidentiteit berekenen MSI/gebruikersidentiteit berekenen Werkruimte-MSI Gebruikersidentiteit
Referentie + geen werkruimte-MSI Referentie Referentie Referentie (niet ondersteund voor De preview van gegevenssets onder privénetwerk) Referentie (alleen accountsleutel en handtekeningtoken voor gedeelde toegang)
Geen referentie en geen msi-werkruimte MSI/gebruikersidentiteit berekenen MSI/gebruikersidentiteit berekenen Gebruikersidentiteit Gebruikersidentiteit

Voor SDK V1 gebruikt gegevensverificatie in een taak altijd reken-MSI. Voor SDK V2 is gegevensverificatie in een taak afhankelijk van de taakinstelling. Het kan een gebruikersidentiteit zijn of msi berekenen op basis van uw instelling.

Tip

Voor toegang tot gegevens van buiten Machine Learning, bijvoorbeeld met Azure Storage Explorer, is die toegang waarschijnlijk afhankelijk van de gebruikersidentiteit . Raadpleeg de documentatie voor het hulpprogramma of de service die u gebruikt voor specifieke informatie. Zie Verificatie instellen tussen Azure Machine Learning en andere services voor meer informatie over hoe Machine Learning met gegevens werkt.

Specifieke vereisten voor virtueel netwerk

De volgende informatie helpt u bij het instellen van gegevensverificatie voor toegang tot gegevens achter een virtueel netwerk vanuit een Machine Learning-werkruimte.

Machtigingen van een opslagaccount toevoegen aan een beheerde identiteit van een Machine Learning-werkruimte

Wanneer u een opslagaccount van de studio gebruikt en u de preview-versie van de gegevensset wilt zien, moet u Beheerde identiteit van de werkruimte gebruiken inschakelen voor gegevensvoorbeelden en profilering in Azure Machine Learning-studio in de instelling voor het gegevensarchief. Voeg vervolgens de volgende Azure RBAC-rollen van het opslagaccount toe aan de beheerde identiteit van de werkruimte:

  • Blob-gegevenslezer
  • Als het opslagaccount een privé-eindpunt gebruikt om verbinding te maken met het virtuele netwerk, moet u de rol Lezer voor het privé-eindpunt van het opslagaccount toewijzen aan de beheerde identiteit.

Zie Azure Machine Learning-studio gebruiken in een virtueel Azure-netwerk voor meer informatie.

In de volgende secties worden de beperkingen uitgelegd van het gebruik van een opslagaccount, met uw werkruimte, in een virtueel netwerk.

Communicatie beveiligen met een opslagaccount

Als u de communicatie tussen Machine Learning- en opslagaccounts wilt beveiligen, configureert u de opslag om toegang te verlenen tot vertrouwde Azure-services.

Azure Storage-firewall

Wanneer een opslagaccount zich achter een virtueel netwerk bevindt, kan de opslagfirewall normaal gesproken worden gebruikt om uw client rechtstreeks via internet verbinding te laten maken. Wanneer u de studio gebruikt, maakt uw client echter geen verbinding met het opslagaccount. De Machine Learning-service waarmee de aanvraag verbinding maakt met het opslagaccount. Het IP-adres van de service wordt niet gedocumenteerd en wordt regelmatig gewijzigd. Als u de opslagfirewall inschakelt, heeft de studio geen toegang tot het opslagaccount in een configuratie van een virtueel netwerk.

Azure Storage-eindpunttype

Wanneer de werkruimte gebruikmaakt van een privé-eindpunt en het opslagaccount zich ook in het virtuele netwerk bevindt, ontstaan er extra validatievereisten wanneer u de studio gebruikt:

  • Als het opslagaccount een service-eindpunt gebruikt, moeten het privé-eindpunt en het eindpunt van de opslagservice zich in hetzelfde subnet van het virtuele netwerk bevinden.
  • Als het opslagaccount een privé-eindpunt gebruikt, moeten het privé-eindpunt van de werkruimte en het privé-eindpunt van de opslag zich in hetzelfde virtuele netwerk bevinden. In dit geval kunnen ze zich in verschillende subnetten bevinden.

Azure Data Lake Storage Gen1

Wanneer u Azure Data Lake Storage Gen1 als gegevensarchief gebruikt, kunt u alleen toegangsbeheerlijsten in POSIX-stijl gebruiken. U kunt de beheerde identiteit van de werkruimte toegang tot resources toewijzen, zoals elke andere beveiligingsprincipaal. Zie Toegangsbeheer in Azure Data Lake Storage Gen1 voor meer informatie.

Azure Data Lake Storage Gen2

Wanneer u Azure Data Lake Storage Gen2 als gegevensarchief gebruikt, kunt u toegangsbeheerlijsten (ACL's) van Azure RBAC en POSIX gebruiken om de toegang tot gegevens in een virtueel netwerk te beheren.

  • Ga als volgt te werk om Azure RBAC te gebruiken: Volg de stappen die worden beschreven in datastore: Azure Storage-account. Data Lake Storage Gen2 is gebaseerd op Azure Storage, dus dezelfde stappen zijn van toepassing wanneer u Azure RBAC gebruikt.
  • ACL's gebruiken: de beheerde identiteit van de werkruimte kan worden toegewezen als elke andere beveiligingsprincipal. Zie Toegangsbeheerlijsten voor bestanden en mappen voor meer informatie.

Volgende stappen

Zie Azure Machine Learning-studio gebruiken in een virtueel Azure-netwerk voor meer informatie over het inschakelen van de studio in een netwerk.