Amministrazione dati

Articolo
04/25/2024

Informazioni su come gestire l'accesso ai dati ed eseguire l'autenticazione in Azure Machine Learning

SI APPLICA A:Estensione ML dell'interfaccia della riga di comando di Azure v2 (corrente)Python SDK azure-ai-ml v2 (corrente)

Importante

Questo articolo è destinato agli amministratori di Azure che intendono creare l'infrastruttura necessaria per una soluzione Azure Machine Learning.

Autenticazione dei dati basata sulle credenziali

In generale, l'autenticazione dei dati basata sulle credenziali prevede questi controlli:

All'utente che accede ai dati dall'archivio dati basato sulle credenziali è stato assegnato un ruolo controllo degli accessi in base al ruolo contenente Microsoft.MachineLearningServices/workspaces/datastores/listsecrets/action?
- Questa autorizzazione è necessaria per recuperare le credenziali dall'archivio dati per conto dell'utente.
- I ruoli predefiniti che contengono questa autorizzazione sono già collaboratore, sviluppatore di intelligenza artificiale di Azure o ruoli di Scienziato dei dati AML. In alternativa, se viene applicato un ruolo personalizzato, è necessario assicurarsi che questa autorizzazione venga aggiunta a tale ruolo personalizzato.
- È necessario sapere quale utente specifico sta tentando di accedere ai dati. Può essere un utente reale con identità utente o un ambiente di calcolo con l'identità del servizio gestito di calcolo e così via, è possibile controllare la sezione Scenari e opzioni di autenticazione per identificare qual è l'identità per cui è necessario aggiungere l'autorizzazione.
Le credenziali archiviate (entità servizio, chiave dell'account o token di firma di accesso condiviso) hanno accesso alla risorsa dati?

Autenticazione dei dati basata su identità

In generale, l'autenticazione dei dati basata sull'identità prevede questi controlli:

Quale utente vuole accedere alle risorse?
- A seconda della conext quando si accede ai dati, sono disponibili diversi tipi di autenticazione, ad esempio
  - identità utente
  - calcolo dell'identità gestita
  - Identità gestita dell'area di lavoro
- I processi, inclusa l'opzione "Genera profilo" del set di dati, vengono eseguiti in una risorsa di calcolo nella sottoscrizione e accedono ai dati da tale posizione. L'identità gestita di calcolo richiede l'autorizzazione per la risorsa di archiviazione, anziché l'identità dell'utente che ha inviato il processo.
- Per l'autenticazione basata su un'identità utente, è necessario conoscere quale utente specifico ha provato ad accedere alla risorsa di archiviazione. Per altre informazioni sull'autenticazione utente, vedere l'articolo sull'autenticazione per Azure Machine Learning. Per altre informazioni sull'autenticazione a livello di servizio, vedere l'articolo sull'autenticazione tra Azure Machine Learning e altri servizi.
L'utente dispone dell'autorizzazione per la lettura?
- L'identità utente o l'identità gestita di calcolo e così via hanno le autorizzazioni necessarie per tale risorsa di archiviazione? Le autorizzazioni vengono concesse usando i controlli degli accessi in base al ruolo di Azure.
- L'utente con ruolo Lettore dell'account di archiviazione legge i metadati di archiviazione.
- Il lettore di dati BLOB Archiviazione legge ed elenca i contenitori e i BLOB di archiviazione BLOB.
- Altre funzionalità predefinite di Azure per l'archiviazione sono disponibili qui.
L'utente dispone dell'autorizzazione per la scrittura?
- L'identità utente o l'identità gestita di calcolo e così via hanno le autorizzazioni necessarie per tale risorsa di archiviazione? Le autorizzazioni vengono concesse usando i controlli degli accessi in base al ruolo di Azure.
- L'utente con ruolo Lettore dell'account di archiviazione legge i metadati di archiviazione.
- L'Archiviazione Collaboratore ai dati BLOB legge, scrive ed elimina Archiviazione di Azure contenitori e BLOB.
- Altre funzionalità predefinite di Azure per l'archiviazione sono disponibili qui.

Altri controlli generali per l'autenticazione

Da dove proviene l'accesso?
- Utente: l'indirizzo IP del client è compreso nell'intervallo di reti virtuali/subnet?
- Area di lavoro: l'area di lavoro è pubblica o presenta un endpoint privato in una rete virtuale/subnet?
- Archiviazione: l'archiviazione consente l'accesso pubblico o limita l'accesso tramite un endpoint servizio o un endpoint privato?
Quale operazione verrà eseguita?
- Azure Machine Learning gestisce operazioni di creazione, lettura, aggiornamento ed eliminazione (CRUD) su un archivio dati/set di dati.
- Le operazioni di archiviazione sugli asset di dati in studio richiedono questa operazione di controllo degli accessi in base al ruolo: Microsoft.MachineLearningServices/workspaces/datasets/registered/delete
- Le chiamate di accesso ai dati, ad esempio anteprima o schema, passano alla risorsa di archiviazione sottostante e necessitano di autorizzazioni aggiuntive.
Questa operazione verrà eseguita nelle risorse di calcolo della sottoscrizione di Azure o nelle risorse ospitate in una sottoscrizione Microsoft?
- Tutte le chiamate ai servizi del set di dati e dell'archivio dati, ad eccezione dell'opzione "Genera profilo", usano le risorse ospitate in una sottoscrizione Microsoft per eseguire le operazioni.
- I processi, inclusa l'opzione "Genera profilo" del set di dati, vengono eseguiti in una risorsa di calcolo nella sottoscrizione e accedono ai dati da tale posizione. L'identità di calcolo richiede l'autorizzazione per la risorsa di archiviazione, invece dell'identità dell'utente che ha inviato il processo.

Questo diagramma mostra il flusso generale di una chiamata di accesso ai dati. In questo caso, un utente prova a effettuare una chiamata di accesso ai dati tramite un'area di lavoro di Machine Learning, senza usare una risorsa di calcolo.

Diagramma del flusso logico durante l'accesso ai dati.

Scenari e opzioni di autenticazione

Questa tabella elenca le identità da usare per scenari specifici:

Impostazione	VM locale/notebook SDK	Posizione	Anteprima set di dati	Esplorazione archivio dati
Credenziali e identità del servizio gestito dell'area di lavoro	Credenziale	Credenziale	Identità del servizio gestito dell'area di lavoro	Credenziali (solo chiave dell'account e token di firma di accesso condiviso)
Nessuna credenziale e identità del servizio gestita dell'area di lavoro	Calcolo identità del servizio gestito/utente	Calcolo dell'identità del servizio gestito/utente	Identità del servizio gestito dell'area di lavoro	Identità utente
Credenziali e nessun'identità del servizio gestito dell'area di lavoro	Credenziale	Credenziale	Credenziali (non supportato per l'anteprima del set di dati nella rete privata)	Credenziali (solo chiave dell'account e token di firma di accesso condiviso)
Nessuna credenziale e nessun'identità del servizio gestito dell'area di lavoro	Calcolo identità del servizio gestito/utente	Calcolo dell'identità del servizio gestito/utente	Identità utente	Identità utente

Per SDK V1, l'autenticazione dei dati in un processo usa sempre l'identità del servizio gestito di calcolo. Per SDK V2, l'autenticazione dei dati in un processo dipende dall'impostazione del processo: può essere l'identità utente o calcolare l'identità del servizio gestito in base all'impostazione.

Suggerimento

Per accedere ai dati dall'esterno di Azure Machine Learning, ad esempio con Azure Storage Explorer, l'accesso si basa probabilmente sull'identità utente. Per informazioni specifiche, vedere la documentazione relativa allo strumento o al servizio in uso. Per altre informazioni sul funzionamento di Azure Machine Learning con i dati, vedere Configurare l'autenticazione tra Azure Machine Learning e altri servizi.

Requisiti specifici della rete virtuale

Di seguito è possibile configurare l'autenticazione dei dati per accedere ai dati dietro la rete virtuale da un'area di lavoro di Azure Machine Learning.

Aggiungere le autorizzazioni dell'account Archiviazione di Azure all'identità gestita dell'area di lavoro di Azure Machine Learning

Quando si usa un account Archiviazione di Azure da studio di Azure Machine Learning, se si vuole visualizzare l'anteprima del set di dati, è necessario abilitare "Usare l'identità gestita dell'area di lavoro per l'anteprima dei dati e la profilatura in studio di Azure Machine Learning" nell'impostazione dell'archivio dati e aggiungere questi ruoli controllo degli accessi in base al ruolo di Azure dell'account di archiviazione all'identità gestita dell'area di lavoro:

Lettore dati dei BLOB di archiviazione
Se l'account di archiviazione usa un endpoint privato per connettersi alla rete virtuale, è necessario concedere all'identità gestita il ruolo Lettore per l'endpoint privato dell'account di archiviazione.

Per altre informazioni, vedere Usare lo studio di Azure Machine Learning in una rete virtuale di Azure.

Le sezioni seguenti illustrano le limitazioni associate all'uso di un account di archiviazione di Azure, con l'area di lavoro, in una rete virtuale.

Proteggere la comunicazione con l'account di archiviazione di Azure

Per proteggere la comunicazione tra Azure Machine Learning e gli account di archiviazione di Azure, configurare l'archiviazione in modo da concedere l'accesso a servizi di Azure attendibili.

Firewall di Archiviazione di Azure

Quando un account di archiviazione di Azure è protetto da una rete virtuale, il firewall di archiviazione può essere usato come al solito per consentire al client di connettersi direttamente tramite Internet. Tuttavia, quando si usa lo studio, il client non si connette all'account di archiviazione. Il servizio Azure Machine Learning che effettua la connessione della richiesta all'account di archiviazione. L'indirizzo IP del servizio non è documentato e cambia di frequente. L'abilitazione del firewall di archiviazione non consentirà allo studio di accedere all'account di archiviazione in una configurazione di rete virtuale.

Tipo di endpoint di Archiviazione di Azure

Quando l'area di lavoro usa un endpoint privato e l'account di archiviazione si trova anche nella rete virtuale, sono previsti requisiti di convalida aggiuntivi quando si usa lo studio:

Se l'account di archiviazione usa un endpoint servizio, l'endpoint privato dell'area di lavoro e l'endpoint servizio di archiviazione devono trovarsi nella stessa subnet della rete virtuale.
Se l'account di archiviazione usa un endpoint privato, l'endpoint privato dell'area di lavoro e l'endpoint privato di archiviazione devono trovarsi nella stessa rete virtuale. In questo caso, possono trovarsi in subnet diverse.

Azure Data Lake Storage Gen1

Quando si usa Azure Data Lake Storage Gen1 come archivio dati, è possibile usare solo elenchi di controllo di accesso di tipo POSIX. È possibile assegnare alle risorse l'accesso all'identità gestita dell'area di lavoro come qualsiasi altra entità di sicurezza. Per altre informazioni, vedere Controllo di accesso in Azure Data Lake Storage Gen1.

Azure Data Lake Storage Gen2

Quando si usa Azure Data Lake Storage Gen2 come archivio dati, è possibile usare il controllo degli accessi in base al ruolo di Azure e gli elenchi di controllo di accesso (ACL) di tipo POSIX per controllare l'accesso ai dati all'interno di una rete virtuale.

Per usare il controllo degli accessi in base al ruolo di Azure, seguire la procedura descritta in Archivio dati: account di archiviazione di Azure. Data Lake Storage Gen2 si basa su Archiviazione di Azure, quindi si può usare la stessa procedura anche quando si usa il controllo degli accessi in base al ruolo di Azure.

Per usare gli elenchi di controllo di accesso, è possibile assegnare l'accesso all'identità gestita dell'area di lavoro come a qualsiasi altra entità di sicurezza. Per altre informazioni, vedere Elenchi di controllo di accesso per file e directory.

Passaggi successivi

Per informazioni su come abilitare lo Studio in una rete, vedere Usare lo studio di Azure Machine Learning in una rete virtuale di Azure.