Come creare un progetto NER personalizzato

Usare questo articolo per informazioni su come configurare i requisiti per iniziare con NER personalizzato e creare un progetto.

Prerequisiti

Prima di iniziare a usare NER personalizzato, è necessario:

Creare una risorsa del servizio Lingua

Prima di iniziare a usare NER personalizzato, è necessaria una risorsa del linguaggio di intelligenza artificiale di Azure. È consigliabile creare la risorsa lingua e connetterla a un account di archiviazione nel portale di Azure. La creazione di una risorsa nella portale di Azure consente di creare contemporaneamente un account di archiviazione di Azure, con tutte le autorizzazioni necessarie preconfigurato. È anche possibile leggere altre informazioni nell'articolo per informazioni su come usare una risorsa preesistente e configurarla in modo che funzioni con il riconoscimento di entità denominate personalizzato.

Sarà necessario anche un account di archiviazione di Azure in cui verranno caricati i .txt documenti che verranno usati per eseguire il training di un modello per estrarre le entità.

Nota

  • Per creare una risorsa lingua, è necessario avere un ruolo di proprietario assegnato nel gruppo di risorse.
  • Se si connetterà un account di archiviazione preesistente, è necessario assegnare un ruolo di proprietario.

Creare una risorsa lingua e connettere l'account di archiviazione

È possibile creare una risorsa nei modi seguenti:

  • Ilportale di Azure
  • Language Studio
  • PowerShell

Nota

Non è consigliabile spostare l'account di archiviazione in un gruppo di risorse o una sottoscrizione diverso dopo che è collegato alla risorsa Lingua.

Creare una nuova risorsa dal portale di Azure

  1. Accedere al portale di Azure per creare una nuova risorsa del linguaggio di intelligenza artificiale di Azure.

  2. Nella finestra visualizzata selezionare Classificazione testo personalizzata e riconoscimento di entità denominate personalizzate dalle funzionalità personalizzate. Selezionare Continua per creare la risorsa nella parte inferiore della schermata .

    Screenshot che mostra la classificazione del testo personalizzata e il riconoscimento di entità denominate personalizzate nel portale di Azure.

  3. Creare una risorsa lingua con i dettagli seguenti.

    Nome Descrizione
    Abbonamento La sottoscrizione di Azure.
    Gruppo di risorse Gruppo di risorse che conterrà la risorsa. È possibile usare uno esistente o crearne uno nuovo.
    Area Area per la risorsa lingua. Ad esempio, "Stati Uniti occidentali 2".
    Nome Nome della risorsa.
    Piano tariffario Piano tariffario per la risorsa Lingua. È possibile usare il livello Gratuito (F0) per provare il servizio.

    Nota

    Se viene visualizzato un messaggio che indica che l'account di accesso non è un proprietario del gruppo di risorse dell'account di archiviazione selezionato, l'account deve avere un ruolo di proprietario assegnato nel gruppo di risorse prima di poter creare una risorsa lingua. Per assistenza, contattare il proprietario della sottoscrizione di Azure.

  4. Nella sezione Classificazione testo personalizzata e riconoscimento di entità denominate personalizzate selezionare un account di archiviazione esistente o selezionare Nuovo account di archiviazione. Questi valori consentono di iniziare e non necessariamente i valori dell'account di archiviazione da usare negli ambienti di produzione. Per evitare la latenza durante la compilazione del progetto, connettersi agli account di archiviazione nella stessa area della risorsa lingua.

    Archiviazione valore dell'account Valore consigliato
    Nome account di archiviazione Qualsiasi nome
    Storage account type LRS Standard
  5. Assicurarsi che sia selezionata l'informativa sull'intelligenza artificiale responsabile. Selezionare Rivedi e crea nella parte inferiore della pagina e quindi selezionare Crea.

Creare una nuova risorsa lingua da Language Studio

Se è la prima volta che si accede, verrà visualizzata una finestra in Language Studio che consentirà di scegliere una risorsa lingua esistente o crearne una nuova. È anche possibile creare una risorsa facendo clic sull'icona delle impostazioni nell'angolo in alto a destra, selezionando Risorse e quindi facendo clic su Crea una nuova risorsa.

Creare una risorsa lingua con i dettagli seguenti.

Dettagli dell'istanza Valore obbligatorio
Sottoscrizione di Azure la propria sottoscrizione di Azure
Gruppo di risorse di Azure Gruppo di risorse di Azure
Nome risorsa di Azure Nome della risorsa di Azure
Ufficio Area della risorsa lingua.
Piano tariffario Piano tariffario della risorsa Lingua.

Importante

  • Assicurarsi di abilitare l'identità gestita quando si crea una risorsa lingua.
  • Leggere e confermare l'avviso di IA responsabile

Per usare il riconoscimento personalizzato delle entità denominate, è necessario creare un account di archiviazione di Azure, se non ne è già disponibile uno.

Creare una nuova risorsa del linguaggio con PowerShell

È possibile creare una nuova risorsa e un account di archiviazione usando il modello e i file di parametri dell'interfaccia della riga di comando seguenti, ospitati in GitHub.

Modificare i valori seguenti nel file dei parametri:

Nome parametro Descrizione valore
name Nome della risorsa lingua
location Area in cui è ospitata la risorsa. Per altre informazioni, vedere Limiti del servizio.
sku Piano tariffario della risorsa.
storageResourceName Nome dell'account di archiviazione
storageLocation Area in cui è ospitato l'account di archiviazione.
storageSkuType SKU dell'account di archiviazione.
storageResourceGroupName Gruppo di risorse dell'account di archiviazione

Usare il comando di PowerShell seguente per distribuire il modello di Azure Resource Manager (ARM) con i file modificati.

New-AzResourceGroupDeployment -Name ExampleDeployment -ResourceGroupName ExampleResourceGroup `
  -TemplateFile <path-to-arm-template> `
  -TemplateParameterFile <path-to-parameters-file>

Per informazioni sulla distribuzione di modelli e file di parametri, vedere la documentazione del modello di Resource Manager.

Nota

  • Il processo di connessione di un account di archiviazione alla risorsa lingua è irreversibile e non può essere disconnesso in un secondo momento.
  • È possibile connettere la risorsa di lingua solo a un account di archiviazione.

Uso di una risorsa language preesistente

È possibile usare una risorsa lingua esistente per iniziare a usare NER personalizzato, purché questa risorsa soddisfi i requisiti seguenti:

Requisito Descrizione
Aree geografiche Assicurarsi che il provisioning della risorsa esistente venga eseguito in una delle aree supportate. In caso contrario, sarà necessario creare una nuova risorsa in una di queste aree.
Piano tariffario Altre informazioni sui piani tariffari supportati.
Identità gestita Assicurarsi che l'impostazione dell'identità gestita della risorsa sia abilitata. In caso contrario, leggere la sezione successiva.

Per usare il riconoscimento personalizzato delle entità denominate, è necessario creare un account di archiviazione di Azure, se non ne è già disponibile uno.

Abilitare la gestione delle identità per la risorsa

La risorsa lingua deve avere la gestione delle identità per abilitarla usando il portale di Azure:

  1. Passare alla risorsa lingua
  2. Nel menu a sinistra, nella sezione Gestione risorse selezionare Identità
  3. Dalla scheda Assegnata dal sistema assicurarsi di impostare Stato su

Abilitare la funzionalità di riconoscimento delle entità denominate personalizzata

Assicurarsi di abilitare la funzionalità Di classificazione testo personalizzata/Riconoscimento di entità denominate personalizzata da portale di Azure.

  1. Passare alla risorsa Lingua nel portale di Azure.
  2. Nel menu a sinistra, nella sezione Gestione risorse selezionare Funzionalità.
  3. Abilitare la funzionalità di classificazione del testo personalizzata/Riconoscimento di entità denominate personalizzate.
  4. Connessione l'account di archiviazione.
  5. Selezionare Applica.

Importante

  • Assicurarsi che alla risorsa di linguaggio sia assegnato il ruolo collaboratore ai dati dei BLOB di archiviazione nell'account di archiviazione che si connette.

Aggiungere ruoli obbligatori

Usare la procedura seguente per impostare i ruoli necessari per la risorsa lingua e l'account di archiviazione.

Immagine animata che mostra come impostare i ruoli nella portale di Azure.

Ruoli per la risorsa del linguaggio di intelligenza artificiale di Azure

  1. Passare alla risorsa dell'account di archiviazione o della lingua nel portale di Azure.

  2. Selezionare Controllo di accesso (IAM) nel menu di spostamento a sinistra.

  3. Selezionare Aggiungi per aggiungere assegnazioni di ruolo e scegliere il ruolo appropriato per l'account.

    È necessario avere il ruolo di proprietario o collaboratore assegnato nella risorsa Lingua.

  4. In Assegna accesso a selezionare Utente, gruppo o entità servizio

  5. Selezionare Seleziona membri

  6. Selezionare il nome utente. È possibile cercare i nomi utente nel campo Seleziona . Ripetere questa operazione per tutti i ruoli.

  7. Ripetere questi passaggi per tutti gli account utente che devono accedere a questa risorsa.

Ruoli per l'account di archiviazione

  1. Passare alla pagina dell'account di archiviazione nel portale di Azure.
  2. Selezionare Controllo di accesso (IAM) nel menu di spostamento a sinistra.
  3. Selezionare Aggiungi per aggiungere assegnazioni di ruolo e scegliere il ruolo collaboratore ai dati BLOB Archiviazione nell'account di archiviazione.
  4. In Assegna accesso a selezionare Identità gestita.
  5. Selezionare Seleziona membri
  6. Selezionare la sottoscrizione e Lingua come identità gestita. È possibile cercare i nomi utente nel campo Seleziona .

Importante

Se si dispone di una rete virtuale o di un endpoint privato, assicurarsi di selezionare Consenti ai servizi di Azure nell'elenco dei servizi attendibili di accedere a questo account di archiviazione nel portale di Azure.

Abilitare CORS per l'account di archiviazione

Assicurarsi di consentire i metodi (GET, PUT, DELETE) quando si abilita la condivisione di risorse tra le origini (CORS). Impostare il campo origini consentite su https://language.cognitive.azure.com. Consenti tutte le intestazioni aggiungendo * ai valori di intestazione consentiti e impostando la validità massima su 500.

Screenshot che mostra come usare CORS per gli account di archiviazione.

Creare un progetto di Riconoscimento entità denominata personalizzata

Dopo aver configurato la risorsa e il contenitore di archiviazione, creare un nuovo progetto NER personalizzato. Un progetto è un'area di lavoro per la creazione di modelli di intelligenza artificiale personalizzati basati sui dati. È possibile accedere al progetto solo dall'utente e da altri utenti che hanno accesso alla risorsa di Azure usata. Se sono stati etichettati dati, è possibile usarli per iniziare importando un progetto.

  1. Accedere a Language Studio. Verrà visualizzata una finestra che consente di selezionare la sottoscrizione e la risorsa lingua. Selezionare la risorsa Lingua creata nel passaggio precedente.

  2. Nella sezione Extract information (Estrai informazioni) di Language Studio selezionare Custom named entity recognition (Riconoscimento di entità denominate personalizzate).

    Screenshot che mostra il percorso di NER personalizzato nella pagina di destinazione di Language Studio.

  3. Selezionare Crea nuovo progetto dal menu in alto nella pagina dei progetti. La creazione di un progetto consentirà di contrassegnare i dati, eseguire il training, valutare, migliorare e distribuire i modelli.

    Screenshot della pagina di creazione del progetto.

  4. Dopo aver fatto clic su Crea nuovo progetto, verrà visualizzata una finestra per consentire la connessione dell'account di archiviazione. Se è già stato connesso un account di archiviazione, verrà visualizzato l'account di archiviazione connesso. In caso contrario, scegliere l'account di archiviazione dall'elenco a discesa visualizzato e selezionare Connessione account di archiviazione. Verranno impostati i ruoli necessari per l'account di archiviazione. Questo passaggio restituirà un errore se non si è assegnati come proprietario nell'account di archiviazione.

    Nota

    • È necessario eseguire questo passaggio una sola volta per ogni nuova risorsa usata.
    • Questo processo è irreversibile, se si connette un account di archiviazione alla risorsa lingua, non è possibile disconnetterlo in un secondo momento.
    • È possibile connettere la risorsa lingua solo a un account di archiviazione.

    Screenshot che mostra la schermata di connessione di archiviazione.

  5. Immettere le informazioni sul progetto, inclusi un nome, una descrizione e la lingua dei file nel progetto. Se si usa il set di dati di esempio, selezionare Inglese. Non sarà possibile modificare il nome del progetto in un secondo momento. Selezionare Avanti.

    Suggerimento

    Il set di dati non deve essere interamente nello stesso linguaggio. È possibile avere più documenti, ognuno con lingue supportate diverse. Se il set di dati contiene documenti di lingue diverse o se si prevede testo da lingue diverse durante il runtime, selezionare l'opzione Abilita set di dati multilingue quando si immettono le informazioni di base per il progetto. Questa opzione può essere abilitata in un secondo momento dalla pagina Impostazioni progetto.

  6. Selezionare il contenitore in cui è stato caricato il set di dati. Se i dati sono già stati etichettati, assicurarsi che seguano il formato supportato e selezionare Sì, i miei file sono già etichettati e ho formattato il file di etichette JSON e selezionare il file delle etichette dal menu a discesa. Selezionare Avanti.

  7. Esaminare i dati immessi e selezionare Crea progetto.

Importare il progetto

Se i dati sono già etichettati, è possibile usarli per iniziare a usare il servizio. Assicurarsi che i dati etichettati seguano i formati di dati accettati.

  1. Accedere a Language Studio. Verrà visualizzata una finestra che consente di selezionare la sottoscrizione e la risorsa lingua. Selezionare la risorsa Lingua.

  2. Nella sezione Extract information (Estrai informazioni) di Language Studio selezionare Custom named entity recognition (Riconoscimento di entità denominate personalizzate).

    Screenshot che mostra la posizione della funzionalità NER personalizzata nella pagina di destinazione di Language Studio.

  3. Selezionare Crea nuovo progetto dal menu in alto nella pagina dei progetti. La creazione di un progetto consentirà di contrassegnare i dati, eseguire il training, valutare, migliorare e distribuire i modelli.

    Screenshot della pagina di creazione del progetto.

  4. Dopo aver selezionato Crea nuovo progetto, verrà visualizzata una schermata che consente di connettere l'account di archiviazione. Se non è possibile trovare l'account di archiviazione, assicurarsi di aver creato una risorsa usando la procedura consigliata. Se è già stato connesso un account di archiviazione alla risorsa lingua, verrà visualizzato l'account di archiviazione connesso.

    Nota

    • È necessario eseguire questo passaggio una sola volta per ogni nuova risorsa di lingua usata.
    • Questo processo è irreversibile, se si connette un account di archiviazione alla risorsa lingua, non è possibile disconnetterlo in un secondo momento.
    • È possibile connettere la risorsa lingua solo a un account di archiviazione.

    Screenshot della schermata di connessione di archiviazione per i nuovi progetti.

  5. Immettere le informazioni sul progetto, inclusi un nome, una descrizione e la lingua dei file nel progetto. Non sarà possibile modificare il nome del progetto in un secondo momento. Selezionare Avanti.

    Suggerimento

    Il set di dati non deve essere interamente nello stesso linguaggio. È possibile avere più documenti, ognuno con lingue supportate diverse. Se il set di dati contiene documenti di lingue diverse o se si prevede testo da lingue diverse durante il runtime, selezionare l'opzione Abilita set di dati multilingue quando si immettono le informazioni di base per il progetto. Questa opzione può essere abilitata in un secondo momento dalla pagina Impostazioni progetto.

  6. Selezionare il contenitore in cui è stato caricato il set di dati.

  7. Selezionare Sì, i file sono già etichettati e ho formattato il file delle etichette JSON e selezionare il file delle etichette dal menu a discesa seguente per importare il file delle etichette JSON. Assicurarsi che segua il formato supportato.

  8. Selezionare Avanti.

  9. Esaminare i dati immessi e selezionare Crea progetto.

Ottenere i dettagli del progetto

  1. Passare alla pagina delle impostazioni del progetto in Language Studio.

  2. È possibile visualizzare i dettagli del progetto.

  3. In questa pagina è possibile aggiornare la descrizione del progetto e abilitare/disabilitare il set di dati multilingue nelle impostazioni del progetto.

  4. È anche possibile visualizzare l'account di archiviazione connesso e il contenitore alla risorsa Lingua.

  5. È anche possibile recuperare la chiave di risorsa primaria da questa pagina.

    Screenshot della pagina delle impostazioni del progetto in Language Studio.

Eliminare un progetto

Quando il progetto non è più necessario, è possibile eliminare il progetto usando Language Studio. Selezionare Riconoscimento entità denominato personalizzato (NER) nella parte superiore, selezionare il progetto da eliminare e quindi selezionare Elimina dal menu in alto.

Passaggi successivi

  • È necessario avere un'idea dello schema del progetto che verrà usato per etichettare i dati.

  • Dopo aver creato il progetto, è possibile iniziare a etichettare i dati, che indicherà al modello di estrazione delle entità come interpretare il testo e viene usato per il training e la valutazione.