Eseguire il training e distribuire un modello di Riconoscimento vocale personalizzatoTrain and deploy a Custom Speech model

In questo articolo si apprenderà come eseguire il training e la distribuzione di Riconoscimento vocale personalizzato modelli.In this article, you'll learn how to train and deploy Custom Speech models. Il training di un modello di sintesi vocale può migliorare l'accuratezza del riconoscimento per il modello Baseline Microsoft.Training a speech-to-text model can improve recognition accuracy for the Microsoft baseline model. Per eseguire il training di un modello, si utilizzano trascrizioni con etichetta umana e testo correlato.You use human-labeled transcriptions and related text to train a model. Questi set di dati, insieme ai dati audio caricati in precedenza, vengono usati per perfezionare ed eseguire il training del modello di riconoscimento vocale.These datasets, along with previously uploaded audio data, are used to refine and train the speech-to-text model.

Usare il training per risolvere i problemi di accuratezzaUse training to resolve accuracy problems

Se si riscontrano problemi di riconoscimento con un modello di base, è possibile usare trascrizioni con etichetta umana e dati correlati per eseguire il training di un modello personalizzato e migliorare la precisione.If you're encountering recognition problems with a base model, you can use human-labeled transcripts and related data to train a custom model and help improve accuracy. Usare questa tabella per determinare il set di dati da usare per risolvere i problemi:Use this table to determine which dataset to use to address your problems:

Caso d'usoUse case Tipo di datiData type
Migliorare l'accuratezza del riconoscimento su vocabolario e grammatica specifici del settore, come la terminologia medica o il gergo ITImprove recognition accuracy on industry-specific vocabulary and grammar, like medical terminology or IT jargon Testo correlato (frasi/espressioni)Related text (sentences/utterances)
Definire il form fonetico e visualizzato di una parola o di un termine con una pronuncia non standard, ad esempio nomi di prodotto o acronimiDefine the phonetic and displayed form of a word or term that has nonstandard pronunciation, like product names or acronyms Testo correlato (pronuncia)Related text (pronunciation)
Migliorare l'accuratezza del riconoscimento su stili di pronuncia, accenti o rumori di fondo specificiImprove recognition accuracy on speaking styles, accents, or specific background noises Trascrizioni audio + con etichetta umanaAudio + human-labeled transcripts

Eseguire il training di un modello e valutarloTrain and evaluate a model

Il primo passaggio per eseguire il training di un modello consiste nel caricare i dati di training.The first step to train a model is to upload training data. Per istruzioni dettagliate su come preparare le trascrizioni con etichetta umana e il testo correlato (espressioni e pronunce), vedere preparare e testare i dati .See Prepare and test your data for step-by-step instructions to prepare human-labeled transcriptions and related text (utterances and pronunciations). Dopo aver caricato i dati di training, seguire queste istruzioni per avviare il training del modello:After you upload training data, follow these instructions to start training your model:

  1. Accedere al portale di riconoscimento vocale personalizzato.Sign in to the Custom Speech portal. Se si prevede di eseguire il training di un modello con i set di impostazioni per la trascrizione audio e con etichetta umana, scegliere una sottoscrizione vocale in un' area con hardware dedicato per il training.If you plan to train a model with audio + human-labeled transcription datasets, pick a Speech subscription in a region with dedicated hardware for training.
  2. Passare a riconoscimento vocale > riconoscimento vocale personalizzato > [nome del progetto] > formazione.Go to Speech-to-text > Custom Speech > [name of project] > Training.
  3. Selezionare Train Model.Select Train model.
  4. Assegnare un nome e una Descrizione al training.Give your training a Name and Description.
  5. Nell'elenco scenario e modello di base selezionare lo scenario più adatto al dominio.In the Scenario and Baseline model list, select the scenario that best fits your domain. Se non si è certi dello scenario da scegliere, selezionare generale.If you're not sure which scenario to choose, select General. Il modello di base è il punto di partenza per il training.The baseline model is the starting point for training. Il modello più recente è in genere la scelta migliore.The latest model is usually the best choice.
  6. Nella pagina selezione dati di training scegliere uno o più set di dati di testo correlati oppure i set di dati di trascrizione audio e con etichetta umana che si desidera utilizzare per il training.On the Select training data page, choose one or more related text datasets or audio + human-labeled transcription datasets that you want to use for training.

Nota

Quando si esegue il training di un nuovo modello, iniziare con il testo correlato; il training con audio e la trascrizione con etichetta umana potrebbe richiedere molto più tempo (fino a diversi giorni).When you train a new model, start with related text; training with audio + human-labeled transcription might take much longer (up to several days).

Nota

Non tutti i modelli di base supportano il training con audio.Not all base models support training with audio. Se un modello di base non la supporta, il servizio di riconoscimento vocale utilizzerà solo il testo delle trascrizioni e ignorerà l'audio.If a base model does not support it, the Speech service will only use the text from the transcripts and ignore the audio. Per un elenco dei modelli di base che supportano il training con dati audio, vedere Supporto per le lingue .See Language support for a list of base models that support training with audio data.

Nota

Nei casi in cui si modifica il modello di base utilizzato per il training e si dispone di audio nel set di dati di training, verificare sempre se il nuovo modello di base selezionato supporta il training con dati audio.In cases when you change the base model used for training, and you have audio in the training dataset, always check whether the new selected base model supports training with audio data. Se il modello di base usato in precedenza non supporta il training con dati audio e il set di dati di training contiene audio, i tempi di training con il nuovo modello di base aumenteranno drasticamente e potranno passare da diverse ore a diversi giorni.If the previously used base model did not support training with audio data, and the training dataset contains audio, training time with the new base model will drastically increase, and may easily go from several hours to several days and more. Ciò vale soprattutto se la sottoscrizione al servizio vocale non si trova in un' area con l'hardware dedicato per il training.This is especially true if your Speech service subscription is not in a region with the dedicated hardware for training.

Se si affronta il problema descritto nel paragrafo precedente, è possibile ridurre rapidamente il tempo di training riducendo la quantità di audio nel set di dati o rimuovendo completamente il testo e lasciando solo il testo.If you face the issue described in the paragraph above, you can quickly decrease the training time by reducing the amount of audio in the dataset or removing it completely and leaving only the text. La seconda opzione è consigliata se la sottoscrizione al servizio vocale non si trova in un' area con l'hardware dedicato per il training.The latter option is highly recommended if your Speech service subscription is not in a region with the dedicated hardware for training.

  1. Al termine del training, è possibile eseguire test di accuratezza sul modello appena sottoposto a training.After training is complete, you can do accuracy testing on the newly trained model. Questo passaggio è facoltativo.This step is optional.
  2. Selezionare Crea per compilare il modello personalizzato.Select Create to build your custom model.

Nella tabella Training viene visualizzata una nuova voce che corrisponde al nuovo modello.The Training table displays a new entry that corresponds to the new model. La tabella Visualizza anche lo stato: elaborazione, esito positivo o non riuscito.The table also displays the status: Processing, Succeeded, or Failed.

Vedere le procedure per valutare e migliorare riconoscimento vocale personalizzato accuratezza del modello.See the how-to on evaluating and improving Custom Speech model accuracy. Se si sceglie di verificare l'accuratezza, è importante selezionare un set di dati acustico diverso da quello usato con il modello per ottenere un senso realistico delle prestazioni del modello.If you choose to test accuracy, it's important to select an acoustic dataset that's different from the one you used with your model to get a realistic sense of the model's performance.

Nota

Sia i modelli di base che i modelli personalizzati possono essere usati solo fino a una determinata data (vedere ciclo di vita di modelli ed endpoint).Both base models and custom models can be used only up to a certain date (see Model and endpoint lifecycle). Speech studio Mostra questa data nella colonna scadenza per ogni modello ed endpoint.Speech Studio shows this date in the Expiration column for each model and endpoint. Dopo la richiesta di una data a un endpoint o la trascrizione in batch potrebbe avere esito negativo o eseguire il fallback al modello di base.After that date request to an endpoint or to batch transcription might fail or fall back to base model.

Ripetere il training del modello usando il modello di base più recente per trarre vantaggio dai miglioramenti di accuratezza e per evitare che il modello scada.Retrain your model using the then most recent base model to benefit from accuracy improvements and to avoid that your model expires.

Distribuire un modello personalizzatoDeploy a custom model

Al termine del caricamento e del controllo dei dati, della valutazione dell'accuratezza e del training di un modello personalizzato, è possibile distribuire un endpoint personalizzato da usare con le app, gli strumenti e i prodotti.After you upload and inspect data, evaluate accuracy, and train a custom model, you can deploy a custom endpoint to use with your apps, tools, and products.

Per creare un endpoint personalizzato, accedere al portale di riconoscimento vocale personalizzato.To create a custom endpoint, sign in to the Custom Speech portal. Selezionare distribuzione nel menu riconoscimento vocale personalizzato nella parte superiore della pagina.Select Deployment in the Custom Speech menu at the top of the page. Se si tratta della prima esecuzione, si noterà che nella tabella non sono elencati endpoint.If this is your first run, you'll notice that there are no endpoints listed in the table. Dopo aver creato un endpoint, è possibile utilizzare questa pagina per tenere traccia di ogni endpoint distribuito.After you create an endpoint, you use this page to track each deployed endpoint.

Selezionare quindi Aggiungi endpoint e immettere un nome e una Descrizione per l'endpoint personalizzato.Next, select Add endpoint and enter a Name and Description for your custom endpoint. Selezionare quindi il modello personalizzato che si desidera associare all'endpoint.Then select the custom model that you want to associate with the endpoint. È anche possibile abilitare la registrazione da questa pagina.You can also enable logging from this page. La registrazione consente di monitorare il traffico dell'endpoint.Logging allows you to monitor endpoint traffic. Se la registrazione è disabilitata, il traffico non verrà archiviato.If logging is disabled, traffic won't be stored.

Screenshot che mostra la pagina nuovo endpoint.

Nota

Non dimenticare di accettare le condizioni per l'utilizzo e i dettagli relativi ai prezzi.Don't forget to accept the terms of use and pricing details.

Quindi selezionare Crea.Next, select Create. Questa azione consente di tornare alla pagina distribuzione .This action returns you to the Deployment page. La tabella include ora una voce che corrisponde all'endpoint personalizzato.The table now includes an entry that corresponds to your custom endpoint. Lo stato dell'endpoint Mostra lo stato corrente.The endpoint’s status shows its current state. Possono essere necessari fino a 30 minuti per creare un'istanza di un nuovo endpoint usando i modelli personalizzati.It can take up to 30 minutes to instantiate a new endpoint using your custom models. Quando lo stato della distribuzione diventa completato, l'endpoint è pronto per l'utilizzo.When the status of the deployment changes to Complete, the endpoint is ready to use.

Dopo la distribuzione dell'endpoint, il nome dell'endpoint viene visualizzato come collegamento.After your endpoint is deployed, the endpoint name appears as a link. Selezionare il collegamento per visualizzare informazioni specifiche per l'endpoint, ad esempio la chiave dell'endpoint, l'URL dell'endpoint e il codice di esempio.Select the link to see information specific to your endpoint, like the endpoint key, endpoint URL, and sample code. Prendere nota della data di scadenza e aggiornare il modello dell'endpoint prima di tale data per garantire il servizio senza interruzioni.Take a note of the expiration date and update the endpoint's model before that date to ensure uninterrupted service.

Visualizzare i dati di registrazioneView logging data

I dati di registrazione sono disponibili per l'esportazione se si passa alla pagina dell'endpoint in distribuzioni.Logging data is available for export if you go to the endpoint's page under Deployments.

Nota

I dati di registrazione sono disponibili per 30 giorni nell'archiviazione di proprietà di Microsoft.Logging data is available for 30 days on Microsoft-owned storage. Verrà rimosso in seguito.It will be removed afterwards. Se un account di archiviazione di proprietà del cliente è collegato alla sottoscrizione di servizi cognitivi, i dati di registrazione non verranno eliminati automaticamente.If a customer-owned storage account is linked to the Cognitive Services subscription, the logging data won't be automatically deleted.

Passaggi successiviNext steps

Risorse aggiuntiveAdditional resources