Che cos'è il servizio Riconoscimento vocale personalizzato?

Riconoscimento vocale personalizzato consente di valutare e migliorare l'accuratezza della sintesi vocale Microsoft per le applicazioni e i prodotti. Seguire i collegamenti in questo articolo per iniziare a creare un'esperienza di riconoscimento vocale personalizzata.

Cosa c'è in Riconoscimento vocale personalizzato?

Prima di poter eseguire qualsiasi operazione con Riconoscimento vocale personalizzato, sono necessari un account Azure e una sottoscrizione al servizio Voce. Dopo aver creato un account, è possibile preparare i dati, eseguire il training e testare i modelli, controllare la qualità del riconoscimento, valutare l'accuratezza e infine distribuire e usare il modello di riconoscimento vocale personalizzato.

Questo diagramma evidenzia i componenti che costituiscono l'area Riconoscimento vocale personalizzato dell'Speech Studio. Usare i collegamenti seguenti per altre informazioni su ogni passaggio.

Diagramma che evidenzia i componenti che costituiscono l'area Riconoscimento vocale personalizzato dell'Speech Studio.

  1. Sottoscrivere e creare un progetto. Creare un account Azure e sottoscrivere il servizio Voce. Questa sottoscrizione unificata consente di accedere alla sintesi vocale, alla sintesi vocale, alla traduzione vocale ealla Speech Studio . Usare quindi la sottoscrizione del servizio Voce per creare il primo Riconoscimento vocale personalizzato progetto.

  2. Caricare i dati di test. Caricare i dati di test (file audio) per valutare l'offerta di riconoscimento vocale Microsoft per applicazioni, strumenti e prodotti.

  3. Controllare la qualità del riconoscimento. Usare il Speech Studio per riprodurre l'audio caricato e controllare la qualità del riconoscimento vocale dei dati di test. Per le misurazioni quantitative, vedere Ispezionare i dati.

  4. Valutare e migliorare l'accuratezza. Valutare e migliorare l'accuratezza del modello di riconoscimento vocale. Il Speech Studio fornirà una frequenza di errori di parola, che è possibile usare per determinare se è necessario un training aggiuntivo. Se si è soddisfatti dell'accuratezza, è possibile usare direttamente le API del servizio Voce. Se si vuole migliorare l'accuratezza di una media relativa dal 5% al 20%, usare la scheda Training nel portale per caricare dati di training aggiuntivi, ad esempio trascrizioni con etichetta umana e testo correlato.

  5. Eseguire il training e distribuire un modello. Migliorare l'accuratezza del modello di riconoscimento vocale fornendo trascrizioni scritte (da 10 a 1.000 ore) e testo correlato (<200 MB) insieme ai dati di test audio. Questi dati consentono di eseguire il training del modello di riconoscimento vocale. Dopo il training, eseguire di nuovo il test. Se si è soddisfatti del risultato, è possibile distribuire il modello in un endpoint personalizzato.

Configurare l'account Azure

È necessario avere un account Azure e una sottoscrizione del servizio Voce prima di poter usare il Speech Studio per creare un modello personalizzato. Se l'account e la sottoscrizione non sono disponibili, provare il servizio Voce gratuitamente.

Nota

Assicurarsi di creare una sottoscrizione standard (S0). Le sottoscrizioni gratuite (F0) non sono supportate.

Se si prevede di eseguire il training di un modello personalizzato con dati audio, selezionare una delle aree seguenti con hardware dedicato disponibile per il training. In questo modo si riduce il tempo necessario per eseguire il training di un modello e si può usare più audio per il training. In queste aree il servizio Voce userà fino a 20 ore di audio per il training. in altre aree verrà utilizzato solo fino a 8 ore.

  • Australia orientale
  • Canada centrale
  • India centrale
  • Stati Uniti orientali
  • Stati Uniti orientali 2
  • Stati Uniti centro-settentrionali
  • Europa settentrionale
  • Stati Uniti centro-meridionali
  • Asia sud-orientale
  • Regno Unito meridionale
  • US Gov Arizona
  • US Gov Virginia
  • Europa occidentale
  • Stati Uniti occidentali 2

Dopo aver creato un account Azure e una sottoscrizione del servizio Voce, è necessario accedere al Speech Studio e connettere la sottoscrizione.

  1. Accedere al Speech Studio.
  2. Selezionare la sottoscrizione in cui si deve lavorare e creare un progetto di riconoscimento vocale.
  3. Se si vuole modificare la sottoscrizione, selezionare il pulsante dell'ingranaggio nel menu in alto.

Come creare un progetto

Contenuto come dati, modelli, test ed endpoint sono organizzati in progetti Speech Studio . Ogni progetto è specifico di un dominio e di un paese/lingua. Ad esempio, è possibile creare un progetto per i call center che usano l'inglese nel Stati Uniti.

Per creare il primo progetto, selezionare Riconoscimento vocale/Riconoscimento vocale personalizzato e quindi nuovo progetto. Seguire le istruzioni fornite dalla procedura guidata per creare il progetto. Dopo aver creato un progetto, dovrebbero essere visualizzate quattro schede: Dati, Test, Training e Distribuzione. Usare i collegamenti disponibili in Passaggi successivi per informazioni su come usare ogni scheda.

Importante

Il Speech Studio noto in precedenza come "portale Riconoscimento vocale personalizzato" è stato aggiornato di recente. Se sono stati creati dati, modelli, test ed endpoint pubblicati precedenti nel portale di CRIS.ai o con le API, è necessario creare un nuovo progetto nel nuovo portale per connettersi a queste entità precedenti.

Ciclo di vita di modelli ed endpoint

I modelli meno recenti diventano in genere meno utili nel tempo perché il modello più recente ha in genere una maggiore accuratezza. Pertanto, i modelli di base, nonché i modelli personalizzati e gli endpoint creati tramite il portale sono soggetti alla scadenza dopo 1 anno per l'adattamento e 2 anni per la decodifica. Vedere una descrizione dettagliata nell'articolo Ciclo di vita di modelli ed endpoint.

Passaggi successivi