Introduzione alla parola chiave personalizzata

In questa guida introduttiva si apprenderanno le nozioni di base sull'uso di parole chiave personalizzate, Speech Studio e Speech SDK. Una parola chiave è una parola o una breve frase che consente l'attivazione vocale del prodotto. Si creano modelli di parole Speech Studio e quindi si esporta un file di modello da usare con Speech SDK nelle applicazioni.

Prerequisiti

I passaggi descritti in questo articolo richiedono una sottoscrizione di Riconoscimento vocale e Speech SDK. Se non si ha già una sottoscrizione, provare gratuitamente il servizio Voce. Per ottenere l'SDK, vedere la guida all'installazione per la piattaforma.

Creare una parola chiave in Speech Studio

Prima di poter usare una parola chiave personalizzata, è necessario creare una parola chiave usando la pagina parola chiave personalizzata in Speech Studio. Dopo aver specificato una parola chiave, viene generato .table un file che è possibile usare con Speech SDK.

Importante

I modelli di parole chiave personalizzati e .table i file risultanti possono essere creati solo in Speech Studio. Non è possibile creare parole chiave personalizzate dall'SDK o con chiamate REST.

  1. Passare al Speech Studio e accedere oppure, se non si ha ancora una sottoscrizione per il riconoscimento vocale, scegliere Crea una sottoscrizione.

  2. Nella pagina parola chiave personalizzata creare un nuovo progetto.

  3. Immettere un Nome, una Descrizione facoltativa e selezionare la lingua. È necessario un progetto per ogni lingua e il supporto è attualmente limitato all'inglese (Stati Uniti) e al cinese (cinese semplificato).

    Descrivere il progetto di parole chiave

  4. Selezionare il progetto dall'elenco.

    Selezionare il progetto di parola chiave

  5. Per creare un nuovo modello di parole chiave, fare clic su Train model (Training modello).

  6. Immettere un Nome per il modello, una Descrizione facoltativa e la Parola chiave scelta, quindi fare clic su Avanti. Vedere le linee guida sulla scelta di una parola chiave efficace.

    Immettere la parola chiave

  7. Il portale crea pronunce candidate per la parola chiave. Ascoltare ogni candidato facendo clic sui pulsanti di riproduzione e rimuovere i controlli accanto alle pronunce non corrette. Dopo aver selezionato solo le pronunce buone, fare clic su Train (Training) per iniziare a generare il modello di parole chiave.

    Screenshot che mostra dove scegliere le pronuciazioni corrette.

  8. La generazione del modello può richiedere fino a 30 minuti. L'elenco di parole chiave cambierà da Elaborazione a Completato al termine del modello. È quindi possibile scaricare il file.

    Esaminare la parola chiave

  9. Il file scaricato è un .zip archivio. Estrarre l'archivio per visualizzare un file con .table estensione . Si tratta del file che si usa con l'SDK nella sezione successiva, quindi assicurarsi di annotare il percorso. il nome del file rispecchia il nome della parola chiave, ad esempio una parola chiave Attiva dispositivo ha il nome file Activate_device.table .

Usare un modello di parole chiave con Speech SDK

Innanzitutto, caricare il file del modello di parole chiave utilizzando la FromFile() funzione statica, che restituisce KeywordRecognitionModel . Usare il percorso del .table file scaricato da speech studio. Inoltre, è possibile creare un AudioConfig usando il microfono predefinito, quindi creare un'istanza di un nuovo KeywordRecognizer usando la configurazione audio.

using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;

var keywordModel = KeywordRecognitionModel.FromFile("your/path/to/Activate_device.table");
using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
using var keywordRecognizer = new KeywordRecognizer(audioConfig);

Successivamente, l'esecuzione del riconoscimento delle parole chiave viene eseguita con una chiamata a RecognizeOnceAsync() passando l'oggetto modello. Viene avviata una sessione di riconoscimento delle parole chiave che dura fino a quando non viene riconosciuta la parola chiave. In questo modo, in genere si usa questo schema progettuale nelle applicazioni multithread o nei casi di utilizzo in cui è possibile che si sia in attesa di una parola di riattivazione per un periodo illimitato.

KeywordRecognitionResult result = await keywordRecognizer.RecognizeOnceAsync(keywordModel);

Nota

Nell'esempio riportato di seguito viene usato il riconoscimento delle parole chiave locale, poiché non richiede un SpeechConfig oggetto per il contesto di autenticazione e non contatta il back-end. Tuttavia, è possibile eseguire sia il riconoscimento delle parole chiave che la verifica utilizzando una connessione back-end diretta.

Riconoscimento continuo

Altre classi nell'SDK vocale supportano il riconoscimento continuo (per riconoscimento vocale e preventivo) con riconoscimento delle parole chiave. In questo modo è possibile usare lo stesso codice normalmente usato per il riconoscimento continuo, con la possibilità di fare riferimento a un .table file per il modello di parola chiave.

Per la sintesi vocale, seguire lo stesso schema di progettazione illustrato nella Guida introduttiva per configurare il riconoscimento continuo. Quindi, sostituire la chiamata a recognizer.StartContinuousRecognitionAsync() con recognizer.StartKeywordRecognitionAsync(KeywordRecognitionModel) e passare l' KeywordRecognitionModel oggetto. Per arrestare il riconoscimento continuo con il riconoscimento delle parole chiave, usare recognizer.StopKeywordRecognitionAsync() anziché recognizer.StopContinuousRecognitionAsync() .

Il riconoscimento preventivo usa un modello identico con le StartKeywordRecognitionAsync StopKeywordRecognitionAsync funzioni e.

Vedere l' esempio su GitHub per l'uso del modello di parola chiave personalizzata con Python SDK.

Vedere l' esempio su GitHub per l'uso del modello di parola chiave personalizzata con Objective C SDK.

Passaggi successivi