Che cos'è il riconoscimento vocale?

In questa panoramica vengono illustrati i vantaggi e le funzionalità del servizio di riconoscimento vocale. La sintesi vocale, nota anche come riconoscimento vocale, consente la trascrizione in tempo reale dei flussi audio in testo. Le applicazioni, gli strumenti o i dispositivi possono utilizzare, visualizzare ed eseguire operazioni su questo testo come input del comando. Questo servizio è basato sulla stessa tecnologia di riconoscimento utilizzata da Microsoft per i prodotti Cortana e Office. Funziona senza interruzioni con le offerte di servizi di traduzione e sintesi vocale . Per un elenco completo delle lingue di sintesi vocale disponibili, vedere linguaggi supportati.

Per impostazione predefinita, il servizio di sintesi vocale usa il modello di linguaggio universale. Questo modello è stato sottoposto a training usando i dati di proprietà di Microsoft e viene distribuito nel cloud. È ideale per gli scenari di conversazione e di dettatura. Quando si usa il riconoscimento vocale per il riconoscimento e la trascrizione in un ambiente univoco, è possibile creare ed eseguire il training di modelli acustici, di lingua e di pronuncia personalizzati. La personalizzazione è utile per risolvere il rumore di ambiente o il vocabolario specifico del settore.

Questa documentazione contiene i tipi di articolo seguenti:

  • Nelle guide introduttive vengono fornite istruzioni introduttive per l'esecuzione di richieste al servizio.
  • Le guide alle procedure contengono istruzioni per l'uso del servizio in modi più specifici o personalizzati.
  • I concetti forniscono spiegazioni approfondite delle funzionalità e delle funzionalità del servizio.
  • Le esercitazioni sono guide più lunghe che illustrano come usare il servizio come componente in soluzioni aziendali più ampie.

Nota

Il riconoscimento vocale Bing è stato ritirato il 15 ottobre 2019. Se le applicazioni, gli strumenti o i prodotti usano le API riconoscimento vocale Bing, sono state create guide che consentono di eseguire la migrazione al servizio di riconoscimento vocale.

Importante

Transport Layer Security (TLS) 1.2 viene ora applicato per tutte le richieste HTTP a questo servizio. Per altre informazioni, vedere Sicurezza di Servizi cognitivi di Azure.

Introduzione

Per iniziare a usare la sintesi vocale, vedere la Guida introduttiva . Il servizio è disponibile tramite l' SDK vocale, l' API RESTe l'interfaccia della riga di comando vocale.

Codice di esempio

Il codice di esempio per l'SDK di riconoscimento vocale è disponibile su GitHub. Questi esempi esaminano gli scenari comuni, ad esempio la lettura di audio da un file o streaming, il riconoscimento continuo e singolo e l'uso di modelli personalizzati.

Personalizzazione

Oltre al modello di servizio vocale standard, è possibile creare modelli personalizzati. La personalizzazione consente di superare gli ostacoli al riconoscimento vocale, ad esempio lo stile di pronuncia, il vocabolario e il rumore di fondo, vedere riconoscimento vocale personalizzato. Opzioni di personalizzazione variano in base a lingua/impostazioni locali, vedere le lingue supportate per verificare il supporto.

Trascrizione Batch

La trascrizione batch è un set di operazioni API REST che consentono di trascrivere una grande quantità di audio nell'archivio. È possibile puntare a file audio con un URI di firma di accesso condiviso (SAS) e ricevere in modo asincrono i risultati della trascrizione. Vedere le procedure per altre informazioni su come usare l'API di trascrizione batch.

Documentazione di riferimento

Il servizio di riconoscimento vocale fornisce due SDK. Il primo SDK è l' SDK di sintesi vocale principale e fornisce la maggior parte delle funzionalità necessarie per interagire con il servizio di riconoscimento vocale. Il secondo SDK è specifico per i dispositivi, denominati in modo appropriato SDK per i dispositivi vocali. Entrambi gli SDK sono disponibili in molte lingue.

Documentazione di riferimento per l'SDK vocale

Usare l'elenco seguente per trovare la documentazione di riferimento dell'SDK vocale appropriata:

Suggerimento

L'SDK del servizio di riconoscimento vocale viene attivamente gestito e aggiornato. Per tenere traccia delle modifiche, gli aggiornamenti e le aggiunte delle funzionalità fanno riferimento alle Note sulla versione dell'SDK di riconoscimento vocale.

Documentazione di riferimento per i dispositivi vocali SDK

Speech Devices SDK è un superset dell'SDK di riconoscimento vocale, con funzionalità estese per dispositivi specifici. Per scaricare l'SDK per i dispositivi vocali, è necessario innanzitutto scegliere un kit di sviluppo.

Riferimenti all'API REST

Per i riferimenti a diverse API REST del servizio vocale, vedere l'elenco seguente:

Passaggi successivi