Informazioni su Riconoscimento vocale BingWhat is Bing Speech?

Nota

Il nuovo servizio Voce e il relativo SDK stanno sostituendo Riconoscimento vocale Bing, che dal 15 ottobre 2019 non funzionerà più.The new Speech Service and SDK is replacing Bing Speech, which will no longer work starting October 15, 2019. Per informazioni sul passaggio al servizio Voce, vedere Eseguire la migrazione da Riconoscimento vocale Bing al Servizio di riconoscimento vocale.For information on switching to the Speech Service, see Migrating from Bing Speech to the Speech Service.

API Riconoscimento vocale Bing di Microsoft è un'API basata sul cloud che offre agli sviluppatori un modo semplice per creare funzioni vocali avanzate nelle applicazioni, come comandi vocali, dialoghi con conversazioni naturali, trascrizione del parlato e dettatura.The cloud-based Microsoft Bing Speech API provides developers an easy way to create powerful speech-enabled features in their applications, like voice command control, user dialog using natural speech conversation, and speech transcription and dictation. Microsoft Speech API supporta sia il riconoscimento vocale sia la sintesi vocale.The Microsoft Speech API supports both Speech to Text and Text to Speech conversion.

  • L'API Riconoscimento vocale converte il parlato in testo che può essere usato come input o come comandi per controllare l'applicazione.Speech to Text API converts human speech to text that can be used as input or commands to control your application.
  • L'API Sintesi vocale converte il testo in flussi audio che possono essere riprodotti agli utenti dell'applicazione.Text to Speech API converts text to audio streams that can be played back to the user of your application.

Riconoscimento vocaleSpeech to text (speech recognition)

L'API Riconoscimento vocale Microsoft trascrive i flussi audio in testo che l'applicazione può mostrare all'utente o che può fungere da input per i comandi.Microsoft speech recognition API transcribes audio streams into text that your application can display to the user or act upon as command input. Consente agli sviluppatori di aggiungere le funzioni di riconoscimento vocale alle app in due modi diversi: API REST o librerie client basate su Websocket.It provides two ways for developers to add Speech to their apps: REST APIs or Websocket-based client libraries.

  • API REST: gli sviluppatori possono usare chiamate HTTP dalle proprie app al servizio per il riconoscimento vocale.REST APIs: Developers can use HTTP calls from their apps to the service for speech recognition.
  • Librerie client: per le funzionalità avanzate, gli sviluppatori possono scaricare le librerie client del riconoscimento vocale Microsoft e collegarle alle proprie app.Client libraries: For advanced features, developers can download Microsoft Speech client libraries, and link into their apps. Le librerie client sono disponibili su diverse piattaforme (Windows, Android, iOS) con linguaggi diversi (C#, Java, JavaScript, ObjectiveC).The client libraries are available on various platforms (Windows, Android, iOS) using different languages (C#, Java, JavaScript, ObjectiveC). A differenza delle API REST, le librerie client usano un protocollo basato su WebSocket.Unlike the REST APIs, the client libraries utilize Websocket-based protocol.
Casi d'usoUse cases API RESTREST APIs Librerie clientClient Libraries
Convertire breve contenuto vocale, ad esempio comandi (lunghezza audio < 15 secondi) senza risultati temporaneiConvert a short spoken audio, for example, commands (audio length < 15 s) without interim results Yes YesYes
Convertire contenuto audio lungo (> 15 secondi)Convert a long audio (> 15 s) NoNo YesYes
Trasmettere un flusso audio con risultati temporanei desideratiStream audio with interim results desired NoNo Yes
Comprendere il testo convertito dall'audio tramite LUISUnderstand the text converted from audio using LUIS NoNo YesYes

Indipendentemente dall'approccio scelto dagli sviluppatori (API REST o librerie client), il Servizio di riconoscimento vocale Microsoft supporta le funzionalità seguenti:Whichever approach developers choose (REST APIs or client libraries), Microsoft speech service supports the following:

  • Tecnologie avanzate di riconoscimento vocale Microsoft, usate da Cortana, Office Dictation, Office Translator e altri prodotti Microsoft.Advanced speech recognition technologies from Microsoft that are used by Cortana, Office Dictation, Office Translator, and other Microsoft products.
  • Riconoscimento continuo in tempo reale.Real-time continuous recognition. L'API Riconoscimento vocale consente agli utenti di trascrivere l'audio in testo in tempo reale e supporta la ricezione dei risultati intermedi relativi alle parole riconosciute fino a quel momento.The speech recognition API enables users to transcribe audio into text in real time, and supports to receive the intermediate results of the words that have been recognized so far. Il Servizio di riconoscimento vocale supporta anche il rilevamento della fine del parlato.The speech service also supports end-of-speech detection. Gli utenti possono anche scegliere funzionalità di formattazione aggiuntive, come l'uso di lettere maiuscole e minuscole e della punteggiatura, il mascheramento di contenuto volgare e la normalizzazione del testo.In addition, users can choose additional formatting capabilities, like capitalization and punctuation, masking profanity, and text normalization.
  • Supporta risultati ottimizzati di riconoscimento vocale per scenari interattivi, di conversazione e di dettatura.Supports optimized speech recognition results for interactive, conversation, and dictation scenarios. Per gli scenari utente che richiedono modelli di lingua personalizzati e modelli acustici, il Servizio di riconoscimento vocale personalizzato consente di creare modelli di riconoscimento vocale personalizzati per l'applicazione e per gli utenti.For user scenarios which require customized language models and acoustic models, Custom Speech Service allows you to create speech models that tailored to your application and your users.
  • Supporta molte lingue parlate in più dialetti.Support many spoken languages in multiple dialects. Per l'elenco completo delle lingue supportate in ogni modalità di riconoscimento, vedere l'articolo relativo alle lingue di riconoscimento.For the full list of supported languages in each recognition mode, see recognition languages.
  • Integrazione con Language Understanding.Integration with language understanding. Oltre a convertire l'input audio in testo, il riconoscimento vocale offre alle applicazioni una funzionalità aggiuntiva per comprendere il significato del testo.Besides converting the input audio into text, the Speech to Text provides applications an additional capability to understand what the text means. Usa il servizio Language Understanding Intelligent Services (LUIS) per estrarre finalità ed entità dal testo riconosciuto.It uses the Language Understanding Intelligent Service(LUIS) to extract intents and entities from the recognized text.

Passaggi successiviNext steps

Sintesi vocaleText to speech (speech synthesis)

Le API Sintesi vocale usano REST per convertire un testo strutturato in un flusso audio.Text to Speech APIs use REST to convert structured text to an audio stream. Le API garantiscono una veloce conversione con sintesi vocale in varie voci e lingue.The APIs provide fast text to speech conversion in various voices and languages. Gli utenti hanno anche la possibilità di modificare le caratteristiche audio, ad esempio pronuncia, volume e tonalità,In addition users also have the ability to change audio characteristics like pronunciation, volume, pitch etc. tramite tag SSML.using SSML tags.

Passaggi successiviNext steps