Informazioni su Speech SDK

Speech Software Development Kit (SDK) espone molte delle funzionalità del servizio Voce, per consentire lo sviluppo di applicazioni abilitate per il riconoscimento vocale. Speech SDK è disponibile in molti linguaggi di programmazione e in tutte le piattaforme.

Linguaggio di programmazione Piattaforma Informazioni di riferimento sugli SDK
C# 1 Windows, Linux, macOS, mono, Novell. iOS, Novell. Mac, Novell. Android, UWP, Unity .NET SDK
C++ Windows, Linux, macOS SDK PER C++
Go Linux Go SDK
Java 2 Android, Windows, Linux, macOS SDK per Java
JavaScript Browser, Node.js JavaScript SDK
Objective-C/Swift iOS, macOS Objective-C SDK
Python Windows, Linux, macOS Python SDK

1 .NET Speech SDK è basato su .NET Standard 2,0, pertanto supporta molte piattaforme. Per ulteriori informazioni, vedere supporto dell'implementazione di .NET .

2 Java Speech SDK è disponibile anche come parte dell'SDK per dispositivi vocali.

Funzionalità dello scenario

Speech SDK espone molte funzionalità del servizio Voce, ma non tutte. Le funzionalità di Speech SDK sono spesso associate a scenari. Speech SDK è ideale per scenari sia in tempo reale che non in tempo reale, usando dispositivi locali, file, archiviazione BLOB di Azure e anche flussi di input e output. Quando uno scenario non è raggiungibile con Speech SDK, cercare un'alternativa all'API REST.

Riconoscimento vocale

La sintesi vocale (nota anche come riconoscimento vocale) trascrive i flussi audio in testo che le applicazioni, gli strumenti o i dispositivi possono utilizzare o visualizzare. È possibile usare il riconoscimento vocale con Language Understanding (LUIS) per derivare le finalità dell'utente dal parlato trascritto e agire sui comandi vocali. Usare Traduzione vocale per tradurre l'input vocale in una lingua diversa con una singola chiamata. Per altre informazioni, vedere Nozioni di base sulla sintesi vocale.

Riconoscimento vocale(SR), Elenco frasi, Finalità, Traduzione e contenitori locali sono disponibili nelle piattaforme seguenti:

  • C++/Windows & Linux & macOS
  • C# (Framework & .NET Core)/Windows & UWP & Unity & Xamarin & Linux & macOS
  • Java (Jre e Android)
  • JavaScript (Browser e NodeJS)
  • Python
  • Swift
  • Objective-C
  • Go (solo SR)

Sintesi vocale

La sintesi vocale (nota anche come sintesi vocale) converte il testo in sintesi vocale simile a quella umana. Il testo di input è un valore letterale stringa o un linguaggio SSML (Speech Synthesis Markup Language). Per altre informazioni sulle voci standard o neurali, vedere Supporto vocale e della lingua di sintesi vocale.

La sintesi vocale (TTS) è disponibile nelle piattaforme seguenti:

  • C++/Windows & Linux
  • C#/Windows & UWP & Unity
  • Java (Jre e Android)
  • Python
  • Swift
  • Objective-C
  • L'API REST TTS può essere usata in ogni altra situazione.

Assistenti vocali

Gli assistenti vocali che usano Speech SDK consentono di creare interfacce di conversazione naturali e simili a umane per le applicazioni e le esperienze. Speech SDK offre un'interazione rapida e affidabile che include la sintesi vocale, la sintesi vocale e i dati di conversazione in un'unica connessione. L'implementazione può usare Bot Framework canale Direct Line Speech o il servizio comandi personalizzati per il completamento dell'attività. Inoltre, gli assistenti vocali possono usare voci personalizzate create nel portale voce personalizzata per aggiungere un'esperienza di output vocale univoca.

Il supporto dell'assistente vocale è disponibile nelle piattaforme seguenti:

  • C++/Windows & Linux & macOS
  • C#/Windows
  • Java/Windows & Linux & macOS & Android (Speech Devices SDK)
  • Go

Riconoscimento delle parole chiave

Il concetto di riconoscimento delle parole chiave è supportato in Speech SDK. Il riconoscimento delle parole chiave è l'atto di identificare una parola chiave nel parlato, seguita da un'azione quando si ascolta la parola chiave. Ad esempio, "Hey Cortana" attiverà l Cortana assistant.

Il riconoscimento delle parole chiave è disponibile nelle piattaforme seguenti:

  • C++/Windows & Linux
  • C#/Windows & Linux
  • Python/Windows & Linux
  • Java/Windows & Linux & Android

Scenari di riunioni

Speech SDK è ideale per la trascrittura di scenari di riunioni, sia da un singolo dispositivo che da una conversazione su più dispositivi.

Trascrizione conversazione

La trascrizione della conversazione consente il riconoscimento vocale (e asincrono) in tempo reale, l'identificazione del parlante e l'attribuzione di frasi a ogni parlante (noto anche come diarizzazione). È ideale per la trascrizione di riunioni dal vivo grazie alla capacità di distinguere i parlanti.

La trascrizione della conversazione è disponibile nelle piattaforme seguenti:

  • C++/Windows & Linux
  • C# (Framework & .NET Core)/Windows & UWP & Linux
  • Java/Windows & Linux & Android (Speech Devices SDK)

Conversazione per più dispositivi

Con Conversazione su più dispositivi,connettere più dispositivi o client in una conversazione per inviare messaggi basati sul riconoscimento vocale o basato su testo, con un facile supporto per la trascrizione e la traduzione.

Conversazione su più dispositivi è disponibile nelle piattaforme seguenti:

  • C++/Windows
  • C# (Framework & .NET Core)/Windows

Scenari personalizzati/agente

Speech SDK può essere usato per la trascrittura di scenari di call center, in cui vengono generati i dati di telefonia.

Trascrizioni di call center

La trascrizione del call center è uno scenario comune per la sintesi vocale per la trascrizione di grandi volumi di dati di telefonia che possono derivare da vari sistemi, ad esempio Interactive Voice Response (IVR). I modelli di riconoscimento vocale più recenti del servizio Voce sono particolarmente validi per la trascrittura di questi dati di telefonia, anche nei casi in cui i dati sono difficili da comprendere per un essere umano.

La trascrizione del call center è disponibile tramite il servizio Voce batch tramite l'API REST e può essere usata in qualsiasi situazione.

Input audio compresso da codec

Diversi linguaggi di programmazione speech SDK supportano flussi di input audio compressi di codec. Per altre informazioni, vedere Usare formati di input audio compressi.

L'input audio compresso da codec è disponibile nelle piattaforme seguenti:

  • C++/Linux
  • C#/Linux
  • Java/Linux, Android e iOS

API REST

Mentre Speech SDK illustra molte funzionalità del servizio Voce, per alcuni scenari potrebbe essere necessario usare l'API REST.

Trascrizione batch

La trascrizione batch consente la trascrizione da voce a testo asincrona di grandi volumi di dati. La trascrizione batch è possibile solo dall'API REST. Oltre a convertire l'audio vocale in testo, la sintesi vocale in batch consente anche la diarizzazione e l'analisi del sentiment.

Personalizzazione

Il Servizio di riconoscimento vocale offre funzionalità avanzate con i modelli predefiniti per la sintesi vocale, la sintesi vocale e la traduzione vocale. In alcuni casi può essere necessario aumentare le prestazioni di base per funzionare ancora meglio con il caso d'uso univoco. Il Servizio di riconoscimento vocale offre un'ampia gamma di strumenti di personalizzazione senza codice che semplificano l'esecuzione e consentono di creare un vantaggio competitivo con modelli personalizzati basati sui propri dati. Questi modelli saranno disponibili solo per l'utente e l'organizzazione.

Riconoscimento vocale personalizzato

Quando si usa la sintesi vocale per il riconoscimento e la trascrizione in un ambiente univoco, è possibile creare ed eseguire il training di modelli di acustica, lingua e pronuncia personalizzati per risolvere il rumore ambientale o il vocabolario specifico del settore. La creazione e la gestione di modelli Riconoscimento vocale personalizzato code sono disponibili tramite il portale Riconoscimento vocale personalizzato . Dopo la Riconoscimento vocale personalizzato pubblicata, il modello può essere utilizzato da Speech SDK.

Sintesi vocale personalizzata

La sintesi vocale personalizzata, nota anche come voce personalizzata, è un set di strumenti online che consentono di creare una voce riconoscibile e unica per il marchio. La creazione e la gestione di modelli voce personalizzata code sono disponibili tramite il portale voce personalizzata . Dopo la voce personalizzata, il modello può essere utilizzato da Speech SDK.

Ottenere Speech SDK

Speech SDK supporta Windows 10 e Windows Server 2016 o versioni successive. Le versioni precedenti non sono ufficialmente supportate. È possibile usare parti dell'SDK di riconoscimento vocale con le versioni precedenti di Windows, anche se non sono consigliate.


Windows

Requisiti di sistema

Per Speech SDK in Windows è necessario il Microsoft Visual C++ Redistributable per Visual Studio 2019 nel sistema.

C#

.NET Speech SDK è disponibile come pacchetto NuGet e implementa .NET Standard 2,0. per altre informazioni, vedere Microsoft. CognitiveServices. Speech .


C#

Pacchetto NuGet C#

.NET Speech SDK può essere installato dal interfaccia della riga di comando di .NET Core con il dotnet add comando seguente.

dotnet add package Microsoft.CognitiveServices.Speech

.NET Speech SDK può essere installato da Gestione pacchetti con il Install-Package comando seguente.

Install-Package Microsoft.CognitiveServices.Speech

Risorse aggiuntive

Per l'input del microfono, è necessario installare le raccolte Media Foundation. Queste raccolte sono parte di Windows 10 e Windows Server 2016. È possibile utilizzare Speech SDK senza queste raccolte finché non viene utilizzato il microfono come dispositivo di input audio.

I file Speech SDK richiesti possono essere distribuiti nella stessa directory dell'applicazione. In questo modo l'applicazione può accedere direttamente alle raccolte. Assicurarsi di selezionare la versione corretta (x86/x64) corrispondente all'applicazione.

Nome Funzione
Microsoft.CognitiveServices.Speech.core.dll SDK di base, necessario per la distribuzione nativa e gestita
Microsoft.CognitiveServices.Speech.csharp.dll Obbligatorio per le distribuzioni gestite

Nota

A partire dalla versione 1.3.0, il file Microsoft.CognitiveServices.Speech.csharp.bindings.dll (fornito nelle versioni precedenti) non è più necessario. La funzionalità è ora integrata in Core SDK.

Importante

Per il progetto C# Windows Form App (.NET Framework), verificare che le librerie siano incluse nelle impostazioni di distribuzione del progetto. È possibile selezionare questa opzione in Properties -> Publish Section . Fai clic sul Application Files pulsante e trova le librerie corrispondenti dall'elenco di scorrimento verso il basso. Verificare che il valore sia impostato su Included . In Visual Studio il file verrà incluso quando il progetto viene pubblicato/distribuito.

C++

C++ Speech SDK è disponibile in Windows, Linux e macOS. Per ulteriori informazioni, vedere Microsoft. CognitiveServices. Speech .


C++

Pacchetto NuGet C++

È possibile installare C++ Speech SDK da Gestione pacchetti con il Install-Package comando seguente.

Install-Package Microsoft.CognitiveServices.Speech

Risorse aggiuntive

Python

Python Speech SDK è disponibile come modulo di indice dei pacchetti Python (PyPI). per altre informazioni, vedere Azure-cognitiveservices-Speech . Python Speech SDK è compatibile con Windows, Linux e macOS.


Python
pip install azure-cognitiveservices-speech

Suggerimento

Se si usa macOS, potrebbe essere necessario eseguire il comando seguente per ottenere il comando PIP precedente per il funzionamento:

python3 -m pip install --upgrade pip

Risorse aggiuntive

Java

Java SDK per Android è incluso in un pacchetto come AAR (libreria Android), che include le librerie necessarie e le autorizzazioni Android necessarie. È ospitato in un repository Maven in https://csspeechstorage.blob.core.windows.net/maven/ come pacchetto com.microsoft.cognitiveservices.speech:client-sdk:1.17.0. Assicurarsi che la versione 1.17.0 sia la più recente eseguendo una ricerca nel repository GitHub.


Java

Per usare il pacchetto dal progetto Android Studio apportare le modifiche seguenti:

  1. Nel file build.gradle a livello di progetto aggiungere quanto segue alla repositories sezione :
maven { url 'https://csspeechstorage.blob.core.windows.net/maven/' }
  1. Nel file build.gradle a livello di modulo aggiungere quanto segue alla dependencies sezione :
implementation 'com.microsoft.cognitiveservices.speech:client-sdk:1.17.0'

Java SDK fa inoltre parte di Speech Devices SDK.

Risorse aggiuntive

Importante

Scaricando uno dei componenti Speech SDK di Servizi cognitivi, si accetta la relativa licenza. Per altre informazioni, vedere:

Codice sorgente di esempio

Il team dell'SDK vocale gestisce attivamente un ampio set di esempi in un repository open source. Per il repository del codice sorgente di esempio, visitare Microsoft cognitive Services Speech SDK su GitHub . Sono disponibili esempi per C#, C++, Java, Python, Objective-C, Swift, JavaScript, UWP, Unity e Novell.


GitHub

Passaggi successivi