Sobre o SDK de FalaAbout the Speech SDK

O SDK (Software Development Kit de fala) expõe muitos dos recursos do serviço de fala, para capacitar o desenvolvimento de aplicativos habilitados para fala.The Speech software development kit (SDK) exposes many of the Speech service capabilities, to empower you to develop speech-enabled applications. O SDK de fala está disponível em muitas linguagens de programação e em todas as plataformas.The Speech SDK is available in many programming languages and across all platforms.

Linguagem de programaçãoProgramming language PlataformaPlatform Referência do SDKSDK reference
C# 1C# 1 Windows, Linux, macOS, mono, Xamarin. iOS, Xamarin. Mac, Xamarin. Android, UWP, UnityWindows, Linux, macOS, Mono, Xamarin.iOS, Xamarin.Mac, Xamarin.Android, UWP, Unity SDK .NET.NET SDK
C++C++ Windows, Linux, macOSWindows, Linux, macOS SDK DO C++C++ SDK
Java 2Java 2 Android, Windows, Linux, macOSAndroid, Windows, Linux, macOS Java SDKJava SDK
JavaScriptJavaScript Browser, Node.jsBrowser, Node.js SDK do JavaScriptJavaScript SDK
Objective-C/SwiftObjective-C / Swift iOS, macOSiOS, macOS SDK do Objective-CObjective-C SDK
PythonPython Windows, Linux, macOSWindows, Linux, macOS SDK do PythonPython SDK

1 o SDK de fala do .NET é baseado no .NET Standard 2,0, portanto, ele dá suporte a várias plataformas. Para obter mais informações, consulte suporte à implementação do .net .1 The .NET Speech SDK is based on .NET Standard 2.0, thus it supports many platforms. For more information, see .NET implementation support .

2 o SDK de fala do Java também está disponível como parte do SDK dos dispositivos de fala.2 The Java Speech SDK is also available as part of the Speech Devices SDK.

Recursos de cenárioScenario capabilities

O SDK de fala expõe muitos recursos do serviço de fala, mas não todos eles.The Speech SDK exposes many features from the Speech service, but not all of them. Os recursos do SDK de fala geralmente são associados a cenários.The capabilities of the Speech SDK are often associated with scenarios. O SDK de fala é ideal para cenários em tempo real e não em tempo real, usando dispositivos locais, arquivos, armazenamento de BLOBs do Azure e até mesmo fluxos de entrada e saída.The Speech SDK is ideal for both real-time and non-real-time scenarios, using local devices, files, Azure blob storage, and even input and output streams. Quando um cenário não é atingível com o SDK de fala, procure uma alternativa de API REST.When a scenario is not achievable with the Speech SDK, look for a REST API alternative.

Conversão de fala em textoSpeech-to-text

A conversão de fala em texto (também conhecida como reconhecimento de fala) transcreve fluxos de áudio para o texto que seus aplicativos, ferramentas ou dispositivos podem consumir ou exibir.Speech-to-text (also known as speech recognition) transcribes audio streams to text that your applications, tools, or devices can consume or display. Use a conversão de fala em texto com o LUIS (Reconhecimento vocal) para derivar intenções do usuário de dados de fala transcrita e agir com base em comandos de voz.Use speech-to-text with Language Understanding (LUIS) to derive user intents from transcribed speech and act on voice commands. Use a tradução de fala para traduzir a entrada de fala para um idioma diferente com uma única chamada.Use Speech Translation to translate speech input to a different language with a single call. Para obter mais informações, consulte noções básicas de conversão de fala em texto.For more information, see Speech-to-text basics.

O reconhecimento de fala (Sr), a lista de frases, a intenção, a tradução e os contêineres locais estão disponíveis nas seguintes plataformas:Speech-Recognition (SR), Phrase List, Intent, Translation, and On-premises containers are available on the following platforms:

  • C++/Windows & Linux & macOSC++/Windows & Linux & macOS
  • C# (Framework & .NET Core)/Windows & UWP & Unity & Xamarin & Linux & macOSC# (Framework & .NET Core)/Windows & UWP & Unity & Xamarin & Linux & macOS
  • Java (JRE e Android)Java (Jre and Android)
  • JavaScript (Brower e NodeJS)JavaScript (Brower and NodeJS)
  • PythonPython
  • SwiftSwift
  • Objective-CObjective-C
  • Go (somente SR)Go (SR only)

Conversão de texto em falaText-to-speech

Conversão de texto em fala (também conhecida como síntese de fala) converte o texto em fala sintetizada semelhante à humana.Text-to-speech (also known as speech synthesis) converts text into human-like synthesized speech. O texto de entrada é um literal de cadeia de caracteres ou o uso da linguagem de marcação de síntese de fala (SSML).The input text is either string literals or using the Speech Synthesis Markup Language (SSML). Para obter mais informações sobre vozes padrão ou neural, consulte linguagem de conversão de texto em fala e suporte de voz.For more information on standard or neural voices, see Text-to-speech language and voice support.

A conversão de texto em fala (TTS) está disponível nas seguintes plataformas:Text-to-speech (TTS) is available on the following platforms:

  • C++/Windows & LinuxC++/Windows & Linux
  • C#/Windows & UWP & UnityC#/Windows & UWP & Unity
  • Java (JRE e Android)Java (Jre and Android)
  • PythonPython
  • SwiftSwift
  • Objective-CObjective-C
  • A API REST de TTS pode ser usada em todas as outras situações.TTS REST API can be used in every other situation.

Assistentes de vozVoice assistants

Os assistentes de voz que usam o SDK de fala permitem que os desenvolvedores criem interfaces de conversação naturais e humanas para seus aplicativos e experiências.Voice assistants using the Speech SDK enable developers to create natural, human-like conversational interfaces for their applications and experiences. O serviço assistente de voz fornece uma interação rápida e confiável entre um dispositivo e um assistente.The voice assistant service provides fast, reliable interaction between a device and an assistant. A implementação usa o canal de fala de linha direta da estrutura de bot ou o serviço de comandos personalizados integrados (versão prévia) para a conclusão da tarefa.The implementation uses the Bot Framework's Direct Line Speech channel or the integrated Custom Commands (Preview) service for task completion. Além disso, os assistentes de voz podem usar vozes personalizadas criadas no portal de voz personalizado para adicionar uma experiência de saída de voz exclusiva.Additionally, voice assistants can use custom voices created in the Custom Voice Portal to add a unique voice output experience.

Os assistentes de voz estão disponíveis nas seguintes plataformas:Voice assistants is available on the following platforms:

  • C++/Windows & Linux & macOSC++/Windows & Linux & macOS
  • C#/WindowsC#/Windows
  • Java/Windows & Linux & macOS & Android (SDK de dispositivos de fala)Java/Windows & Linux & macOS & Android (Speech Devices SDK)

Palavra-chave parandoKeyword spotting

O conceito de decepções de palavra-chave tem suporte no SDK de fala.The concept of keyword spotting is supported in the Speech SDK. A palavra-chave que está sendo demarcada é o ato de identificar uma palavra-chave em fala, seguida de uma ação após ouvir a palavra-chave.Keyword spotting is the act of identifying a keyword in speech, followed by an action upon hearing the keyword. Por exemplo, "Ei Cortana" ativaria o assistente da Cortana.For example, "Hey Cortana" would activate the Cortana assistant.

A palavra-chave (KWs) está disponível nas seguintes plataformas:Keyword Spotting (KWS) is available on the following platforms:

  • C++/Windows & LinuxC++/Windows & Linux
  • C#/Windows & LinuxC#/Windows & Linux
  • Python/Windows & LinuxPython/Windows & Linux
  • Java/Windows & Linux & Android (SDK de dispositivos de fala)Java/Windows & Linux & Android (Speech Devices SDK)
  • A funcionalidade de KWS (palavra-chave) pode funcionar com qualquer tipo de microfone, o suporte oficial do KWS, no entanto, está limitado atualmente às matrizes de microfone encontradas no hardware do Azure Kinect DK ou no SDK dos dispositivos de falaKeyword spotting (KWS) functionality might work with any microphone type, official KWS support, however, is currently limited to the microphone arrays found in the Azure Kinect DK hardware or the Speech Devices SDK

Cenários de reuniãoMeeting scenarios

O SDK de fala é perfeito para transcrever cenários de reunião, seja de um único dispositivo ou de uma conversa de vários dispositivos.The Speech SDK is perfect for transcribing meeting scenarios, whether from a single device or multi-device conversation.

Transcrição de conversaConversation Transcription

A transcrição de conversa habilita o reconhecimento de fala em tempo real (e assíncrono), a identificação do orador e a atribuição de frase para cada palestrante (também conhecido como diarization).Conversation Transcription enables real-time (and asynchronous) speech recognition, speaker identification, and sentence attribution to each speaker (also known as diarization). É perfeito para transcrição de reuniões presenciais com a capacidade de distinguir os locutores.It's perfect for transcribing in-person meetings with the ability to distinguish speakers.

A transcrição de conversa está disponível nas seguintes plataformas:Conversation Transcription is available on the following platforms:

  • C++/Windows & LinuxC++/Windows & Linux
  • C# (Framework & .NET Core)/Windows & UWP & LinuxC# (Framework & .NET Core)/Windows & UWP & Linux
  • Java/Windows & Linux & Android (SDK de dispositivos de fala)Java/Windows & Linux & Android (Speech Devices SDK)

Conversa em vários dispositivosMulti-device Conversation

Com a conversa com vários dispositivos, conecte vários dispositivos ou clientes em uma conversa para enviar mensagens baseadas em fala ou em texto, com suporte fácil para transcrição e tradução.With Multi-device Conversation, connect multiple devices or clients in a conversation to send speech-based or text-based messages, with easy support for transcription and translation.

A conversa de vários dispositivos está disponível nas seguintes plataformas:Multi-device Conversation is available on the following platforms:

  • C++/WindowsC++/Windows
  • C# (Framework & .NET Core)/WindowsC# (Framework & .NET Core)/Windows

Cenários de agente/personalizadoCustom / agent scenarios

O SDK de fala pode ser usado para transcrever cenários de Call Center, onde os dados de telefonia são gerados.The Speech SDK can be used for transcribing call center scenarios, where telephony data is generated.

Transcrição de call centerCall Center Transcription

A transcrição do Call Center é um cenário comum de conversão de fala em texto para transcrever grandes volumes de dados de telefonia que podem vir de vários sistemas, como o IVR (resposta interativa de voz).Call Center Transcription is common scenario for speech-to-text for transcribing large volumes of telephony data that may come from various systems, such as Interactive Voice Response (IVR). Os modelos de reconhecimento de fala mais recentes do serviço de fala do Excel na transcreveção desses dados de telefonia, mesmo em casos em que os dados são difíceis de entender.The latest speech recognition models from the Speech service excel at transcribing this telephony data, even in cases when the data is difficult for a human to understand.

A transcrição do Call Center está disponível por meio do serviço de fala em lotes por meio de sua API REST e pode ser usada em qualquer situação.Call Center Transcription is available through the Batch Speech Service via its REST API and can be used in any situation.

Entrada de áudio compactada por codecCodec compressed audio input

Várias das linguagens de programação SDK de fala dão suporte a fluxos de entrada de áudio compactados por codec.Several of the Speech SDK programming languages support codec compressed audio input streams. Para obter mais informações, consulte usar formatos de entrada de áudio compactados .For more information, see use compressed audio input formats .

A entrada de áudio compactada por codec está disponível nas seguintes plataformas:Codec compressed audio input is available on the following platforms:

  • C++/LinuxC++/Linux
  • /Linux C#C#/Linux
  • Java/Linux, Android e iOSJava/Linux, Android, and iOS

API RESTREST API

Embora o SDK de fala cubra muitos recursos de recurso do serviço de fala, em alguns cenários, talvez você queira usar a API REST.While the Speech SDK covers many feature capabilities of the Speech Service, for some scenarios you might want to use the REST API.

Transcrição de loteBatch transcription

A transcrição em lote permite a transcrição de fala em texto assíncrona de grandes volumes de dados.Batch transcription enables asynchronous speech-to-text transcription of large volumes of data. A transcrição do lote só é possível da API REST.Batch transcription is only possible from the REST API. Além de converter áudio de fala em texto, a conversão de texto em lote também permite a análise de diarization e de sentimentos.In addition to converting speech audio to text, batch speech-to-text also allows for diarization and sentiment-analysis.

PersonalizaçãoCustomization

O serviço de fala oferece excelente funcionalidade com seus modelos padrão entre conversão de fala em texto, texto em fala e tradução de fala.The Speech Service delivers great functionality with its default models across speech-to-text, text-to-speech, and speech-translation. Às vezes, talvez você queira aumentar o desempenho da linha de base para funcionar ainda melhor com seu caso de uso exclusivo.Sometimes you may want to increase the baseline performance to work even better with your unique use case. O serviço de fala tem uma variedade de ferramentas de personalização sem código que facilitam e permitem que você crie uma vantagem competitiva com modelos personalizados com base em seus próprios dados.The Speech Service has a variety of no-code customization tools that make it easy, and allow you to create a competitive advantage with custom models based on your own data. Esses modelos só estarão disponíveis para você e para sua organização.These models will only be available to you and your organization.

Fala Personalizada para textoCustom Speech-to-text

Ao usar a conversão de fala em texto para reconhecimento e transcrição em um ambiente exclusivo, você pode criar e treinar modelos acústicos, de linguagem e de pronúncia personalizados para resolver o ruído de ambiente ou vocabulário específico do setor.When using speech-to-text for recognition and transcription in a unique environment, you can create and train custom acoustic, language, and pronunciation models to address ambient noise or industry-specific vocabulary. A criação e o gerenciamento de modelos de Fala Personalizada sem código estão disponíveis por meio do portal de fala personalizada.The creation and management of no-code Custom Speech models is available through the Custom Speech Portal. Depois que o modelo de Fala Personalizada for publicado, ele poderá ser consumido pelo SDK de fala.Once the Custom Speech model is published, it can be consumed by the Speech SDK.

Conversão de texto em fala personalizadaCustom Text-to-speech

Conversão de texto em fala personalizada, também conhecida como voz personalizada, é um conjunto de ferramentas online que permitem que você crie uma voz de um tipo reconhecível para sua marca.Custom text-to-speech, also known as Custom Voice is a set of online tools that allow you to create a recognizable, one-of-a-kind voice for your brand. A criação e o gerenciamento de modelos de voz personalizados sem código estão disponíveis por meio do portal de voz personalizado.The creation and management of no-code Custom Voice models is available through the Custom Voice Portal. Depois que o modelo de voz personalizado for publicado, ele poderá ser consumido pelo SDK de fala.Once the Custom Voice model is published, it can be consumed by the Speech SDK.

Obter o SDK de FalaGet the Speech SDK

O SDK de fala dá suporte ao Windows 10 e ao Windows Server 2016 ou versões posteriores.The Speech SDK supports Windows 10 and Windows Server 2016, or later versions. Não há suporte oficialmente para versões anteriores.Earlier versions are not officially supported. É possível usar partes do SDK de fala com versões anteriores do Windows, embora não seja recomendável.It is possible to use parts of the Speech SDK with earlier versions of Windows, although it's not advised.


Windows

Requisitos do sistemaSystem requirements

O SDK do Speech no Windows requer o Microsoft Visual C++ redistribuível para o Visual Studio 2019 no sistema.The Speech SDK on Windows requires the Microsoft Visual C++ Redistributable for Visual Studio 2019 on the system.

C#C#

O SDK de fala do .NET está disponível como um pacote NuGet e implementa .NET Standard 2,0, para obter mais informações, consulte Microsoft. cognitivaservices. Speech .The .NET Speech SDK is available as a NuGet package and implements .NET Standard 2.0, for more information, see Microsoft.CognitiveServices.Speech .


C#

Pacote NuGet do C#C# NuGet Package

O SDK de fala do .NET pode ser instalado por meio do CLI do .NET Core com o comando a seguir dotnet add .The .NET Speech SDK can be installed from the .NET Core CLI with the following dotnet add command.

dotnet add package Microsoft.CognitiveServices.Speech

O SDK de fala do .NET pode ser instalado por meio do Gerenciador de pacotes com o comando a seguir Install-Package .The .NET Speech SDK can be installed from the Package Manager with the following Install-Package command.

Install-Package Microsoft.CognitiveServices.Speech

Recursos adicionaisAdditional resources

Para a entrada do microfone, as bibliotecas do Media Foundation precisam ser instaladas.For microphone input, the Media Foundation libraries must be installed. Essas bibliotecas fazem parte do Windows 10 e do Windows Server 2016.These libraries are part of Windows 10 and Windows Server 2016. É possível usar o SDK de Fala sem essas bibliotecas, contanto que o microfone não seja usado como o dispositivo de entrada de áudio.It's possible to use the Speech SDK without these libraries, as long as a microphone isn't used as the audio input device.

Os arquivos necessários do SDK de Fala podem ser implantados no mesmo diretório do seu aplicativo.The required Speech SDK files can be deployed in the same directory as your application. Dessa forma, seu aplicativo pode acessar diretamente as bibliotecas.This way your application can directly access the libraries. Verifique se você selecionou a versão correta (x86/x64) que corresponde ao seu aplicativo.Make sure you select the correct version (x86/x64) that matches your application.

NomeName FunçãoFunction
Microsoft.CognitiveServices.Speech.core.dll SDK principal, necessário para implantação nativa e gerenciadaCore SDK, required for native and managed deployment
Microsoft.CognitiveServices.Speech.csharp.dll Necessário para implantação gerenciadaRequired for managed deployment

Observação

A partir da versão 1.3.0, o arquivo Microsoft.CognitiveServices.Speech.csharp.bindings.dll (fornecido em versões anteriores) não é mais necessário.Starting with the release 1.3.0 the file Microsoft.CognitiveServices.Speech.csharp.bindings.dll (shipped in previous releases) isn't needed anymore. A funcionalidade agora está integrada no SDK principal.The functionality is now integrated in the core SDK.

Importante

Para o projeto do Windows Forms app (.NET Framework) C#, verifique se as bibliotecas estão incluídas nas configurações de implantação do seu projeto.For the Windows Forms App (.NET Framework) C# project, make sure the libraries are included in your project's deployment settings. Você pode verificar isso em Properties -> Publish Section .You can check this under Properties -> Publish Section. Clique no Application Files botão e localize as bibliotecas correspondentes na lista rolar para baixo.Click the Application Files button and find corresponding libraries from the scroll down list. Verifique se o valor está definido como Included .Make sure the value is set to Included. O Visual Studio incluirá o arquivo quando o projeto for publicado/implantado.Visual Studio will include the file when project is published/deployed.

C++C++

O C++ Speech SDK está disponível no Windows, Linux e macOS.The C++ Speech SDK is available on Windows, Linux, and macOS. Para obter mais informações, consulte Microsoft. cognitivaservices. Speech .For more information, see Microsoft.CognitiveServices.Speech .


C++

Pacote NuGet do C++C++ NuGet package

O SDK de fala do C++ pode ser instalado do Gerenciador de pacotes com o comando a seguir Install-Package .The C++ Speech SDK can be installed from the Package Manager with the following Install-Package command.

Install-Package Microsoft.CognitiveServices.Speech

Binários e arquivos de cabeçalho do C++C++ binaries and header files

Como alternativa, o SDK de fala do C++ pode ser instalado a partir de binários.Alternatively, the C++ Speech SDK can be installed from binaries. Baixe o SDK como um pacote . tar e descompacte os arquivos em um diretório de sua escolha.Download the SDK as a .tar package and unpack the files in a directory of your choice. O conteúdo deste pacote (que inclui arquivos de cabeçalho para as arquiteturas de destino x86 e x64) é estruturado da seguinte maneira:The contents of this package (which include header files for both x86 and x64 target architectures) are structured as follows:

CaminhoPath DescriçãoDescription
license.md LicençaLicense
ThirdPartyNotices.md Avisos de terceirosThird-party notices
include Arquivos de cabeçalho para C++Header files for C++
lib/x64 Biblioteca x64 nativa para vinculação ao seu aplicativoNative x64 library for linking with your application
lib/x86 Biblioteca x86 nativa para vinculação ao seu aplicativoNative x86 library for linking with your application

Para criar um aplicativo, copie ou mova os binários necessários (e bibliotecas) para o seu ambiente de desenvolvimento.To create an application, copy or move the required binaries (and libraries) into your development environment. Incluí-las conforme necessário no processo de compilação.Include them as required in your build process.

Recursos adicionaisAdditional resources

PythonPython

O SDK de fala do Python está disponível como um módulo PyPI (índice de pacote do Python) para obter mais informações, consulte Azure- cognitivaservices-fala .The Python Speech SDK is available as a Python Package Index (PyPI) module, for more information, see azure-cognitiveservices-speech . O SDK de fala do Python é compatível com Windows, Linux e macOS.The Python Speech SDK is compatible with Windows, Linux, and macOS.


Python
pip install azure-cognitiveservices-speech

Dica

Se você estiver no macOS, talvez seja necessário executar o comando a seguir para obter o comando Pip acima para funcionar:If you are on macOS, you may need to run the following command to get the pip command above to work:

python3 -m pip install --upgrade pip

Recursos adicionaisAdditional resources

JavaJava

O SDK do Java para Android é empacotado como um aar (biblioteca do Android) , que inclui as bibliotecas necessárias e as permissões do Android necessárias.The Java SDK for Android is packaged as an AAR (Android Library) , which includes the necessary libraries and required Android permissions. Está hospedado em um repositório Maven em https://csspeechstorage.blob.core.windows.net/maven/ como pacote com.microsoft.cognitiveservices.speech:client-sdk:1.14.0.It's hosted in a Maven repository at https://csspeechstorage.blob.core.windows.net/maven/ as package com.microsoft.cognitiveservices.speech:client-sdk:1.14.0.


Java

Para consumir o pacote do seu projeto do Android Studio, faça as seguintes alterações:To consume the package from your Android Studio project, make the following changes:

  1. No arquivo Build. gradle de nível de projeto, adicione o seguinte à repositories seção:In the project-level build.gradle file, add the following to the repositories section:
maven { url 'https://csspeechstorage.blob.core.windows.net/maven/' }
  1. No arquivo Build. gradle de nível de módulo, adicione o seguinte à dependencies seção:In the module-level build.gradle file, add the following to the dependencies section:
implementation 'com.microsoft.cognitiveservices.speech:client-sdk:1.14.0'

O SDK do Java também faz parte do SDK dos Dispositivos de Fala.The Java SDK is also part of the Speech Devices SDK.

Recursos adicionaisAdditional resources

Importante

Ao baixar qualquer um dos SDKs de Fala dos Serviços Cognitivos do Azure, você reconhece a licença dele.By downloading any of the Azure Cognitive Services Speech SDKs, you acknowledge its license. Para obter mais informações, consulte:For more information, see:

Exemplo de código fonteSample source code

A equipe do SDK de fala mantém ativamente um grande conjunto de exemplos em um repositório de código-fonte aberto.The Speech SDK team actively maintains a large set of examples in an open-source repository. Para o repositório de código-fonte de exemplo, visite o SDK de fala dos Serviços cognitivas da Microsoft no GitHub .For the sample source code repository, visit the Microsoft Cognitive Services Speech SDK on GitHub . Há exemplos para C#, C++, Java, Python, Objective-C, Swift, JavaScript, UWP, Unity e Xamarin.There are samples for C#, C++, Java, Python, Objective-C, Swift, JavaScript, UWP, Unity, and Xamarin.


GitHub

Próximas etapasNext steps