¿Qué son los servicios Voz?What are the Speech Services?

Los servicios de voz de Azure son la unificación de voz a texto, texto a voz y traducción de voz en una sola suscripción a Azure.Azure Speech Services are the unification of speech-to-text, text-to-speech, and speech-translation into a single Azure subscription. Es fácil habilitar voz en sus aplicaciones, herramientas y dispositivos con el SDK de voz, el SDK de dispositivos de voz o las API de REST.It's easy to speech enable your applications, tools, and devices with the Speech SDK, Speech Devices SDK, or REST APIs.

Importante

Los servicios de voz han reemplazado Bing Speech API, Translator Speech y Custom Speech.Speech Services have replaced Bing Speech API, Translator Speech, and Custom Speech. Consulte Guías de procedimientos > Migración para obtener instrucciones de migración.See How-to guides > Migration for migration instructions.

Estas características conforman los servicios de voz de Azure.These features make up the Azure Speech Services. Use los vínculos en esta tabla para obtener más información sobre los casos de uso comunes para cada característica o examinar la referencia de API.Use the links in this table to learn more about common use cases for each feature or browse the API reference.

ServicioService CaracterísticaFeature DESCRIPCIÓNDescription SDKSDK RESTREST
Voz a textoSpeech-to-Text Voz a textoSpeech-to-text Voz a texto transcribe secuencias de audio a texto en tiempo real que sus aplicaciones, herramientas o dispositivos pueden usar o mostrar.Speech-to-text transcribes audio streams to text in real time that your applications, tools, or devices can consume or display. Use voz a texto con Language Understanding (LUIS) para derivar las intenciones del usuario a partir de voz transcrita y actuar en los comandos de voz.Use speech-to-text with Language Understanding (LUIS) to derive user intents from transcribed speech and act on voice commands. Yes Yes
Batch Transcription (Transcripción de Azure Batch)Batch Transcription La transcripción de Azure Batch permite la transcripción de voz a texto asincrónica de grandes volúmenes de datos.Batch transcription enables asynchronous speech-to-text transcription of large volumes of data. Este es un servicio basado en REST, que usa el mismo punto de conexión que la personalización y la administración de modelos.This is a REST-based service, which uses same endpoint as customization and model management. SinNo Yes
Transcripción de conversacionesConversation Transcription Permite el reconocimiento de voz en tiempo real, la identificación del hablante y la diarización.Enables real-time speech recognition, speaker identification, and diarization. Es perfecto para transcribir reuniones en persona con la capacidad de distinguir a los oradores.It's perfect for transcribing in-person meetings with the ability to distinguish speakers. Yes SinNo
Creación de modelos de voz personalizadosCreate Custom Speech Models Si usa voz a texto para el reconocimiento y la transcripción en un entorno único, puede crear y entrenar modelos acústicos, de lenguaje y pronunciación personalizados para dirigir el sonido ambiental o vocabulario específico del sector.If you are using speech-to-text for recognition and transcription in a unique environment, you can create and train custom acoustic, language, and pronunciation models to address ambient noise or industry-specific vocabulary. SinNo Yes
Texto a vozText-to-Speech Texto a vozText-to-speech Texto a voz convierte el texto de entrada en voz sintetizada similar a la humana mediante el Lenguaje de marcado de síntesis de voz (SSML).Text-to-speech converts input text into human-like synthesized speech using Speech Synthesis Markup Language (SSML). Elija entre voces estándar y voces neuronales (consulte Compatibilidad de idioma).Choose from standard voices and neural voices (see Language support). Yes Yes
Creación de voces personalizadasCreate Custom Voices Cree fuentes de voz personalizadas únicas para su marca o producto.Create custom voice fonts unique to your brand or product. SinNo Yes
Traducción de vozSpeech Translation Traducción de vozSpeech translation La traducción de voz habilita la traducción de voz en varios idiomas en tiempo real en sus aplicaciones, herramientas y dispositivos.Speech translation enables real-time, multi-language translation of speech to your applications, tools, and devices. Use este servicio para la traducción de voz a voz y voz a texto.Use this service for speech-to-speech and speech-to-text translation. Yes SinNo
Asistentes virtuales por vozVoice-first Virtual Assistants Asistentes virtuales por vozVoice-first virtual assistants Los asistentes virtuales personalizadas que utilizan los servicios de voz de Azure permiten a los desarrolladores crear interfaces de conversación naturales, similares a la humana, para sus aplicaciones y experiencias.Custom virtual assistants using Azure Speech Services empower developers to create natural, human-like conversational interfaces for their applications and experiences. El canal de voz Direct Line de Bot Framework mejora estas funcionalidades porque proporciona un punto de entrada coordinado y organizado a un bot compatible que permite la interacción de entrada y salida de voz con baja latencia y alta confiabilidad.The Bot Framework's Direct Line Speech channel enhances these capabilities by providing a coordinated, orchestrated entry point to a compatible bot that enables voice in, voice out interaction with low latency and high reliability. Yes SinNo

Noticias y actualizacionesNews and updates

Obtenga información sobre las novedades con los servicios de voz de Azure.Learn what's new with the Azure Speech Services.

  • Junio de 2019June 2019
    • El SDK de Voz versión 1.6.0 publicado.Released Speech SDK 1.6.0. Para obtener una lista completa de actualizaciones, mejoras y problemas conocidos, consulte las Notas de la versión.For a full list of updates, enhancements, and known issues, see Release notes.
  • Mayo de 2019: ya hay documentación disponible para Transcripción de conversaciones, Transcripción de centros de llamadas y Asistentes virtuales por voz.May 2019 - Documentation is now available for Conversation Transcription, Call Center Transcription, and Voice-first Virtual Assistants.
  • Mayo de 2019May 2019
    • Speech SDK versión 1.5.1 publicado.Released Speech SDK 1.5.1. Para obtener una lista completa de actualizaciones, mejoras y problemas conocidos, consulte las Notas de la versión.For a full list of updates, enhancements, and known issues, see Release notes.
    • Speech SDK versión 1.5.0 publicado.Released Speech SDK 1.5.0. Para obtener una lista completa de actualizaciones, mejoras y problemas conocidos, consulte las Notas de la versión.For a full list of updates, enhancements, and known issues, see Release notes.
  • Abril de 2019: publicación del SDK de Voz 1.4.0 con compatibilidad con conversión de texto a voz (Beta) para C++, C# y Java en Windows y Linux.April 2019 - Released Speech SDK 1.4.0 with support for text-to-speech (Beta) for C++, C#, and Java on Windows and Linux. Además, el SDK ahora admite formatos de audio MP3 y Opus/Ogg para C++ y C# en Linux.Additionally, the SDK now supports MP3 and Opus/Ogg audio formats for C++ and C# on Linux. Para obtener una lista completa de actualizaciones, mejoras y problemas conocidos, consulte las Notas de la versión.For a full list of updates, enhancements, and known issues, see Release notes.
  • Marzo de 2019: está disponible un nuevo punto de conexión para la conversión de texto a voz (TTS) que devuelve una lista completa de las voces disponibles en una región concreta.March 2019 - A new endpoint for text-to-speech (TTS) that returns a full list of voices available in a specific region is now available. Además, ahora se admiten regiones nuevas para TTS.Additionally, new regions are now supported for TTS. Para más información, consulte la referencia de Text-to-speech API (REST).For more information, see Text-to-speech API reference (REST).

Prueba de los servicios de vozTry Speech Services

Ofrecemos guías de inicio rápido en los lenguajes de programación más populares, cuyo diseño individual le permite ejecutar código en menos de 10 minutos.We offer quickstarts in most popular programming languages, each designed to have you running code in less than 10 minutes. En esta tabla se incluyen las guías de inicio rápido más populares para cada característica.This table contains the most popular quickstarts for each feature. Use el menú de navegación izquierdo para explorar lenguajes y plataformas adicionales.Use the left-hand navigation to explore additional languages and platforms.

Voz a texto (SDK)Speech-to-text (SDK) Texto a voz (SDK)Text-to-Speech (SDK) Traducción (SDK)Translation (SDK)
C#, .NET Core (Windows)C#, .NET Core (Windows) C#, .NET Framework (Windows)C#, .NET Framework (Windows) Java (Windows, Linux)Java (Windows, Linux)
JavaScript (Explorador)JavaScript (Browser) C++ (Windows)C++ (Windows) C#, .NET Core (Windows)C#, .NET Core (Windows)
Python (Windows, Linux, macOS)Python (Windows, Linux, macOS) C++ (Linux)C++ (Linux) C#, .NET Framework (Windows)C#, .NET Framework (Windows)
Java (Windows, Linux)Java (Windows, Linux) C++ (Windows)C++ (Windows)

Nota

Voz a texto y texto a voz también tienen asociados puntos de conexión REST e inicios rápidos.Speech-to-text and text-to-speech also have REST endpoints and associated quickstarts.

Una vez que haya tenido la oportunidad de usar los servicios de voz, pruebe nuestro tutorial, que le enseña a reconocer intenciones a partir de contenido de voz mediante el SDK de voz y LUIS.After you've had a chance to use the Speech Services, try our tutorial that teaches you how to recognize intents from speech using the Speech SDK and LUIS.

Obtención de código de ejemploGet sample code

El código de ejemplo está disponible en GitHub para cada uno de los servicios de voz de Azure.Sample code is available on GitHub for each of the Azure Speech Services. En estos ejemplos se tratan escenarios comunes como la lectura de audio de un archivo o flujo, el reconocimiento continuo y de una sola emisión, y el trabajo con modelos personalizados.These samples cover common scenarios like reading audio from a file or stream, continuous and single-shot recognition, and working with custom models. Use estos vínculos para ver ejemplos de SDK y REST:Use these links to view SDK and REST samples:

Personalización de su experiencia de vozCustomize your speech experience

Los servicios de voz de Azure funcionan bien con los modelos integrados; sin embargo, es posible que desee personalizar y optimizar más la experiencia para su producto o entorno.Azure Speech Services works well with built-in models, however, you may want to further customize and tune the experience for your product or environment. Las opciones de personalización abarcan desde la optimización de modelos acústicos a fuentes de voz únicas para su marca.Customization options range from acoustic model tuning to unique voice fonts for your brand. Una vez que haya creado un modelo personalizado, podrá usarlo con cualquiera de los servicios de voz de Azure.After you've built a custom model, you can use it with any of the Azure Speech Services.

Speech ServiceSpeech Service ModeloModel DESCRIPCIÓNDescription
Voz a textoSpeech-to-Text Modelo acústicoAcoustic model Cree un modelo acústico personalizado para las aplicaciones, herramientas o dispositivos usados en entornos concretos como en un automóvil o en una planta de producción, cada uno con unas condiciones de grabación específicas.Create a custom acoustic model for applications, tools, or devices that are used in particular environments like in a car or on a factory floor, each with specific recording conditions. Los ejemplos incluyen el habla con acento, ruidos de fondo específicos o el uso de un micrófono específico para la grabación.Examples include accented speech, specific background noises, or using a specific microphone for recording.
Modelo de lenguajeLanguage model Cree un modelo de lenguaje personalizado para mejorar la transcripción de gramática y vocabulario específicos del campo, como terminología médica o jerga de TI.Create a custom language model to improve transcription of field-specific vocabulary and grammar, such as medical terminology, or IT jargon.
Modelo de pronunciaciónPronunciation model Con un modelo de pronunciación personalizado, puede definir el formato fonético y mostrar una palabra o un término.With a custom pronunciation model, you can define the phonetic form and display of a word or term. Es útil para controlar términos personalizados, como nombres de producto o acrónimos.It's useful for handling customized terms, such as product names or acronyms. Basta con un archivo de pronunciación (un archivo .txt simple).All you need to get started is a pronunciation file -- a simple .txt file.
Text-to-SpeechText-to-Speech Fuente de vozVoice font Las fuentes de voz personalizadas le permiten crear una voz única y reconocible para su marca.Custom voice fonts allow you to create a recognizable, one-of-a-kind voice for your brand. Solo toma una pequeña cantidad de datos para empezar a trabajar.It only takes a small amount of data to get started. Cuantos más datos proporcione, más natural y similar a la humana sonará su fuente de voz.The more data that you provide, the more natural and human-like your voice font will sound.

Documentos de referenciaReference docs

Pasos siguientesNext steps

Get a Speech Services subscription key for free (Consiga una clave de suscripción a los servicios de voz gratis)Get a Speech Services subscription key for free