¿Qué es Speech Service?What is the Speech service?

El servicio de voz es la unificación de las funcionalidades de conversión de voz a texto, conversión de texto a voz y traducción de voz en una sola suscripción de Azure.The Speech service is the unification of speech-to-text, text-to-speech, and speech-translation into a single Azure subscription. Con la CLI de Voz, el SDK de voz, el SDK de dispositivos de voz, Speech Studio o las API REST es fácil habilitar aplicaciones, herramientas y dispositivos para el uso de la voz.It's easy to speech enable your applications, tools, and devices with the Speech CLI, Speech SDK, Speech Devices SDK, Speech Studio, or REST APIs.

Importante

El servicio de voz ha reemplazado a Bing Speech API y Translator Speech.The Speech service has replaced Bing Speech API and Translator Speech. Consulte la sección de migración para obtener instrucciones sobre migración.See the Migration section for migration instructions.

Las siguientes características forman parte del servicio Speech.The following features are part of the Speech service. Use los vínculos de esta tabla para obtener más información sobre los casos de uso comunes de cada característica o para examinar la referencia de API.Use the links in this table to learn more about common use-cases for each feature, or browse the API reference.

ServicioService CaracterísticaFeature DescripciónDescription SDKSDK RESTREST
Voz a textoSpeech-to-Text Conversión de voz en texto en tiempo realReal-time Speech-to-text La conversión de voz en texto transcribe o traduce en tiempo real secuencias de audio o archivos de audio a texto que sus aplicaciones, herramientas o dispositivos pueden consumir o mostrar.Speech-to-text transcribes or translates audio streams or local files to text in real time that your applications, tools, or devices can consume or display. Use voz a texto con Language Understanding (LUIS) para derivar las intenciones del usuario a partir de voz transcrita y actuar en los comandos de voz.Use speech-to-text with Language Understanding (LUIS) to derive user intents from transcribed speech and act on voice commands. Yes Yes
Conversión de voz en texto por lotesBatch Speech-to-Text La conversión de voz a texto por lotes permite la transcripción asincrónica de voz en texto de grandes volúmenes de datos de audio de voz almacenados en Azure Blob Storage.Batch Speech-to-text enables asynchronous speech-to-text transcription of large volumes of speech audio data stored in Azure Blob Storage. Además de convertir el audio de la voz en texto, la conversión de voz en texto por lotes también permite la diarización y el análisis de opiniones.In addition to converting speech audio to text, Batch Speech-to-text also allows for diarization and sentiment-analysis. NoNo Yes
Conversación entre varios dispositivosMulti-device Conversation Conexión de varios dispositivos o clientes en una conversación para enviar mensajes basados en voz o texto, con compatibilidad sencilla con transcripción y traducciónConnect multiple devices or clients in a conversation to send speech- or text-based messages, with easy support for transcription and translation Yes NoNo
Transcripción de conversacionesConversation Transcription Permite el reconocimiento de voz en tiempo real, la identificación del hablante y la diarización.Enables real-time speech recognition, speaker identification, and diarization. Es perfecto para transcribir reuniones en persona con la capacidad de distinguir a los oradores.It's perfect for transcribing in-person meetings with the ability to distinguish speakers. Yes NoNo
Creación de modelos de Habla personalizadaCreate Custom Speech Models Si usa voz a texto para el reconocimiento y la transcripción en un entorno único, puede crear y entrenar modelos acústicos, de lenguaje y pronunciación personalizados para dirigir el sonido ambiental o vocabulario específico del sector.If you are using speech-to-text for recognition and transcription in a unique environment, you can create and train custom acoustic, language, and pronunciation models to address ambient noise or industry-specific vocabulary. NoNo Yes
Texto a vozText-to-Speech Texto a vozText-to-speech Texto a voz convierte el texto de entrada en voz sintetizada similar a la humana mediante el Lenguaje de marcado de síntesis de voz (SSML).Text-to-speech converts input text into human-like synthesized speech using Speech Synthesis Markup Language (SSML). Elija entre voces estándar y voces neuronales (consulte Compatibilidad de idioma).Choose from standard voices and neural voices (see Language support). Yes Yes
Creación de voces personalizadasCreate Custom Voices Cree fuentes de voz personalizadas únicas para su marca o producto.Create custom voice fonts unique to your brand or product. NoNo Yes
Traducción de vozSpeech Translation Traducción de vozSpeech translation La traducción de voz habilita la traducción de voz en varios idiomas en tiempo real en sus aplicaciones, herramientas y dispositivos.Speech translation enables real-time, multi-language translation of speech to your applications, tools, and devices. Use este servicio para la traducción de voz a voz y voz a texto.Use this service for speech-to-speech and speech-to-text translation. Yes NoNo
Asistentes de vozVoice assistants Asistentes de vozVoice assistants Los asistentes de voz que utilizan el Servicio de voz permiten a los desarrolladores crear interfaces de conversación naturales, similares a la humana, para sus aplicaciones y experiencias.Voice assistants using the Speech service empower developers to create natural, human-like conversational interfaces for their applications and experiences. El servicio del asistente de voz proporciona una interacción rápida y confiable entre un dispositivo y una implementación de asistente que usa el canal de voz de Direct Line Speech de Bot Framework o el servicio integrado de comandos personalizados (versión preliminar) para la finalización de tareas.The voice assistant service provides fast, reliable interaction between a device and an assistant implementation that uses the Bot Framework's Direct Line Speech channel or the integrated Custom Commands (Preview) service for task completion. Yes NoNo
Speaker RecognitionSpeaker Recognition Verificación e identificación del hablanteSpeaker verification & identification El servicio Speaker Recognition proporciona algoritmos que comprueban e identifican a los hablantes por sus características de voz únicas.The Speaker Recognition service provides algorithms that verify and identify speakers by their unique voice characteristics. Speaker Recognition se usa para responder a la pregunta "¿quién está hablando?".Speaker Recognition is used to answer the question “who is speaking?”. Yes Yes

Importante

TLS 1.2 ya se exige en todas las solicitudes HTTP para este servicio.TLS 1.2 is now enforced for all HTTP requests to this service. Para más información, consulte Seguridad de Azure Cognitive Services.For more information, see Azure Cognitive Services security.

Prueba gratuita del servicio VozTry the Speech service for free

En los pasos siguientes, necesitará un cuenta de Microsoft y una cuenta de Azure.For the following steps, you need both a Microsoft account and an Azure account. Si no tiene un cuenta de Microsoft, puede registrarse para obtener una gratuita en el portal de la cuenta de Microsoft.If you do not have a Microsoft account, you can sign up for one free of charge at the Microsoft account portal. Seleccione Iniciar sesión con Microsoft y, luego, cuando se le pida que inicie sesión, seleccione Crear una cuenta de Microsoft.Select Sign in with Microsoft and then, when asked to sign in, select Create a Microsoft account. Siga los pasos para crear y comprobar la nueva cuenta Microsoft.Follow the steps to create and verify your new Microsoft account.

Cuando tenga la cuenta de Microsoft, vaya a la página de suscripción a Azure, seleccione Comenzar gratis y cree una cuenta de Azure con su cuenta de Microsoft.Once you have a Microsoft account, go to the Azure sign-up page, select Start free, and create a new Azure account using a Microsoft account. Este es un vídeo de cómo registrarse para obtener una cuenta gratuita de Azure.Here is a video of how to sign up for Azure free account.

Nota

Si se registra para obtener una cuenta gratuita de Azure, recibirá 200 USD en crédito de servicios que puede aplicar a una suscripción del servicio de voz de pago, válida durante 30 días.When you sign up for a free Azure account, it comes with $200 in service credit that you can apply toward a paid Speech service subscription, valid for up to 30 days. Los servicios de Azure se deshabilitan cuando el crédito se agota o expira al terminar los 30 días.Your Azure services are disabled when your credit runs out or expires at the end of the 30 days. Para seguir usando los servicios de Azure, debe actualizar la cuenta.To continue using Azure services, you must upgrade your account. Para más información, consulte Actualización de una cuenta gratuita de Azure.For more information, see How to upgrade your Azure free account.

El servicio de voz tiene dos niveles de servicio: gratis (f0) y suscripción (s0), que tienen diferentes limitaciones y ventajas.The Speech service has two service tiers: free(f0) and subscription(s0), which have different limitations and benefits. Si usa el nivel gratis del servicio Voz de bajo volumen, puede conservar esta suscripción gratuita incluso después de que expire la evaluación gratuita o el crédito del servicio.If you use the free, low-volume Speech service tier you can keep this free subscription even after your free trial or service credit expires. Para más información, consulte Precios de Cognitive Services: servicio de voz.For more information, see Cognitive Services pricing - Speech service.

Creación del recurso de AzureCreate the Azure resource

Para agregar un recurso de servicio de voz (plan gratuito o de pago) a la cuenta de Azure:To add a Speech service resource (free or paid tier) to your Azure account:

  1. Inicie sesión en Azure Portal con la cuenta Microsoft.Sign in to the Azure portal using your Microsoft account.

  2. Seleccione Crear un recurso en la parte superior izquierda del portal.Select Create a resource at the top left of the portal. Si no ve Crear un recurso, siempre puede encontrarlo al seleccionar el menú contraído en la parte superior izquierda.If you do not see Create a resource, you can always find it by selecting the collapsed menu in the upper left corner of the screen.

  3. En la ventana Nuevo, escriba "speech" en el cuadro de búsqueda y presione ENTRAR.In the New window, type "speech" in the search box and press ENTER.

  4. En los resultados de la búsqueda, seleccione Voz.In the search results, select Speech.

    resultados de la búsqueda de voz

  5. Seleccione Crear y, después:Select Create, then:

    • Dé un nombre único al nuevo recurso.Give a unique name for your new resource. El nombre ayuda a distinguir entre varias suscripciones vinculadas al mismo servicio.The name helps you distinguish among multiple subscriptions tied to the same service.
    • Elija la suscripción de Azure a la que esté asociado el recurso nuevo para determinar cómo se facturan las tarifas.Choose the Azure subscription that the new resource is associated with to determine how the fees are billed. Esta es la introducción a cómo crear una suscripción de Azure en Azure Portal.Here is the introduction for how to create an Azure subscription in the Azure portal.
    • Elija la región donde se va a usar el recurso.Choose the region where the resource will be used. Azure es una plataforma de nube global que está disponible con carácter general en muchas regiones de todo el mundo.Azure is a global cloud platform that is generally available in many regions worldwide. Para obtener el mejor rendimiento, seleccione la región más cercana a usted o donde se ejecuta la aplicación.To get the best performance, select a region that’s closest to you or where your application runs. La disponibilidad del servicio de voz varía de una región a otra.The Speech service availabilities vary from different regions. Asegúrese de crear el recurso en una región admitida.Make sure that you create your resource in a supported region. Consulte Regiones admitidas en los servicios de voz.See region support for Speech services.
    • Elija un plan de tarifa de pago (S0) o gratis (F0).Choose either a free (F0) or paid (S0) pricing tier. Puede encontrar información completa sobre los precios y las cuotas de uso de cada plan en Ver todos los detalles de los precios o Precios de Speech Services.For complete information about pricing and usage quotas for each tier, select View full pricing details or see speech services pricing. Para conocer los límites de los recursos, consulte Límites de Azure Cognitive Services.For limits on resources, see Azure Cognitive Services Limits.
    • Cree un nuevo grupo de recursos para esta suscripción de voz o asígnela a un grupo de recursos existente.Create a new resource group for this Speech subscription or assign the subscription to an existing resource group. Los grupos de recursos ayudan a mantener organizadas las distintas suscripciones de Azure.Resource groups help you keep your various Azure subscriptions organized.
    • Seleccione Crear.Select Create. Esto le llevará a la información general de la implementación y mostrará mensajes del progreso de la implementación.This will take you to the deployment overview and display deployment progress messages.

La implementación del recurso de voz nuevo puede tardar unos instantes.It takes a few moments to deploy your new Speech resource.

Búsqueda de las claves y la regiónFind keys and region

Para buscar las claves y la región de una implementación completa, siga estos pasos:To find the keys and region of a completed deployment, follow these steps:

  1. Inicie sesión en Azure Portal con la cuenta Microsoft.Sign in to the Azure portal using your Microsoft account.

  2. Seleccione Todos los recursos y el nombre del recurso de Cognitive Services.Select All resources, and select the name of your Cognitive Services resource.

  3. En el panel izquierdo, en ADMINISTRACIÓN DE RECURSOS, seleccione Claves y punto de conexión.On the left pane, under RESOURCE MANAGEMENT, select Keys and Endpoint.

Cada suscripción tiene dos claves; puede usar cualquiera de ellas en la aplicación.Each subscription has two keys; you can use either key in your application. Para copiar y pegar una clave en el editor de código o en otra ubicación, seleccione el botón Copiar que se encuentra junto a cada clave y cambie de ventana para pegar el contenido del portapapeles en la ubicación deseada.To copy/paste a key to your code editor or other location, select the copy button next to each key, switch windows to paste the clipboard contents to the desired location.

Además, copie el valor de LOCATION, que es el identificador de región (por ejemplo,Additionally, copy the LOCATION value, which is your region ID (ex. westus, westeurope) para las llamadas de SDK.westus, westeurope) for SDK calls.

Importante

Estas claves de suscripción se usan para tener acceso a la API de Cognitive Services.These subscription keys are used to access your Cognitive Service API. No comparta las claves.Do not share your keys. Almacénelas de forma segura, por ejemplo, con Azure Key Vault.Store them securely– for example, using Azure Key Vault. También se recomienda regenerar estas claves periódicamente.We also recommend regenerating these keys regularly. Solo se necesita una clave para realizar una llamada API.Only one key is necessary to make an API call. Al volver a generar la primera clave, puede usar la segunda clave para seguir teniendo acceso al servicio.When regenerating the first key, you can use the second key for continued access to the service.

Completar una guía de inicio rápidoComplete a quickstart

Ofrecemos guías de inicio rápido en los lenguajes de programación más populares, cuyo diseño individual le permite ejecutar el código en menos de 10 minutos.We offer quickstarts in most popular programming languages, each designed to teach you basic design patterns, and have you running code in less than 10 minutes. Consulte la siguiente lista para obtener la guía de inicio rápido de cada característica.See the following list for the quickstart for each feature.

Una vez que haya tenido la oportunidad de usar el servicio de voz, pruebe nuestros tutoriales, que le enseñarán a resolver distintos escenarios.After you've had a chance to get started with the Speech service, try our tutorials that show you how to solve various scenarios.

Obtención de código de ejemploGet sample code

Hay código de ejemplo para el Servicio de voz disponible en GitHub.Sample code is available on GitHub for the Speech service. En estos ejemplos se tratan escenarios comunes como la lectura de audio de un archivo o flujo, el reconocimiento continuo y de una sola emisión, y el trabajo con modelos personalizados.These samples cover common scenarios like reading audio from a file or stream, continuous and single-shot recognition, and working with custom models. Use estos vínculos para ver ejemplos de SDK y REST:Use these links to view SDK and REST samples:

Personalización de su experiencia de vozCustomize your speech experience

El Servicio de voz funciona bien con los modelos integrados; sin embargo, es posible que desee personalizar y optimizar más la experiencia para su producto o entorno.The Speech service works well with built-in models, however, you may want to further customize and tune the experience for your product or environment. Las opciones de personalización abarcan desde la optimización de modelos acústicos a fuentes de voz únicas para su marca.Customization options range from acoustic model tuning to unique voice fonts for your brand.

Otros productos ofrecen modelos de voz adaptados para fines específicos, como la atención sanitaria o el seguro, pero están disponibles para todo el mundo.Other products offer speech models tuned for specific purposes like healthcare or insurance, but are available to everyone equally. La personalización de Azure Speech forma parte de su ventaja competitiva única que no está disponible para ningún otro usuario o cliente.Customization in Azure Speech becomes part of your unique competitive advantage that is unavailable to any other user or customer. En otras palabras, los modelos son privados y se ajustan de forma personalizada solo para su caso de uso.In other words, your models are private and custom-tuned for your use-case only.

Speech ServiceSpeech Service PlataformaPlatform DescripciónDescription
Voz a textoSpeech-to-Text Habla personalizadaCustom Speech El reconocimiento de voz personalizado se adapta a sus necesidades y datos disponibles.Customize speech recognition models to your needs and available data. Elimine las barreras del reconocimiento de voz, como el estilo de habla, el vocabulario y el ruido de fondo.Overcome speech recognition barriers such as speaking style, vocabulary and background noise.
Text-to-SpeechText-to-Speech Voz personalizadaCustom Voice Cree una voz reconocible única para las aplicaciones de texto a voz con los datos de habla disponibles.Build a recognizable, one-of-a-kind voice for your Text-to-Speech apps with your speaking data available. Puede optimizar aún más las salidas de voz ajustando un conjunto de parámetros de voz.You can further fine-tune the voice outputs by adjusting a set of voice parameters.

Documentos de referenciaReference docs

Pasos siguientesNext steps