Informazioni sul Servizio di riconoscimento vocaleWhat is the Speech service?

Il servizio Voce di Azure combina il riconoscimento vocale, la sintesi vocale e la traduzione vocale in un'unica sottoscrizione di Azure.The Speech service is the unification of speech-to-text, text-to-speech, and speech-translation into a single Azure subscription. Con l'interfaccia della riga di comando di Voce, Speech SDK, Speech Devices SDK, Speech Studio o le API REST, è facile abilitare il riconoscimento vocale per applicazioni, strumenti e dispositivi.It's easy to speech enable your applications, tools, and devices with the Speech CLI, Speech SDK, Speech Devices SDK, Speech Studio, or REST APIs.

Importante

Il servizio Voce ha sostituito l'API Riconoscimento vocale Bing e Traduzione vocale.The Speech service has replaced Bing Speech API and Translator Speech. Vedere la sezione Migrazione per istruzioni relative alla migrazione.See the Migration section for migration instructions.

Le funzionalità seguenti fanno parte del servizio Voce.The following features are part of the Speech service. Per altre informazioni sui casi d'uso comuni per ogni funzionalità, usare i collegamenti in questa tabella o esplorare la documentazione di riferimento delle API.Use the links in this table to learn more about common use-cases for each feature, or browse the API reference.

ServiceService FunzionalitàFeature DescrizioneDescription SDKSDK RESTREST
Riconoscimento vocaleSpeech-to-Text Riconoscimento vocale in tempo realeReal-time Speech-to-text Il riconoscimento vocale trascrive o traduce in tempo reale flussi audio o file locali in testo da utilizzare o visualizzare in applicazioni, dispositivi o strumenti.Speech-to-text transcribes or translates audio streams or local files to text in real time that your applications, tools, or devices can consume or display. È possibile usare il riconoscimento vocale con Language Understanding (LUIS) per derivare le finalità dell'utente dal parlato trascritto e agire sui comandi vocali.Use speech-to-text with Language Understanding (LUIS) to derive user intents from transcribed speech and act on voice commands. Yes Yes
Riconoscimento vocale in batchBatch Speech-to-Text Il riconoscimento vocale in batch consente la trascrizione asincrona in testo di una quantità elevata di dati audio vocali memorizzati in Archiviazione BLOB di Azure.Batch Speech-to-text enables asynchronous speech-to-text transcription of large volumes of speech audio data stored in Azure Blob Storage. Oltre a convertire l'audio vocale in testo, il riconoscimento vocale in batch consente anche di eseguire la diarizzazione e l'analisi del sentiment.In addition to converting speech audio to text, Batch Speech-to-text also allows for diarization and sentiment-analysis. NoNo Yes
Conversazione per più dispositiviMulti-device Conversation Connessione di più dispositivi o client in una conversazione per l'invio di messaggi vocali o di testo, con il supporto semplificato per la trascrizione e la traduzioneConnect multiple devices or clients in a conversation to send speech- or text-based messages, with easy support for transcription and translation Yes NoNo
Trascrizione conversazioneConversation Transcription Abilita il riconoscimento vocale in tempo reale, l'identificazione voce e la diarizzazione.Enables real-time speech recognition, speaker identification, and diarization. È ideale per la trascrizione di riunioni dal vivo grazie alla capacità di distinguere i parlanti.It's perfect for transcribing in-person meetings with the ability to distinguish speakers. Yes NoNo
Creare modelli conversione voce/testo personalizzatiCreate Custom Speech Models Se si usa il riconoscimento vocale per il riconoscimento e la trascrizione in un ambiente univoco, è possibile creare ed eseguire il training di modelli acustici, linguistici e di pronuncia personalizzati destinati a un ambiente rumoroso o una terminologica specifica del settore.If you are using speech-to-text for recognition and transcription in a unique environment, you can create and train custom acoustic, language, and pronunciation models to address ambient noise or industry-specific vocabulary. NoNo Yes
Sintesi vocaleText-to-Speech Sintesi vocaleText-to-speech Sintesi vocale converte il testo di input in una voce sintetizzata simile a quella di un essere umano usando Speech Synthesis Markup Language (SSML).Text-to-speech converts input text into human-like synthesized speech using Speech Synthesis Markup Language (SSML). Usare le voci neurali, che sono voci umane basate su reti neurali profonde.Use neural voices, which are human-like voices powered by deep neural networks. Vedere Supporto del linguaggio.See Language support. Yes Yes
Creare voci personalizzateCreate Custom Voices Creazione di caratteri voce personalizzati univoci per il proprio marchio o prodotto.Create custom voice fonts unique to your brand or product. NoNo Yes
Traduzione vocaleSpeech Translation Traduzione vocaleSpeech translation La traduzione vocale consente di attivare la traduzione vocale end-to-end in tempo reale e in più lingue in applicazioni, strumenti e dispositivi.Speech translation enables real-time, multi-language translation of speech to your applications, tools, and devices. È possibile usare questo servizio per il riconoscimento vocale e la traduzione vocale.Use this service for speech-to-speech and speech-to-text translation. Yes NoNo
Assistenti vocaliVoice assistants Assistenti vocaliVoice assistants Gli assistenti vocali che usano il servizio Voce consentono agli sviluppatori di creare interfacce di conversazione naturali e simili a quelle umane per applicazioni ed esperienze.Voice assistants using the Speech service empower developers to create natural, human-like conversational interfaces for their applications and experiences. Il servizio di assistente vocale offre un'interazione rapida e affidabile tra un dispositivo e l'implementazione di un assistente che usa il canale Direct Line Speech di Bot Framework o il servizio integrato Comandi personalizzati per completare le attività.The voice assistant service provides fast, reliable interaction between a device and an assistant implementation that uses the Bot Framework's Direct Line Speech channel or the integrated Custom Commands service for task completion. Yes NoNo
Riconoscimento del parlanteSpeaker Recognition Identificazione e verifica voceSpeaker verification & identification Il servizio Riconoscimento del parlante fornisce algoritmi che verificano e identificano i parlanti in base alle relative caratteristiche vocali univoche.The Speaker Recognition service provides algorithms that verify and identify speakers by their unique voice characteristics. Il servizio Riconoscimento del parlante consente di rispondere alla domanda "chi parla?"Speaker Recognition is used to answer the question “who is speaking?”. Yes Yes

Importante

Transport Layer Security (TLS) 1.2 viene ora applicato per tutte le richieste HTTP a questo servizio.Transport Layer Security (TLS) 1.2 is now enforced for all HTTP requests to this service. Per altre informazioni, vedere Sicurezza di Servizi cognitivi di Azure.For more information, see Azure Cognitive Services security.

Provare gratuitamente il Servizio di riconoscimento vocaleTry the Speech service for free

Per eseguire la procedura seguente sono necessari sia un account Microsoft che un account Azure.For the following steps, you need both a Microsoft account and an Azure account. Se non si ha un account Microsoft, è possibile iscriversi per ottenerne uno gratuitamente nel portale per gli account Microsoft.If you do not have a Microsoft account, you can sign up for one free of charge at the Microsoft account portal. Selezionare Accedi con Microsoft e quindi, quando viene chiesto di accedere, selezionare Crea un account Microsoft.Select Sign in with Microsoft and then, when asked to sign in, select Create a Microsoft account. Seguire i passaggi per creare e verificare il nuovo account Microsoft.Follow the steps to create and verify your new Microsoft account.

Una volta che si ha un account Microsoft, passare alla pagina di iscrizione ad Azure, selezionare Inizia gratuitamente, quindi creare un nuovo account Azure usando l'account Microsoft.Once you have a Microsoft account, go to the Azure sign-up page, select Start free, and create a new Azure account using a Microsoft account. Ecco un video su come iscriversi per ricevere un account Azure gratuito.Here is a video of how to sign up for Azure free account.

Nota

Quando ci si iscrive per ricevere un account Azure gratuito, si ottiene un credito del servizio di 200 dollari che è possibile impiegare per una sottoscrizione a pagamento del servizio Voce, valida per un totale di 30 giorni.When you sign up for a free Azure account, it comes with $200 in service credit that you can apply toward a paid Speech service subscription, valid for up to 30 days. Quando il credito si esaurisce o scade al termine dei 30 giorni, i servizi di Azure vengono disabilitati.Your Azure services are disabled when your credit runs out or expires at the end of the 30 days. Per continuare a usare i servizi di Azure, è necessario aggiornare l'account.To continue using Azure services, you must upgrade your account. Per altre informazioni, vedere Come aggiornare l'account Azure gratuito.For more information, see How to upgrade your Azure free account.

Il servizio Voce ha due livelli di servizio, ovvero gratuito (f0) e su sottoscrizione (s0), che presentano limitazioni e vantaggi diversi.The Speech service has two service tiers: free(f0) and subscription(s0), which have different limitations and benefits. Se si usa il livello di servizio gratuito e con volumi ridotti del servizio Voce, è possibile mantenere questa sottoscrizione gratuita anche dopo la scadenza della versione di valutazione gratuita o del credito di servizio.If you use the free, low-volume Speech service tier you can keep this free subscription even after your free trial or service credit expires. Per altre informazioni, vedere Prezzi di Servizi cognitivi - Servizi Voce.For more information, see Cognitive Services pricing - Speech service.

Creare la risorsa di AzureCreate the Azure resource

Per aggiungere una risorsa del servizio vocale (gratuita o a pagamento) al proprio account Azure:To add a Speech service resource (free or paid tier) to your Azure account:

  1. Accedere al portale di Azure con il proprio account Microsoft.Sign in to the Azure portal using your Microsoft account.

  2. Selezionare Crea una risorsa in alto a sinistra sul portale.Select Create a resource at the top left of the portal. Se l'opzione Crea una risorsa non è visualizzata, è sempre possibile trovarla selezionando il menu compresso nell'angolo superiore sinistro dello schermo.If you do not see Create a resource, you can always find it by selecting the collapsed menu in the upper left corner of the screen.

  3. Nella finestra Nuovo digitare "voce" nella casella di ricerca e premere INVIO.In the New window, type "speech" in the search box and press ENTER.

  4. Nei risultati della ricerca, selezionare Voce.In the search results, select Speech.

    Creare una risorsa voce in portale di Azure.

  5. Selezionare Crea, quindi:Select Create, then:

    • Assegnare un nome univoco alla nuova risorsa.Give a unique name for your new resource. Il nome consente di distinguere tra più sottoscrizioni collegate allo stesso servizio.The name helps you distinguish among multiple subscriptions tied to the same service.
    • Scegliere la sottoscrizione di Azure a cui è associata la nuova risorsa per determinare le modalità di fatturazione.Choose the Azure subscription that the new resource is associated with to determine how the fees are billed. Ecco l'introduzione su come creare una sottoscrizione di Azure nel portale di Azure.Here is the introduction for how to create an Azure subscription in the Azure portal.
    • Scegliere l'area in cui verrà usata la risorsa.Choose the region where the resource will be used. Azure è una piattaforma cloud globale disponibile a livello generale in molte aree del mondo.Azure is a global cloud platform that is generally available in many regions worldwide. Per ottenere prestazioni ottimali, selezionare l'area più vicina a quella in cui si risiede o in cui viene eseguita l'applicazione.To get the best performance, select a region that’s closest to you or where your application runs. La disponibilità del servizio Voce varia a seconda dell'area.The Speech service availabilities vary from different regions. Assicurarsi di creare la risorsa in un'area supportata.Make sure that you create your resource in a supported region. Vedere Supporto dei servizi Voce in base all'area.See region support for Speech services.
    • Scegliere un piano tariffario gratuito (F0) o a pagamento (S0).Choose either a free (F0) or paid (S0) pricing tier. Per informazioni complete sulle quote di utilizzo e sui prezzi per ogni livello, selezionare Visualizza i dettagli completi sui prezzi oppure vedere i prezzi dei servizi Voce.For complete information about pricing and usage quotas for each tier, select View full pricing details or see speech services pricing. Per informazioni sui limiti delle risorse, vedere Limiti di Servizi cognitivi di Azure.For limits on resources, see Azure Cognitive Services Limits.
    • Creare un nuovo gruppo di risorse per questa sottoscrizione di riconoscimento vocale o assegnarla a un gruppo di risorse esistente.Create a new resource group for this Speech subscription or assign the subscription to an existing resource group. I gruppi di risorse consentono di mantenere organizzate le diverse sottoscrizioni di Azure.Resource groups help you keep your various Azure subscriptions organized.
    • Selezionare Crea.Select Create. Si passerà alla pagina di panoramica della distribuzione e verranno visualizzati i messaggi sullo stato della distribuzione.This will take you to the deployment overview and display deployment progress messages.

È necessario qualche secondo per distribuire la nuova risorsa del servizio Voce.It takes a few moments to deploy your new Speech resource.

Trovare chiavi e areaFind keys and region

Per trovare le chiavi e l'area di una distribuzione completata, seguire questa procedura:To find the keys and region of a completed deployment, follow these steps:

  1. Accedere al portale di Azure con il proprio account Microsoft.Sign in to the Azure portal using your Microsoft account.

  2. Selezionare Tutte le risorse e quindi il nome della risorsa dei Servizi cognitivi.Select All resources, and select the name of your Cognitive Services resource.

  3. Nel riquadro a sinistra, in GESTIONE RISORSE, selezionare Chiavi ed endpoint.On the left pane, under RESOURCE MANAGEMENT, select Keys and Endpoint.

Ogni sottoscrizione dispone di due chiavi, entrambi utilizzabili nell'applicazione.Each subscription has two keys; you can use either key in your application. Per copiare e incollare una chiave nell'editor di codice o in un'altra posizione, selezionare il pulsante Copia accanto a ogni chiave e cambiare finestra per incollare il contenuto degli Appunti nella posizione desiderata.To copy/paste a key to your code editor or other location, select the copy button next to each key, switch windows to paste the clipboard contents to the desired location.

Inoltre, copiare il valore LOCATION, che corrisponde all'ID dell'area (ad esempio,Additionally, copy the LOCATION value, which is your region ID (ex. westus, westeurope) per le chiamate SDK.westus, westeurope) for SDK calls.

Importante

Queste chiavi di sottoscrizione vengono usate per accedere all'API di Servizi cognitivi.These subscription keys are used to access your Cognitive Service API. Non condividerle.Do not share your keys. Archiviarle in una posizione sicura, ad esempio usando Azure Key Vault.Store them securely– for example, using Azure Key Vault. È inoltre consigliabile rigenerare queste chiavi regolarmente.We also recommend regenerating these keys regularly. Per effettuare una chiamata API è necessaria una sola chiave.Only one key is necessary to make an API call. Quando si rigenera la prima chiave, è possibile usare la seconda chiave per l'accesso continuato al servizio.When regenerating the first key, you can use the second key for continued access to the service.

Completare una guida di avvio rapidoComplete a quickstart

Sono disponibili guide di avvio rapido nei linguaggi di programmazione più diffusi, ognuna progettata per insegnare gli schemi progettuali di base e consentire all'utente di eseguire il codice in meno di 10 minuti.We offer quickstarts in most popular programming languages, each designed to teach you basic design patterns, and have you running code in less than 10 minutes. Per accedere alla guida di avvio rapido per ogni funzionalità, vedere l'elenco seguente.See the following list for the quickstart for each feature.

Dopo avere avuto la possibilità di familiarizzare con il servizio Voce, provare le esercitazioni che illustrano come risolvere diversi scenari.After you've had a chance to get started with the Speech service, try our tutorials that show you how to solve various scenarios.

Ottenere il codice di esempioGet sample code

Il codice di esempio per il servizio Voce è disponibile in GitHub.Sample code is available on GitHub for the Speech service. Questi esempi esaminano gli scenari comuni, ad esempio la lettura di audio da un file o streaming, il riconoscimento continuo e singolo e l'uso di modelli personalizzati.These samples cover common scenarios like reading audio from a file or stream, continuous and single-shot recognition, and working with custom models. Usare i collegamenti seguenti per visualizzare esempi SDK e REST:Use these links to view SDK and REST samples:

Personalizzare l'esperienza di riconoscimento vocaleCustomize your speech experience

Il servizio Voce funziona bene con i modelli predefiniti, tuttavia, è possibile personalizzare e ottimizzare ulteriormente l'esperienza in base al prodotto o all'ambiente in uso.The Speech service works well with built-in models, however, you may want to further customize and tune the experience for your product or environment. Le opzioni di personalizzazione spaziano dall'ottimizzazione del modello acustico ai caratteri voce univoci per il proprio marchio.Customization options range from acoustic model tuning to unique voice fonts for your brand.

Altri prodotti offrono modelli di conversione voce/testo ottimizzati per scopi specifici, ad esempio per il settore della sanità o delle assicurazioni, ma sono disponibili per tutti ugualmente.Other products offer speech models tuned for specific purposes like healthcare or insurance, but are available to everyone equally. La personalizzazione nel servizio Voce di Azure diventa parte integrante del vantaggio competitivo esclusivo dell'utente, non disponibile per altri utenti o clienti.Customization in Azure Speech becomes part of your unique competitive advantage that is unavailable to any other user or customer. In altre parole, i modelli di un cliente sono privati e personalizzati solo per il suo caso d'uso.In other words, your models are private and custom-tuned for your use-case only.

Servizio di riconoscimento vocaleSpeech Service PiattaformaPlatform DescrizioneDescription
Riconoscimento vocaleSpeech-to-Text Riconoscimento vocale personalizzatoCustom Speech Personalizzare i modelli di riconoscimento vocale in base alle esigenze e ai dati disponibili.Customize speech recognition models to your needs and available data. Superare gli ostacoli al riconoscimento vocale, come il modo di parlare, il vocabolario e il rumore di fondo.Overcome speech recognition barriers such as speaking style, vocabulary and background noise.
Sintesi vocaleText-to-Speech Voce personalizzataCustom Voice Creare un'unica voce riconoscibile per le app di sintesi vocale con i dati della lingua disponibili.Build a recognizable, one-of-a-kind voice for your Text-to-Speech apps with your speaking data available. È possibile ottimizzare ulteriormente gli output vocali regolando un set di parametri vocali.You can further fine-tune the voice outputs by adjusting a set of voice parameters.

Distribuire in locale con i contenitori DockerDeploy on premises using Docker containers

Usare i contenitori del servizio Voce per distribuire le funzionalità dell'API in locale.Use Speech service containers to deploy API features on-premises. Questi contenitori Docker consentono di avvicinare il servizio ai dati per motivi di conformità, sicurezza o di altro tipo.These Docker containers enable you to bring the service closer to your data for compliance, security or other operational reasons. Il servizio Voce offre i contenitori seguenti:The Speech service offers the following containers:

  • Riconoscimento vocale standardStandard Speech-to-text
  • Riconoscimento vocale personalizzatoCustom Speech-to-text
  • Sintesi vocale standardStandard Text-to-speech
  • Sintesi vocale neuraleNeural Text-to-speech
  • Sintesi vocale personalizzata (anteprima)Custom Text-to-speech (preview)
  • Rilevamento della lingua parlata (anteprima)Speech Language Detection (preview)

Documentazione di riferimentoReference docs

Passaggi successiviNext steps