Mi a beszéd – szöveg?What is speech-to-text?

Az Azure Speech Services, más néven beszéd – szöveg szövegre való beszédfelismerés lehetővé teszi a hangadatfolyamok valós idejű átírását olyan szöveggé, amelyet az alkalmazások, az eszközök vagy az eszközök felhasználhatnak, megjeleníthetnek, és műveleteket végezhetnek a parancs bemenetének megfelelően.Speech-to-text from Azure Speech Services, also known as speech-to-text, enables real-time transcription of audio streams into text that your applications, tools, or devices can consume, display, and take action on as command input. Ezt a szolgáltatást a Microsoft a Cortana és az Office-termékekhez használt felismerési technológiával működteti, és zökkenőmentesen együttműködik a fordítással és szöveg-beszédtel.This service is powered by the same recognition technology that Microsoft uses for Cortana and Office products, and works seamlessly with the translation and text-to-speech. Az elérhető beszéd – szöveg nyelvek teljes listáját a támogatott nyelvekcímű részben tekintheti meg.For a full list of available speech-to-text languages, see supported languages.

Alapértelmezés szerint a beszédfelismerési szolgáltatás az univerzális nyelvi modellt használja.By default, the speech-to-text service uses the Universal language model. Ez a modell a Microsoft tulajdonában lévő adataival lett betanítva, és a felhőben van üzembe helyezve.This model was trained using Microsoft-owned data and is deployed in the cloud. Ez optimális a társalgási és a diktálási forgatókönyvek esetében.It's optimal for conversational and dictation scenarios. Ha egy egyedi környezetben beszéd-szövegeket használ az elismeréshez és az átíráshoz, létrehozhat és betaníthat egyéni akusztikai, nyelvi és kiejtési modelleket a környezeti zajok vagy az iparági specifikus szókincsek kezeléséhez.If you are using speech-to-text for recognition and transcription in a unique environment, you can create and train custom acoustic, language, and pronunciation models to address ambient noise or industry-specific vocabulary.

A hanganyagot könnyedén rögzítheti egy mikrofonból, beolvashatja egy streamből, vagy a hangfájlokat a tárolóból is elérheti a Speech SDK és a REST API-k használatával.You can easily capture audio from a microphone, read from a stream, or access audio files from storage with the Speech SDK and REST APIs. A Speech SDK támogatja a WAV/PCM 16 bites, 16 kHz/8 kHz, egycsatornás hang használatát a beszédfelismeréshez.The Speech SDK supports WAV/PCM 16-bit, 16 kHz/8 kHz, single-channel audio for speech recognition. További hangformátumok a beszéd – szöveg Rest-végpont vagy a Batch transzkripciós szolgáltatáshasználatával támogatottak.Additional audio formats are supported using the speech-to-text REST endpoint or the batch transcription service.

Alapvető funkciókCore features

A Speech SDK és a REST API-k segítségével az alábbi funkciók érhetők el:Here are the features available via the Speech SDK and REST APIs:

Használati esetUse case SDKSDK RESTREST
Rövid hosszúságú kimondott szöveg (< 15 másodperc) átirata.Transcribe short utterances (<15 seconds). Csak a végső átírási eredményt támogatja.Only supports final transcription result. IgenYes IgenYes
Hosszú hosszúságú kimondott szöveg és folyamatos átviteli hang folyamatos átírása (> 15 másodperc).Continuous transcription of long utterances and streaming audio (>15 seconds). Támogatja az időközi és a végső átírási eredményeket.Supports interim and final transcription results. IgenYes NemNo
A felismerés eredményeinek származtatása a Luis-mel.Derive intents from recognition results with LUIS. IgenYes nem*No*
A hangfájlok kötegelt átírása aszinkron módon történik.Batch transcription of audio files asynchronously. NemNo igen**Yes**
Beszédfelismerési modellek létrehozása és kezelése.Create and manage speech models. NemNo igen**Yes**
Egyéni modell üzembe helyezésének létrehozása és kezelése.Create and manage custom model deployments. NemNo igen**Yes**
Pontossági tesztek létrehozásával mérhető az alapmodell és az egyéni modellek pontossága.Create accuracy tests to measure the accuracy of the baseline model versus custom models. NemNo igen**Yes**
Előfizetések kezelése.Manage subscriptions. NemNo igen**Yes**

* A LUIS szándékok és entitások egy külön LUIS-előfizetése lehet nyerni. Ezzel az előfizetéssel az SDK meghívhatja a LUIS-t az Ön számára, és megadhatja az entitások és a szándékok eredményeit. A LUIS hívása a REST API-val saját magának, hogy szándékokat és entitásokat a LUIS-előfizetéshez.* LUIS intents and entities can be derived using a separate LUIS subscription. With this subscription, the SDK can call LUIS for you and provide entity and intent results. With the REST API, you can call LUIS yourself to derive intents and entities with your LUIS subscription.

** Ezek a szolgáltatások az cris.ai-végpont használatával érhetők el. Lásd a hencegés referenciáját.** These services are available using the cris.ai endpoint. See Swagger reference.

Ismerkedés a beszédfelismerési szöveggelGet started with speech-to-text

A legnépszerűbb programozási nyelveken gyors útmutatókat ajánlunk, amelyek mindegyike kevesebb, mint 10 perc alatt futtathatja a kódot.We offer quickstarts in most popular programming languages, each designed to have you running code in less than 10 minutes. Ez a táblázat a platfrom és a Language által rendezett Speech SDK-gyors útmutatók teljes listáját tartalmazza.This table includes a complete list of Speech SDK quickstarts organized by platfrom and language. Az API-referenciák ittis megtalálhatók.API reference can also be found here.

Ha inkább a beszéd-szöveg REST-szolgáltatást szeretné használni, lásd: REST API-k.If you prefer to use the speech-to-text REST service, see REST APIs.

Oktatóanyagok és mintakódTutorials and sample code

A Speech Services használatának lehetősége után próbálja ki az oktatóanyagot, amely bemutatja, hogyan ismerheti fel a beszédfelismerési szándékokat a Speech SDK és a LUIS használatával.After you've had a chance to use the Speech Services, try our tutorial that teaches you how to recognize intents from speech using the Speech SDK and LUIS.

A Speech SDK mintakód a GitHubon érhető el.Sample code for the Speech SDK is available on GitHub. Ezek a minták olyan gyakori forgatókönyveket érintenek, mint például a hang fájlból vagy streamből való olvasása, a folyamatos és az egyszeri felvétel felismerése, valamint az egyéni modellek használata.These samples cover common scenarios like reading audio from a file or stream, continuous and single-shot recognition, and working with custom models.

TestreszabásCustomization

A Speech Services által használt standard alapkonfiguráción kívül a modelleket a rendelkezésre álló adatokkal is testreszabhatja, így leküzdheti a beszédfelismerési korlátokat, például a beszéd stílusát, a szókincset és a háttérzajt, lásd: Custom SpeechIn addition to the standard baseline model used by the Speech Services, you can customize models to your needs with available data, to overcome speech recognition barriers such as speaking style, vocabulary and background noise, see Custom Speech

Megjegyzés

A testreszabási lehetőségek nyelv/területi beállítás szerint változnak (lásd a támogatott nyelveket).Customization options vary by language/locale (see Supported languages).

Áttelepítési útmutatókMigration guides

Figyelmeztetés

A Bing Speech 2019. október 15-én lesznek leszerelve.Bing Speech will be decommissioned on October 15, 2019.

Ha alkalmazásai, eszközei vagy termékei a Bing Speech API-kat vagy Custom Speech használják, a rendszer útmutatók létrehozásával segít a Speech Services szolgáltatásba való Migrálás során.If your applications, tools, or products are using the Bing Speech APIs or Custom Speech, we've created guides to help you migrate to Speech Services.

SegédanyagokReference docs

További lépésekNext steps