Omówienie języka znaczników syntezy mowy (SSML)

Artykuł
01/22/2024

Speech Synthesis Markup Language (SSML) to język znaczników oparty na języku XML, którego można użyć do precyzyjnego dostosowania tekstu do atrybutów wyjściowych mowy, takich jak pitch, wymowa, szybkość mówienia, głośność i nie tylko. Zapewnia większą kontrolę i elastyczność niż wprowadzanie zwykłego tekstu.

Napiwek

Możesz usłyszeć głosy w różnych stylach i boiskach odczytywać przykładowy tekst przy użyciu galerii głosów.

Scenariusze przypadków użycia

Język SSML został zaprojektowany w celu zapewnienia elastyczności w sposobie, w jaki dane wyjściowe mowy mają brzmieć, i udostępnia różne właściwości umożliwiające dostosowanie tych danych wyjściowych. Za pomocą języka SSML można wykonywać następujące czynności:

Zdefiniuj strukturę tekstu wejściowego, która określa strukturę , zawartość i inne cechy tekstu na dane wyjściowe mowy. Na przykład można użyć języka SSML do zdefiniowania akapitu, zdania, przerwania lub wstrzymania lub ciszy. Tekst można opakowować za pomocą tagów zdarzeń, takich jak zakładka lub viseme, które aplikacja może przetworzyć później. Viseme to wizualny opis fonemy, pojedyncze dźwięki mowy w języku mówionym.
Wybierz głos, język, nazwę, styl i rolę. W jednym dokumencie SSML można używać wielu głosów. Możesz również dostosować nacisk, szybkość mówienia, wysokość i głośność. SSML może również wstawić wstępnie rozpoznany dźwięk, taki jak efekt dźwiękowy lub nuta muzyczna.
Kontrolowanie wymowy dźwięku wyjściowego. Na przykład możesz użyć języka SSML z phonemami i niestandardowym leksykonem, aby poprawić wymowę. Możesz również użyć języka SSML, aby zdefiniować sposób wymawiania wyrazu lub wyrażenia matematycznego.

Sposoby pracy z językiem SSML

Funkcje SSML są dostępne w różnych narzędziach, które mogą pasować do twojego przypadku użycia.

Ważne

Opłaty są naliczane za każdy znak przekonwertowany na mowę, w tym interpunkcję. Mimo że sam dokument SSML nie jest rozliczany, usługa zlicza opcjonalne elementy, których używasz do dostosowywania sposobu konwertowania tekstu na mowę, takich jak fonemy i skoki, jako rozliczane znaki. Aby uzyskać więcej informacji, zobacz cennik.

SSML można używać w następujący sposób:

Narzędzie do tworzenia zawartości audio umożliwia tworzenie zwykłego tekstu i języka SSML w usłudze Speech Studio. Możesz słuchać dźwięku wyjściowego i dostosować język SSML, aby poprawić syntezę mowy. Aby uzyskać więcej informacji, zobacz Synteza mowy za pomocą narzędzia do tworzenia zawartości audio.
Interfejs API syntezy wsadowej akceptuje kod SSML za pośrednictwem inputs właściwości .
Interfejs wiersza polecenia usługi Mowa akceptuje język SSML za pośrednictwem argumentu spx synthesize --ssml SSML wiersza polecenia.
Zestaw SPEECH SDK akceptuje język SSML za pośrednictwem metody SSML "speak" w różnych obsługiwanych językach.

Omówienie języka znaczników syntezy mowy (SSML)

Scenariusze przypadków użycia

Sposoby pracy z językiem SSML

Następne kroki

Dodatkowe zasoby