Synteza mowy za pomocą narzędzia do tworzenia zawartości audio

Artykuł
01/18/2024

Możesz użyć narzędzia do tworzenia zawartości audio w programie Speech Studio dla zamiany tekstu na mowę bez konieczności pisania kodu. Możesz użyć wyjściowego dźwięku zgodnie z rzeczywistym użyciem lub jako punktu wyjścia do dalszego dostosowywania.

Twórz wysoce naturalną zawartość audio dla różnych scenariuszy, takich jak audiobook, emisje wiadomości, narracje wideo i czatboty. Dzięki tworzeniu zawartości audio można wydajnie dostosować tekst do głosów mowy i zaprojektować dostosowane środowiska audio.

Narzędzie jest oparte na języku SSML (Speech Synthesis Markup Language). Umożliwia dostosowanie tekstu do atrybutów danych wyjściowych mowy w czasie rzeczywistym lub syntezy wsadowej, takich jak znaki głosowe, style głosu, szybkość mówienia, wymowa i prosody.

Podejście bez kodu: możesz użyć narzędzia do tworzenia zawartości audio na potrzeby syntezy mowy bez konieczności pisania kodu. Dźwięk wyjściowy może być ostatecznym elementem dostarczanym. Na przykład możesz użyć dźwięku wyjściowego do podkastu lub narracji wideo.
Przyjazny dla deweloperów: możesz słuchać dźwięku wyjściowego i dostosowywać język SSML, aby poprawić syntezę mowy. Następnie możesz użyć zestawu SPEECH SDK lub interfejsu wiersza polecenia usługi Mowa, aby zintegrować język SSML z aplikacjami. Na przykład możesz użyć języka SSML do tworzenia czatbota.

Masz łatwy dostęp do szerokiego portfolio języków i głosów. Te głosy obejmują wstępnie utworzone głosy neuronowe i niestandardowy głos neuronowy, jeśli został utworzony.

Aby dowiedzieć się więcej, zapoznaj się z filmem wideo dotyczącym tworzenia zawartości audio w serwisie YouTube.

Rozpocznij

Narzędzie do tworzenia zawartości audio w usłudze Speech Studio jest bezpłatne, ale płacisz za użycie usługi Mowa. Aby pracować z narzędziem, musisz zalogować się przy użyciu konta platformy Azure i utworzyć zasób usługi Mowa. Dla każdego konta platformy Azure masz miesięczne limity przydziałów mowy, które obejmują 0,5 miliona znaków dla wstępnie utworzonych neuronowych głosów (nazywanych neuronowymi na stronie cen). Zazwyczaj miesięczna kwota przydzielona jest wystarczająca dla małego zespołu zawartości około 3-5 osób.

W następnych sekcjach opisano sposób tworzenia konta platformy Azure i uzyskiwania zasobu usługi Mowa.

Krok 1. Tworzenie konta platformy Azure

Do pracy z tworzeniem zawartości audio potrzebne jest konto Microsoft i konto platformy Azure.

Witryna Azure Portal to scentralizowane miejsce do zarządzania kontem platformy Azure. Zasób usługi Mowa można utworzyć, zarządzać dostępem do produktu i monitorować wszystko, od prostych aplikacji internetowych do złożonych wdrożeń w chmurze.

Krok 2. Tworzenie zasobu usługi Mowa

Po zarejestrowaniu się na koncie platformy Azure należy utworzyć zasób usługi Mowa na koncie platformy Azure, aby uzyskać dostęp do usług Mowa. Utwórz zasób usługi Mowa w witrynie Azure Portal. Aby uzyskać więcej informacji, zobacz Tworzenie zasobu z wieloma usługami.

Wdrożenie nowego zasobu usługi Mowa zajmuje kilka minut. Po zakończeniu wdrażania możesz rozpocząć korzystanie z narzędzia do tworzenia zawartości audio.

Uwaga

Jeśli planujesz używać głosów neuronowych, upewnij się, że tworzysz zasób w regionie obsługującym głosy neuronowe.

Po pobraniu konta platformy Azure i zasobu usługi Mowa zaloguj się do programu Speech Studio, a następnie wybierz pozycję Tworzenie zawartości audio.
Wybierz subskrypcję platformy Azure i zasób usługi Mowa, z którym chcesz pracować, a następnie wybierz pozycję Użyj zasobu.

Następnym razem, gdy zalogujesz się do tworzenia zawartości audio, połączysz się bezpośrednio z plikami roboczymi audio w bieżącym zasobie usługi Mowa. Szczegóły i stan subskrypcji platformy Azure można sprawdzić w witrynie Azure Portal.

Jeśli nie masz dostępnego zasobu usługi Mowa i jesteś właścicielem lub administratorem subskrypcji platformy Azure, możesz utworzyć zasób usługi Mowa w usłudze Speech Studio, wybierając pozycję Utwórz nowy zasób.

Jeśli masz rolę użytkownika dla określonej subskrypcji platformy Azure, być może nie masz uprawnień do tworzenia nowego zasobu usługi Mowa. Aby uzyskać dostęp, skontaktuj się z administratorem.

Aby w dowolnym momencie przełączyć zasób usługi Mowa, wybierz pozycję Ustawienia w górnej części strony.

Aby przełączyć katalogi, wybierz pozycję Ustawienia lub przejdź do swojego profilu.

Korzystanie z narzędzia

Na poniższym diagramie przedstawiono proces dostosowywania danych wyjściowych zamiany tekstu na mowę.

Diagram of the sequence of steps for fine-tuning text to speech outputs.

Każdy krok na powyższym diagramie jest opisany tutaj:

Wybierz zasób usługi Mowa, z którym chcesz pracować.
Utwórz plik dostrajania audio przy użyciu skryptów zwykłego tekstu lub SSML. Wprowadź lub przekaż zawartość do tworzenia zawartości audio.
Wybierz głos i język zawartości skryptu. Tworzenie zawartości audio obejmuje cały wstępnie utworzony tekst na głosy mowy. Możesz użyć wstępnie utworzonych głosów neuronowych lub niestandardowego neuronowego głosu.

Uwaga

Dostęp z bramą jest dostępny dla niestandardowego neuronowego głosu, który umożliwia tworzenie głosów o wysokiej rozdzielczości, które są podobne do naturalnie brzmiącej mowy. Aby uzyskać więcej informacji, zobacz Proces Gating.
Wybierz zawartość, którą chcesz wyświetlić, a następnie wybierz pozycję Odtwórz (ikona trójkąta), aby wyświetlić podgląd domyślnych danych wyjściowych syntezy.

Jeśli wprowadzisz zmiany w tekście, wybierz ikonę Zatrzymaj , a następnie ponownie wybierz pozycję Odtwórz , aby ponownie wygenerować dźwięk ze zmienionymi skryptami.

Popraw dane wyjściowe, dostosowując wymowę, przerwę, skok, szybkość, intonację, styl głosu i nie tylko. Aby uzyskać pełną listę opcji, zobacz Speech Synthesis Markup Language (Język znaczników syntezy mowy).

Aby uzyskać więcej informacji na temat dostrajania danych wyjściowych mowy, zobacz wideo How to convert Text to speech using Microsoft Azure AI voices video (Jak konwertować tekst na mowę przy użyciu głosu sztucznej inteligencji platformy Microsoft Azure).
Zapisz i wyeksportuj dostrojony dźwięk.

Po zapisaniu ścieżki dostrajania w systemie można kontynuować pracę i iterować dane wyjściowe. Jeśli dane wyjściowe są zadowalające, możesz utworzyć zadanie tworzenia dźwięku za pomocą funkcji eksportu. Możesz obserwować stan zadania eksportu i pobierać dane wyjściowe do użycia z aplikacjami i produktami.

Tworzenie pliku dostrajania audio

Zawartość można pobrać do narzędzia do tworzenia zawartości audio na jeden z dwóch sposobów:

Opcja 1
1. Wybierz pozycję Nowy>plik tekstowy, aby utworzyć nowy plik dostrajania dźwięku.
2. Wprowadź lub wklej zawartość w oknie edycji. Dozwolona liczba znaków dla każdego pliku wynosi 20 000 lub mniej. Jeśli skrypt zawiera więcej niż 20 000 znaków, możesz użyć opcji 2, aby automatycznie podzielić zawartość na wiele plików.
3. Wybierz pozycję Zapisz.

Opcja 2

Wybierz pozycję Przekaż>plik tekstowy, aby zaimportować co najmniej jeden plik tekstowy. Obsługiwane są zarówno zwykły tekst, jak i SSML.

Jeśli plik skryptu ma więcej niż 20 000 znaków, podziel zawartość akapitami, znakami lub wyrażeniami regularnymi.

Podczas przekazywania plików tekstowych upewnij się, że spełniają one następujące wymagania:

Właściwości	opis
File format	Zwykły tekst (.txt)* Tekst SSML (.txt)** Pliki zip nie są obsługiwane.
Format kodowania	UTF-8
Nazwa pliku	Każdy plik musi mieć unikatową nazwę. Zduplikowane pliki nie są obsługiwane.
Text length	Limit znaków wynosi 20 000. Jeśli pliki przekraczają limit, podziel je zgodnie z instrukcjami w narzędziu.
Ograniczenia SSML	Każdy plik SSML może zawierać tylko jeden fragment kodu SSML.

* Przykład zwykłego tekstu:

Welcome to use Audio Content Creation to customize audio output for your products.

** Przykładowy tekst SSML:

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
    Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
    </voice>
</speak>

Eksportowanie dostrajanego dźwięku

Po przejrzeniu danych wyjściowych dźwięku i satysfakcjonującym dostosowaniu można wyeksportować dźwięk.

Wybierz pozycję Eksportuj , aby utworzyć zadanie tworzenia dźwięku.

Zalecamy eksportowanie do biblioteki audio w celu łatwego przechowywania, znajdowania i wyszukiwania danych wyjściowych audio w chmurze. Możesz lepiej zintegrować się z aplikacjami za pomocą usługi Azure Blob Storage. Możesz również pobrać dźwięk bezpośrednio na dysk lokalny.

Wybierz format danych wyjściowych dla dostosowanego dźwięku. Obsługiwane formaty audio i częstotliwość próbkowania są wymienione w poniższej tabeli:

Formatuj	Częstotliwość próbkowania 8 kHz	Częstotliwość próbkowania 16 kHz	Częstotliwość próbkowania 24 kHz	Częstotliwość próbkowania 48 kHz
Wav	riff-8khz-16bit-mono-pcm	riff-16khz-16bit-mono-pcm	riff-24khz-16bit-mono-pcm	riff-48khz-16bit-mono-pcm
Mp3	Nie dotyczy	audio-16khz-128kbitrate-mono-mp3	audio-24khz-160kbitrate-mono-mp3	audio-48khz-192kbitrate-mono-mp3

Aby wyświetlić stan zadania, wybierz kartę Lista zadań.

Jeśli zadanie zakończy się niepowodzeniem, zobacz stronę szczegółowych informacji dla pełnego raportu.
Po zakończeniu zadania dźwięk jest dostępny do pobrania w okienku Biblioteka audio.
Wybierz plik, który chcesz pobrać i pobierz.

Teraz możesz używać niestandardowego dostrajanych dźwięków w aplikacjach lub produktach.

Konfigurowanie funkcji BYOS i anonimowego publicznego dostępu do odczytu dla obiektów blob

Jeśli utracisz uprawnienia dostępu do usługi Bring Your Own Storage (BYOS), nie możesz wyświetlać, tworzyć, edytować ani usuwać plików. Aby wznowić dostęp, musisz usunąć bieżący magazyn i ponownie skonfigurować usługę BYOS w witrynie Azure Portal. Aby dowiedzieć się więcej o sposobie konfigurowania usługi BYOS, zobacz Instalowanie usługi Azure Storage jako udziału lokalnego w usłudze App Service.

Po skonfigurowaniu uprawnień byOS należy skonfigurować anonimowy publiczny dostęp do odczytu dla powiązanych kontenerów i obiektów blob. W przeciwnym razie dane obiektów blob nie są dostępne dla dostępu publicznego, a plik leksykonu w obiekcie blob jest niedostępny. Domyślnie ustawienie dostępu publicznego kontenera jest wyłączone. Aby udzielić użytkownikom anonimowym dostępu do odczytu do kontenera i jego obiektów blob, najpierw ustaw opcję Zezwalaj na publiczny dostęp do obiektu blob na wartość Włączone , aby zezwolić na dostęp publiczny dla konta magazynu, a następnie ustaw poziom dostępu publicznego kontenera (o nazwie acc-public-files) (anonimowy dostęp do odczytu tylko dla obiektów blob). Aby dowiedzieć się więcej na temat konfigurowania anonimowego publicznego dostępu do odczytu, zobacz Konfigurowanie anonimowego publicznego dostępu do odczytu dla kontenerów i obiektów blob.

Dodawanie lub usuwanie użytkowników tworzenia zawartości audio

Jeśli więcej niż jeden użytkownik chce użyć funkcji tworzenia zawartości audio, możesz udzielić im dostępu do subskrypcji platformy Azure i zasobu usługi Mowa. Jeśli dodasz użytkowników do subskrypcji platformy Azure, będą oni mogli uzyskać dostęp do wszystkich zasobów w ramach subskrypcji platformy Azure. Jeśli jednak dodasz użytkowników tylko do zasobu usługi Mowa, mają dostęp tylko do zasobu usługi Mowa, a nie do innych zasobów w ramach tej subskrypcji platformy Azure. Użytkownicy z dostępem do zasobu usługi Mowa mogą używać narzędzia do tworzenia zawartości audio.

Użytkownicy, którym udzielasz dostępu, muszą skonfigurować konto Microsoft. Jeśli masz konto Microsoft, może utworzyć je za kilka minut. Mogą używać istniejącego adresu e-mail i łączyć go z kontem Microsoft lub tworzyć i używać adresu e-mail programu Outlook jako konta Microsoft.

Dodawanie użytkowników do zasobu usługi Mowa

Aby dodać użytkowników do zasobu usługi Mowa, aby mogli używać funkcji tworzenia zawartości audio, wykonaj następujące czynności:

W witrynie Azure Portal wybierz pozycję Wszystkie usługi.
Następnie wybierz usługi Azure AI i przejdź do określonego zasobu usługi Mowa.

Uwaga

Możesz również skonfigurować kontrolę dostępu opartą na rolach platformy Azure dla całych grup zasobów, subskrypcji lub grup zarządzania. Zrób to, wybierając żądany poziom zakresu, a następnie przechodząc do żądanego elementu (na przykład wybierając pozycję Grupy zasobów, a następnie klikając do żądanej grupy zasobów).
Wybierz pozycję Kontrola dostępu (Zarządzanie dostępem i tożsamościami) w okienku nawigacji po lewej stronie.
Wybierz pozycję Dodaj -> Dodaj przypisanie roli.
Na karcie Rola na następnym ekranie wybierz rolę, którą chcesz dodać (w tym przypadku właściciel).
Na karcie Członkowie wprowadź adres e-mail użytkownika i wybierz nazwę użytkownika w katalogu. Adres e-mail musi być połączony z kontem Microsoft, które jest zaufane przez identyfikator Entra firmy Microsoft. Użytkownicy mogą łatwo zarejestrować się na koncie Microsoft przy użyciu osobistego adresu e-mail.
Na karcie Przeglądanie i przypisywanie wybierz pozycję Przejrzyj i przypisz, aby przypisać rolę.

Oto, co się dzieje dalej:

Zaproszenie e-mail jest automatycznie wysyłane do użytkowników. Mogą ją zaakceptować, wybierając pozycję Zaakceptuj zaproszenie>Zaakceptuj, aby dołączyć do platformy Azure w wiadomości e-mail. Następnie nastąpi przekierowanie do witryny Azure Portal. Nie muszą podejmować dalszych działań w witrynie Azure Portal. Po kilku chwilach użytkownicy zostaną przypisani do roli w zakresie zasobów usługi Mowa, co daje im dostęp do tego zasobu usługi Mowa. Jeśli użytkownicy nie otrzymają wiadomości e-mail z zaproszeniem, możesz wyszukać swoje konto w obszarze Przypisania ról i przejść do swojego profilu. Wyszukaj zaakceptowane zaproszenie do obsługi tożsamości>i wybierz pozycję (zarządzaj), aby ponownie wysłać zaproszenie e-mail. Możesz również skopiować i wysłać do nich link zaproszenia.

Użytkownicy odwiedzają teraz lub odświeżają stronę produktu Tworzenie zawartości audio i logują się przy użyciu konta Microsoft. Wybierają blok Tworzenia zawartości audio wśród wszystkich produktów mowy. Wybierają zasób usługi Mowa w oknie podręcznym lub w ustawieniach w prawym górnym rogu.

Jeśli nie mogą znaleźć dostępnego zasobu usługi Mowa, mogą sprawdzić, czy znajdują się one w odpowiednim katalogu. W tym celu wybierają profil konta w prawym górnym rogu, a następnie wybierają pozycję Przełącz obok pozycji Bieżący katalog. Jeśli istnieje więcej niż jeden katalog, oznacza to, że mają dostęp do wielu katalogów. Mogą przełączyć się na różne katalogi i przejść do Ustawienia, aby sprawdzić, czy jest dostępny odpowiedni zasób usługi Mowa.

Użytkownicy, którzy znajdują się w tym samym zasobie usługi Mowa, widzą pracę między sobą w narzędziu do tworzenia zawartości audio. Jeśli chcesz, aby każdy użytkownik miał unikatowe i prywatne miejsce pracy w obszarze Tworzenie zawartości audio, utwórz nowy zasób usługi Mowa dla każdego użytkownika i nadaj każdemu użytkownikowi unikatowy dostęp do zasobu usługi Mowa.

Usuwanie użytkowników z zasobu usługi Mowa

Wyszukaj usługi Azure AI w witrynie Azure Portal, wybierz zasób usługi Mowa, z którego chcesz usunąć użytkowników.
Wybierz pozycję Kontrola dostępu (IAM), a następnie wybierz kartę Przypisania ról, aby wyświetlić wszystkie przypisania ról dla tego zasobu usługi Mowa.
Wybierz użytkowników, których chcesz usunąć, wybierz pozycję Usuń, a następnie wybierz przycisk OK.

Umożliwianie użytkownikom udzielania dostępu innym osobom

Jeśli chcesz zezwolić użytkownikowi na udzielanie dostępu innym użytkownikom, musisz przypisać im rolę właściciela dla zasobu usługi Mowa i ustawić użytkownika jako czytelnik katalogu platformy Azure.

Dodaj użytkownika jako właściciela zasobu usługi Mowa. Aby uzyskać więcej informacji, zobacz Dodawanie użytkowników do zasobu usługi Mowa.
W witrynie Azure Portal wybierz zwinięte menu w lewym górnym rogu, wybierz pozycję Microsoft Entra ID, a następnie wybierz pozycję Użytkownicy.
Wyszukaj konto Microsoft użytkownika, przejdź do strony szczegółów, a następnie wybierz pozycję Przypisane role.
Wybierz pozycję Dodaj przypisania>Czytelnicy katalogu. Jeśli przycisk Dodaj przypisania jest niedostępny, oznacza to, że nie masz dostępu. Tylko administrator globalny tego katalogu może dodawać przypisania do użytkowników.

Synteza mowy za pomocą narzędzia do tworzenia zawartości audio

Rozpocznij

Krok 1. Tworzenie konta platformy Azure

Krok 2. Tworzenie zasobu usługi Mowa

Korzystanie z narzędzia

Tworzenie pliku dostrajania audio

Eksportowanie dostrajanego dźwięku

Konfigurowanie funkcji BYOS i anonimowego publicznego dostępu do odczytu dla obiektów blob

Dodawanie lub usuwanie użytkowników tworzenia zawartości audio

Dodawanie użytkowników do zasobu usługi Mowa

Usuwanie użytkowników z zasobu usługi Mowa

Umożliwianie użytkownikom udzielania dostępu innym osobom

Następne kroki

Dodatkowe zasoby

Synteza mowy za pomocą narzędzia do tworzenia zawartości audio

Rozpocznij

Krok 1. Tworzenie konta platformy Azure

Krok 2. Tworzenie zasobu usługi Mowa

Krok 3. Logowanie do tworzenia zawartości audio przy użyciu konta platformy Azure i zasobu usługi Mowa

Korzystanie z narzędzia

Tworzenie pliku dostrajania audio

Eksportowanie dostrajanego dźwięku

Konfigurowanie funkcji BYOS i anonimowego publicznego dostępu do odczytu dla obiektów blob

Dodawanie lub usuwanie użytkowników tworzenia zawartości audio

Dodawanie użytkowników do zasobu usługi Mowa

Usuwanie użytkowników z zasobu usługi Mowa

Umożliwianie użytkownikom udzielania dostępu innym osobom

Następne kroki

Dodatkowe zasoby