Dostosowywanie modelu językowego za pomocą usługi Azure AI Video Indexer

Ważne

Ze względu na ogłoszenie wycofania usługi Azure Media Services usługa Azure AI Video Indexer ogłasza zmiany funkcji usługi Azure AI Video Indexer. Zobacz Zmiany związane z wycofaniem usługi Azure Media Service (AMS), aby dowiedzieć się, co to oznacza dla konta usługi Azure AI Video Indexer. Zobacz Przewodnik Przygotowywanie do wycofania usługi AMS: VI aktualizacji i migracji.

Usługa Azure AI Video Indexer obsługuje automatyczne rozpoznawanie mowy dzięki integracji z usługą Microsoft Custom Speech Service. Model językowy można dostosować, przekazując tekst adaptacji. Ten tekst pochodzi z domeny, której słownictwo ma być używane przez aparat do adaptacji. Po wytrenowaniu modelu nowe wyrazy pojawiające się w tekście adaptacji są rozpoznawane, przy założeniu domyślnej wymowy, a model języka uczy się nowych prawdopodobnych sekwencji słów. Zobacz listę obsługiwanych języków usługi Azure AI Video Indexer w obsługiwanych językach.

Na przykład "Kubernetes" (w kontekście usługi Azure Kubernetes) to słowo, które jest bardzo specyficzne. Ponieważ słowo jest nowe w usłudze Azure AI Video Indexer, jest uznawane za "społeczności". Musisz wytrenować model, aby rozpoznać go jako "Kubernetes". W innych przypadkach słowa istnieją, ale model języka nie oczekuje, że będą one wyświetlane w określonym kontekście. Na przykład "usługa kontenera" nie jest sekwencją 2-wyrazową, którą niespecjalizowany model języka rozpoznałby jako określony zestaw wyrazów.

Istnieją dwa sposoby dostosowywania modelu językowego:

  • Opcja 1. Edytowanie transkrypcji wygenerowanej przez usługę Azure AI Video Indexer. Edytując i poprawiając transkrypcję, trenujesz model językowy, aby zapewnić lepsze wyniki w przyszłości.
  • Opcja 2. Przekazywanie plików tekstowych w celu wytrenowania modelu językowego. Plik przekazywania może zawierać listę wyrazów, tak jak chcesz, aby były wyświetlane w transkrypcji usługi Video Indexer lub odpowiednie wyrazy zawarte naturalnie w zdaniach i akapitach. W miarę jak lepsze wyniki są osiągane przy użyciu drugiego podejścia, zaleca się, aby plik przekazywania zawierał pełne zdania lub akapity związane z zawartością.

Ważne

Nie umieszczaj w pliku przekazywania wyrazów lub zdań jako aktualnie niepoprawnie transkrypcji (na przykład "społeczności"), ponieważ spowoduje to negację zamierzonego wpływu. Dołącz tylko wyrazy tak, jak chcesz, aby były wyświetlane (na przykład "Kubernetes").

Najlepsze rozwiązania dotyczące niestandardowych modeli językowych

Usługa Azure AI Video Indexer uczy się na podstawie prawdopodobieństwa kombinacji słów, aby dowiedzieć się najlepiej:

  • Podaj wystarczająco dużo rzeczywistych przykładów zdań, jak by były wypowiadane.
  • Umieść tylko jedno zdanie na wiersz, a nie więcej. W przeciwnym razie system nauczy się prawdopodobieństwa w zdaniach.
  • Dobrze jest umieścić jedno słowo jako zdanie, aby zwiększyć słowo przeciwko innym, ale system uczy się najlepiej z pełnych zdań.
  • W przypadku wprowadzania nowych słów lub akronimów, jeśli to możliwe, podaj jak najwięcej przykładów użycia w pełnym zdaniu, aby dać jak najwięcej kontekstu systemowi.
  • Spróbuj umieścić kilka opcji adaptacji i zobaczyć, jak działają dla Ciebie.
  • Unikaj wielokrotnego powtarzania tego samego zdania. Może to spowodować stronniczość względem reszty danych wejściowych.
  • Unikaj dołączania nietypowych symboli (~, # @ % &), ponieważ zostaną one odrzucone. Zdania, w których się pojawią, również zostaną odrzucone.
  • Unikaj umieszczania zbyt dużych danych wejściowych, takich jak setki tysięcy zdań, ponieważ spowoduje to rozcieńczenie efektu zwiększenia.