Wstępne przetwarzanie tekstu

W tym artykule opisano składnik w projektancie Azure Machine Learning.

Użyj składnika Preprocess Text , aby wyczyścić i uprościć tekst. Obsługuje te typowe operacje przetwarzania tekstu:

  • Usuwanie wyrazów zatrzymania
  • Wyszukiwanie i zastępowanie określonych ciągów docelowych za pomocą wyrażeń regularnych
  • Lemmatyzacja, która konwertuje wiele powiązanych wyrazów na jedną formę kanoniczną
  • Normalizacja wielkości liter
  • Usuwanie niektórych klas znaków, takich jak liczby, znaki specjalne i sekwencje powtarzających się znaków, takich jak "aaaa"
  • Identyfikacja i usuwanie wiadomości e-mail i adresów URL

Składnik Preprocess Text obecnie obsługuje tylko język angielski.

Konfigurowanie przetwarzania wstępnego tekstu

  1. Dodaj składnik Preprocess Text do potoku w Azure Machine Learning. Ten składnik można znaleźć w obszarze analiza tekstu.

  2. Połączenie zestaw danych zawierający co najmniej jedną kolumnę zawierającą tekst.

  3. Wybierz język z listy rozwijanej Język .

  4. Kolumna tekstowa do oczyszczenia: wybierz kolumnę, którą chcesz wstępnie przetworzyć.

  5. Usuń słowa zatrzymania: wybierz tę opcję, jeśli chcesz zastosować wstępnie zdefiniowaną listę stopwordów do kolumny tekstowej.

    Listy stopwordów są zależne od języka i dostosowywalne.

  6. Lemmatyzacja: wybierz tę opcję, jeśli chcesz, aby wyrazy miały być reprezentowane w postaci kanonicznej. Ta opcja jest przydatna do zmniejszania liczby unikatowych wystąpień innych podobnych tokenów tekstowych.

    Proces lemmatyzacji jest wysoce zależny od języka.

  7. Wykryj zdania: wybierz tę opcję, jeśli składnik ma wstawić znacznik granicy zdania podczas przeprowadzania analizy.

    Ten składnik używa serii trzech znaków ||| potoku do reprezentowania terminatora zdania.

  8. Wykonaj opcjonalne operacje znajdowania i zastępowania przy użyciu wyrażeń regularnych. Wyrażenie regularne zostanie najpierw przetworzone przed wszystkimi innymi wbudowanymi opcjami.

    • Niestandardowe wyrażenie regularne: zdefiniuj wyszukiwany tekst.
    • Niestandardowy ciąg zastępczy: zdefiniuj pojedynczą wartość zastępczą.
  9. Normalizuj wielkość liter na małe litery: wybierz tę opcję, jeśli chcesz przekonwertować wielkie litery ASCII na małe litery.

    Jeśli znaki nie są znormalizowane, to samo słowo w wielkich i małych literach jest uznawane za dwa różne wyrazy.

  10. Z przetworzonego tekstu wyjściowego można również usunąć następujące typy znaków lub sekwencje znaków:

    • Usuń liczby: wybierz tę opcję, aby usunąć wszystkie znaki liczbowe dla określonego języka. Numery identyfikacyjne są zależne od domeny i języka. Jeśli znaki liczbowe są integralną częścią znanego słowa, liczba może nie zostać usunięta. Dowiedz się więcej w uwagach technicznych.

    • Usuń znaki specjalne: użyj tej opcji, aby usunąć wszystkie znaki specjalne inne niż alfanumeryczne.

    • Usuń zduplikowane znaki: wybierz tę opcję, aby usunąć dodatkowe znaki we wszystkich sekwencjach powtarzanych przez ponad dwa razy. Na przykład sekwencja podobna do "aaaaa" zostanie zmniejszona do "aa".

    • Usuń adresy e-mail: wybierz tę opcję, aby usunąć dowolną sekwencję formatu <string>@<string>.

    • Usuń adresy URL: wybierz tę opcję, aby usunąć dowolną sekwencję zawierającą następujące prefiksy adresów URL: http, , https, ftpwww

  11. Rozwiń czasowniki: ta opcja dotyczy tylko języków, które używają czasowników; obecnie tylko w języku angielskim.

    Na przykład po wybraniu tej opcji możesz zastąpić frazę "nie pozostanie tam" ciągiem "nie pozostanie tam".

  12. Normalizuj ukośniki odwrotne do ukośników: wybierz tę opcję, aby mapować wszystkie wystąpienia \\ elementu na /.

  13. Podziel tokeny na znaki specjalne: wybierz tę opcję, jeśli chcesz podzielić wyrazy na znaki, takie jak &, -i tak dalej. Ta opcja może również zmniejszyć liczbę znaków specjalnych, gdy powtarza się więcej niż dwa razy.

    Na przykład ciąg MS---WORD zostanie rozdzielony na trzy tokeny, MS, -i WORD.

  14. Prześlij potok.

Uwagi techniczne

Składnik wstępnego przetwarzania tekstu w programie Studio (wersja klasyczna) i projektant używają różnych modeli językowych. Projektant używa wielodaniowego modelu CNN wytrenowanego ze spaCy. Różne modele zapewniają różne tokenizatory i moduły tagger rozpoznawania mowy, co prowadzi do różnych wyników.

Poniżej przedstawiono kilka przykładów:

Konfiguracja Wynik wyjściowy
Po wybraniu
wszystkich opcji Wyjaśnienie:
w przypadku przypadków takich jak "3test" w narzędziu "WC-3 3test 4test", projektant usunie całe słowo "3test", ponieważ w tym kontekście element tagger rozpoznawania mowy określa ten token "3test" jako liczbowy, a zgodnie z częścią mowy składnik go usuwa.
With all options selected
Removing number Tylko z wybranym
wyjaśnieniem:
w przypadku przypadków takich jak "3test", "4-EC", projektant tokenizer dawki nie dzieli tych przypadków i traktuje je jako całe tokeny. Nie spowoduje to usunięcia liczb w tych słowach.
With only `Removing number` selected

Możesz również użyć wyrażenia regularnego do wyprowadzania dostosowanych wyników:

Konfiguracja Wynik wyjściowy
Po wybraniu
opcji Niestandardowe wyrażenie regularne: (\s+)*(-|\d+)(\s+)*
Niestandardowy ciąg zastępczy: \1 \2 \3
With all options selected and regular expression
W przypadku wybrania tylko Removing number niestandardowego
wyrażenia regularnego: (\s+)*(-|\d+)(\s+)*
niestandardowy ciąg zastępczy: \1 \2 \3
With removing numbers selected and regular expression

Następne kroki

Zobacz zestaw składników dostępnych do Azure Machine Learning.