Trennung und Tokenisierung von SätzenSentence Separation and Tokenization

Wichtig

Die Vorschauversion für die linguistische Analyse wurde am 9. August 2018 außer Betrieb genommen.The Linguistic Analysis preview was decommissioned on August 9, 2018. Es wird empfohlen, Azure Machine Learning-Textanalysemodule für die Textverarbeitung und -analyse zu verwenden.We recommend using Azure Machine Learning text analytics modules for text processing and analysis.

Hintergrund und MotivationBackground and motivation

Der erste Schritt bei der linguistischen Analyse eines Texts ist das Segmentieren des Texts in Sätze und Token.Given a body of text, the first step of linguistic analysis is to break it into sentences and tokens.

Segmentieren in SätzeSentence Separation

Die Segmentierung eines Texts in Sätze wirkt auf den ersten Blick einfach: Es muss lediglich nach Satzendemarkierungen gesucht, um die Sätze an diesen Stellen zu segmentieren.On first glance, it seems that breaking text into sentences is simple: just find the end-of-sentence markers and break sentences there. Diese Markierungen erweisen sich jedoch häufig als kompliziert und mehrdeutig.However, these marks are often complicated and ambiguous.

Betrachten Sie den folgenden Beispieltext:Consider the following example text:

What did you say?!?What did you say?!? I didn't hear about the director's „new proposal.“ (Ich habe nichts von dieser „neuen Ausschreibung“ des Geschäftsführers gehört.)I didn't hear about the director's "new proposal." It's important to Mr. and Mrs. Smith. (Was haben Sie gesagt?!? Ich habe nichts von dieser „neuen Ausschreibung“ des Geschäftsführers gehört. Das ist für Herrn und Frau Schmidt wichtig.)It's important to Mr. and Mrs. Smith.

Dieser Text enthält drei Sätze:This text contains three sentences:

  • What did you say?!? (Was haben Sie gesagt?!?)What did you say?!?
  • I didn't hear about the director's „new proposal.“ (Ich habe nichts von dieser „neuen Ausschreibung“ des Geschäftsführers gehört.)I didn't hear about the director's "new proposal."
  • It's important to Mr. and Mrs. Smith. (Das ist für Herrn und Frau Schmidt wichtig.)It's important to Mr. and Mrs. Smith.

Ist Ihnen aufgefallen, dass die Enden der Sätze auf sehr unterschiedliche Weise markiert sind?Note how the ends of sentences are marked in very different ways. Der erste Satz endet mit einer Kombination aus Frage- und Ausrufezeichen (mitunter als „Interrobang“ bezeichnet).The first ends in a combination of question marks and exclamation points (sometimes called an interrobang). Der zweite Satz endet mit einem Punkt, aber das nachfolgende schließende Anführungszeichen sollte in den vorherigen Satz einbezogen werden.The second ends with a period or full stop, but the following quotation mark should be pulled into the prior sentence. Im dritten Satz können Sie erkennen, dass der Punkt auch zur Markierung von Abkürzungen verwendet werden kann.In the third sentence, you can see how that same period character can be used to mark abbreviations as well. Die Interpunktion ist für den Anfang zwar ein guter Anhaltspunkt, es sind jedoch weitere Schritte erforderlich, um die tatsächlichen Satzgrenzen zu identifizieren.Looking just at punctuation provides a good candidate set, but further work is required to identify the true sentence boundaries.

TokenisierungTokenization

Die nächste Aufgabe besteht darin, diese Sätze in Token zu segmentieren.The next task is to break these sentences into tokens. In den meisten Fällen werden englische Token durch einen Leerraum segmentiert.For the most part, English tokens are delimited by white space. (Die Suche nach Token oder Wörtern ist in der englischen Sprache weitaus einfacher als in der chinesischen Sprache, in der weitestgehend keine Leerräume zwischen Wörtern verwendet werden.(Finding tokens or words is much easier in English than in Chinese, where spaces are mostly not used between words. Der erste Satz könnte auf folgende Weise geschrieben werden: „Whatdidyousay?“)The first sentence might be written as "Whatdidyousay?")

Es gibt einige Knackpunkte.There are a few difficult cases. Zunächst einmal sollte die Zeichensetzung in vielen Fällen (jedoch nicht immer) von dem ihm umgebenden Kontext getrennt werden.First, punctuation often (but not always) should be split away from it surrounding context. Zudem weist die englische Sprache Kontraktionen wie „didn’t“ oder „it’s“ auf, bei denen Wörter komprimiert und auf diese Weise abgekürzt werden.Second, English has contractions, like "didn't" or "it's", where words have been compressed and abbreviated into smaller pieces. Das Ziel des Tokenizers ist es, die Zeichensequenz in Wörter zu segmentieren.The goal of the tokenizer is to break the character sequence into words.

Kehren wir zu den oben aufgeführten Beispielsätzen zurück.Let's return to the example sentences from above. Jetzt haben wir einen Punkt in die Leerräume (·) zwischen die einzelnen Token eingefügt.Now we've placed a "center dot" (·) between each distinct token.

  • What · did · you · say · ?!?What · did · you · say · ?!?
  • I · did · n't · hear · about · the · director · 's · „ · new · proposal · .I · did · n't · hear · about · the · director · 's · " · new · proposal · . · “· "
  • It · 's · important · to · Mr. · and · Mrs. · Smith · .It · 's · important · to · Mr. · and · Mrs. · Smith · .

Beachten Sie, dass es sich bei den meisten Token um Wörter handelt, die im Wörterbuch vorgefunden werden können (z. B. important, director).Note how most tokens are words you'd find in the dictionary (for example, important, director). Andere Token hingegen bestehen ausschließlich aus Satzzeichen.Others solely consist of punctuation. Zu guter Letzt gibt es ungewöhnlichere Token, die z.B. Kontraktionen wie n’t für not und besitzanzeigende Formen wie ’s darstellen.Finally, there are more unusual tokens to represent contractions like n't for not, and possessives like 's. Dank dieser Tokenisierung können das Wort didn’t und die Phrase did not konsistenter behandelt werden.This tokenization allows us to handle the word didn't and the phrase did not in a more consistent way.

SpezifikationSpecification

Es ist wichtig, konsistente Entscheidungen darüber zu treffen, woraus ein Satz und ein Token bestehen.It is important to make consistent decisions about what comprises a sentence and a token. Wir arbeiten mit der Spezifikation der Penn Treebank (Informationen dazu finden Sie hier: ftp://ftp.cis.upenn.edu/pub/treebank/public_html/tokenization.html).We rely on the specification from the Penn Treebank (some additional details are available at ftp://ftp.cis.upenn.edu/pub/treebank/public_html/tokenization.html).