Tümce ve belirteçlere ayırmaSentence Separation and Tokenization

Önemli

Dilbilimsel Analiz önizleme sürümü 9 Ağustos 2018 tarihinde kullanımdan kaldırılmıştır.The Linguistic Analysis preview was decommissioned on August 9, 2018. Metin işleme ve analiz için Azure Machine Learning metin analizi modüllerini kullanmanızı öneririz.We recommend using Azure Machine Learning text analytics modules for text processing and analysis.

Arka plan ve motivasyonBackground and motivation

Bir metin gövdesi göz önünde bulundurulduğunda, ilk adımı, dil analizi, tümce ve belirteçlere ayırmaktır bölmektir.Given a body of text, the first step of linguistic analysis is to break it into sentences and tokens.

Tümce ayrımıSentence Separation

İlk bakışta üzerinde metin cümleler bozucu basit olduğunu görünüyor: yalnızca cümle son işaretlerinin bulun ve kesme tümceleri vardır.On first glance, it seems that breaking text into sentences is simple: just find the end-of-sentence markers and break sentences there. Ancak, bu işaretler genellikle karmaşık ve belirsiz.However, these marks are often complicated and ambiguous.

Aşağıdaki örnek metni göz önünde bulundurun:Consider the following example text:

Ne dedin?!?What did you say?!? Yönetmenin "Yeni Teklif hakkında." yanıt alamadıkI didn't hear about the director's "new proposal." Bay ve Mrs. Smith için önemlidir.It's important to Mr. and Mrs. Smith.

Bu metin, üç cümleler içerir:This text contains three sentences:

  • Ne dedin?!?What did you say?!?
  • Yönetmenin "Yeni Teklif hakkında." yanıt alamadıkI didn't hear about the director's "new proposal."
  • Bay ve Mrs. Smith için önemlidir.It's important to Mr. and Mrs. Smith.

Cümleleri ucunda çok farklı yollarla nasıl işaretlenmiş unutmayın.Note how the ends of sentences are marked in very different ways. İlk soru işareti (bazen bir interrobang denir) ünlem ve bir arada sona erer.The first ends in a combination of question marks and exclamation points (sometimes called an interrobang). Önceki cümle nokta veya tam durdurma, ancak aşağıdaki tırnak işareti ikinci biter çekilmesi.The second ends with a period or full stop, but the following quotation mark should be pulled into the prior sentence. Üçüncü cümlede kısaltmalar de işaretlemek için aynı, nokta karakteri'nın nasıl kullanılabileceğini görebilirsiniz.In the third sentence, you can see how that same period character can be used to mark abbreviations as well. Noktalama işaretlerinin yalnızca arayan bir iyi aday kümesi sağlar, ancak daha fazla iş true cümle sınırlarını tanımlamak için gereklidir.Looking just at punctuation provides a good candidate set, but further work is required to identify the true sentence boundaries.

SimgeleştirmeTokenization

Sıradaki görev, bu cümleleri belirteçlere ayırmasına sağlamaktır.The next task is to break these sentences into tokens. Çoğunlukla, İngilizce belirteçleri beyaz boşluk tarafından ayrılmış.For the most part, English tokens are delimited by white space. (Belirteçleri veya sözcükler bulma burada alanları kelimeler arasındaki çoğunlukla değil Çince, İngilizce çok daha kolay kullanılır.(Finding tokens or words is much easier in English than in Chinese, where spaces are mostly not used between words. İlk cümle "Whatdidyousay?" yazılmış olabilir)The first sentence might be written as "Whatdidyousay?")

Zor bazı durumlar vardır.There are a few difficult cases. İlk olarak, genellikle (ama her zaman kullanılmaz) noktalama gereken, bölme, içeriğini çevreleyen uzağa.First, punctuation often (but not always) should be split away from it surrounding context. İkinci olarak, İngilizce olan kısaltmalar, "siz" veya "sadece değil", burada sözcükler alınan sıkıştırılmış ve daha küçük parçalara kısaltılmış gibi.Second, English has contractions, like "didn't" or "it's", where words have been compressed and abbreviated into smaller pieces. Simgeleştirici karakter dizisi sözcüklere bölmek için hedeftir.The goal of the tokenizer is to break the character sequence into words.

Yukarıdaki örnek cümleleri şimdi geri dönün.Let's return to the example sentences from above. Şimdi biz "merkezi dot" koyduğunuz (·) arasındaki her farklı bir belirteç.Now we've placed a "center dot" (·) between each distinct token.

  • Hangi · yaptığınız · , · söyleyin · ?!?What · did · you · say · ?!?
  • Ben · vermedi · ma · dinleyin · hakkında · · Direktörü · 's · " · yeni · teklifi · .I · did · n't · hear · about · the · director · 's · " · new · proposal · . · "· "
  • Bunu · 's · önemli · için · Bay · ve · Mrs. · Smith · .It · 's · important · to · Mr. · and · Mrs. · Smith · .

Bulma sözlüğe sözcüklerin nasıl çoğu belirteçleridir unutmayın (örneğin, önemli, Direktörü).Note how most tokens are words you'd find in the dictionary (for example, important, director). Diğerleri yalnızca noktalama işaretlerini oluşur.Others solely consist of punctuation. Son olarak, kısaltmalar gibi temsil etmek için daha olağan dışı belirteçleri vardır ma için değil, iyelik gibi 's.Finally, there are more unusual tokens to represent contractions like n't for not, and possessives like 's. Word işlemek bu simgeleştirme kurmamızı yaramadı ve tümcecik belirtmiyor daha tutarlı bir şekilde.This tokenization allows us to handle the word didn't and the phrase did not in a more consistent way.

BelirtimiSpecification

Ne bir cümle ve bir belirteç oluşur konusunda tutarlı kararlar önemlidir.It is important to make consistent decisions about what comprises a sentence and a token. Belirtiminden bağımlı olduğumuz da Treebank (ftp://ftp.cis.upenn.edu/pub/treebank/public_html/tokenization.html bazı ek ayrıntılar kullanılabilir).We rely on the specification from the Penn Treebank (some additional details are available at ftp://ftp.cis.upenn.edu/pub/treebank/public_html/tokenization.html).