Word'ü Vektör bileşenine dönüştürme

Makale
06/01/2023

Bu makalede, şu görevleri gerçekleştirmek için Azure Machine Learning tasarımcısında Word'ü Vektöre Dönüştür bileşeninin nasıl kullanılacağı açıklanmaktadır:

Giriş olarak belirttiğiniz metin corpus üzerine çeşitli Word2Vec modelleri (Word2Vec, FastText, GloVe önceden eğitilmiş model) uygulayın.
Sözcük eklemeleri ile bir sözcük dağarcığı oluşturun.

Bu bileşen Gensim kitaplığını kullanır. Gensim hakkında daha fazla bilgi için öğreticiler ve algoritmaların açıklamasını içeren resmi web sitesine bakın.

Sözcükleri vektörlere dönüştürme hakkında daha fazla bilgi

Sözcükleri vektörlere veya sözcük vektörleştirmesine dönüştürmek, doğal bir dil işleme (NLP) işlemidir. bu işlem, sözcükleri vektör uzayı ile eşlemek için dil modellerini kullanır. Vektör boşluğu, her sözcüğü gerçek sayılardan oluşan bir vektörle temsil eder. Ayrıca benzer anlamlara sahip sözcüklerin benzer gösterimlere sahip olmasına da olanak tanır.

Metin sınıflandırması ve yaklaşım analizi gibi NLP aşağı akış görevleri için ilk giriş olarak sözcük eklemeleri kullanın.

Çeşitli sözcük ekleme teknolojileri arasında, bu bileşende yaygın olarak kullanılan üç yöntem uyguladık. İki, Word2Vec ve FastText, çevrimiçi eğitim modelleridir. Diğeri önceden eğitilmiş model, glove-wiki-gigaword-100.

Çevrimiçi eğitim modelleri giriş verileriniz üzerinde eğitilir. Önceden eğitilen modeller genellikle yaklaşık 100 milyar sözcük içeren daha büyük bir metin grubu (örneğin Wikipedia, Google News) üzerinde çevrimdışı olarak eğitilir. Ardından sözcük ekleme, sözcük vektörleştirmesi sırasında sabit kalır. Önceden eğitilmiş sözcük modelleri daha kısa eğitim süresi, daha iyi sözcük vektörleri kodlanmış ve genel performansın iyileştirilmesi gibi avantajlar sağlar.

Yöntemler hakkında bazı bilgiler aşağıdadır:

Word2Vec, sığ bir sinir ağı kullanarak sözcük eklemelerini öğrenmek için en popüler tekniklerden biridir. Teori, PDF indirme olarak sunulan bu makalede ele alınmaktadır: Vektör Alanında Sözcük Gösterimlerinin Verimli Tahmini. Bu bileşendeki uygulama, Word2Vec için Gensim kitaplığını temel alır.
FastText teorisi, PDF indirme olarak sunulan bu makalede açıklanmıştır: Word Vectors'u Subword Bilgileriyle Zenginleştirme. Bu bileşendeki uygulama FastText için Gensim kitaplığını temel alır.
GloVe önceden eğitilmiş modeli glove-wiki-gigaword-100 modelidir. 5,6 milyar belirteç ve 400.000 harfsiz sözcük dağarcığı içeren Wikipedia metin topluluğuna dayalı önceden eğitilmiş vektörlerden oluşan bir koleksiyondur. PDF indirme kullanılabilir: GloVe: Word Gösterimi için Genel Vektörler.

Word'ü Vektöre Dönüştür'ü yapılandırma

Bu bileşen, bir metin sütunu içeren bir veri kümesi gerektirir. Önceden işlenmiş metin daha iyidir.

word'ü Vektöre Dönüştür bileşenini işlem hattınıza ekleyin.
Bileşenin girişi olarak, bir veya daha fazla metin sütunu içeren bir veri kümesi sağlayın.
Hedef sütun için, işlenmek üzere metin içeren tek bir sütun seçin.

Bu bileşen metinden sözcük dağarcığı oluşturduğundan, sütunların içeriği farklılık gösterir ve bu da farklı sözcük dağarcığı içeriğine yol açar. Bu nedenle bileşen yalnızca bir hedef sütunu kabul eder.
Word2Vec stratejisi için GloVe önceden eğitilmiş İngilizce Modeli, Gensim Word2Vec ve Gensim FastText arasından seçim yapın.
Word2Vec stratejisiGensim Word2Vec veya Gensim FastText ise:
- Word2Vec Eğitim Algoritması için Skip_gram ve CBOW arasından seçim yapın. Fark , özgün belgede (PDF) ortaya çıkmıştır.
  
  Varsayılan yöntem Skip_gram.
- Sözcük ekleme uzunluğu için sözcük vektörlerinin boyutsallığını belirtin. Bu ayar, Gensim'deki parametreye size karşılık gelir.
  
  Varsayılan ekleme boyutu 100'dür.
- Bağlam penceresi boyutu için tahmin edilen sözcükle geçerli sözcük arasındaki maksimum uzaklığı belirtin. Bu ayar, Gensim'deki parametreye window karşılık gelir.
  
  Varsayılan pencere boyutu 5'tir.
- Dönem sayısı için, corpus üzerindeki dönem sayısını (yinelemeler) belirtin. Gensim'deki parametresine iter karşılık gelir.
  
  Varsayılan dönem numarası 5'tir.
Maksimum sözlük boyutu için, oluşturulan sözlükteki sözcüklerin maksimum sayısını belirtin.

En büyük boyuttan daha fazla benzersiz sözcük varsa, seyrek olanları budayın.

Varsayılan sözlük boyutu 10.000'dir.
En az sözcük sayısı için en az sözcük sayısını girin. Bileşen, sıklığı bu değerden daha düşük olan tüm sözcükleri yoksayar.

Varsayılan değer 5 olur.
İşlem hattını gönderin.

Örnekler

Bileşenin bir çıkışı vardır:

Eklemeli sözlük: Her sözcüğün eklemesiyle birlikte oluşturulan sözlüğü içerir. Bir boyut bir sütunu kaplar.

Aşağıdaki örnekte, Word'ü Vektöre Dönüştür bileşeninin nasıl çalıştığı gösterilmektedir. Önceden işlenmiş Wikipedia SP 500 Veri Kümesine varsayılan ayarlarla Word'ü Vektöre Dönüştür'ü kullanır.

Kaynak veri kümesi

Veri kümesi, Wikipedia'dan getirilen tam metinle birlikte bir kategori sütunu içerir. Aşağıdaki tabloda birkaç temsili örnek gösterilmektedir.

Metin
nasdaq 100 component s p 500 component foundation founder location city apple campus 1 infinite loop street infinite loop cupertino california cupertino california location country united states...
br nasdaq 100 nasdaq 100 component br s p 500 s p 500 component industry computer software foundation br founder charles geschke br john warnock location adobe systems...
s p 500 s p 500 bileşen endüstrisi otomotiv endüstrisi otomotiv öncül general motors corporation 1908 2009 ardılı...
s p 500 s p 500 bileşen sanayi holding şirketi holding foundation kurucu konum şehir fairfield connecticut fairfield connecticut konum ülke abd alan...
br s p 500 s p 500 bileşen vakfı 1903 kurucu william s harley br arthur davidson harley davidson kurucu arthur davidson br walter davidson br william a davidson location...

Eklemeler ile çıkış sözlüğü

Aşağıdaki tabloda, Giriş olarak Wikipedia SP 500 veri kümesini alan bu bileşenin çıkışı yer alır. En soldaki sütunda sözcük dağarcığı gösterilir. Ekleme vektöru, aynı satırdaki kalan sütunların değerleriyle temsil edilir.

Kelime	Dim 0 ekleme	Dim 1 ekleme	Dim 2 ekleme	Dim 3 ekleme	Dim 4 ekleme	Dim 5 ekleme	...	Dim 99 ekleme
Nasdaq	-0.375865	0.609234	0.812797	-0.002236	0.319071	-0.591986	...	0.364276
bileşenleri	0.081302	0.40001	0.121803	0.108181	0.043651	-0.091452	...	0.636587
s	-0.34355	-0.037092	-0.012167	0.151542	0.601019	0.084501	...	0.149419
p	-0.133407	0.073244	0.170396	0.326706	0.213463	-0.700355	...	0.530901
Foundation	-0.166819	0.10883	-0.07933	-0.073753	0.262137	0.045725	...	0.27487
Kurucusu	-0.297408	0.493067	0.316709	-0.031651	0.455416	-0.284208	...	0.22798
location	-0.375213	0.461229	0.310698	0.213465	0.200092	0.314288	...	0.14228
city	-0.460828	0.505516	-0.074294	-0.00639	0.116545	0.494368	...	-0.2403
Apple	0.05779	0.672657	0.597267	-0.898889	0.099901	0.11833	...	0.4636
Kampüs	-0.281835	0.29312	0.106966	-0.031385	0.100777	-0.061452	...	0.05978
Sonsuz	-0.263074	0.245753	0.07058	-0.164666	0.162857	-0.027345	...	-0.0525
loop	-0.391421	0.52366	0.141503	-0.105423	0.084503	-0.018424	...	-0.0521

Bu örnekte, Word2Vec için varsayılan Gensim Word2Vecstratejisini kullandık ve Eğitim AlgoritmasıSkip-gram'dır. Ekleme sözcüğünün uzunluğu 100 olduğundan 100 ekleme sütunumuz var.

Teknik notlar

Bu bölüm, sık sorulan soruların ipuçlarını ve yanıtlarını içerir.

Çevrimiçi eğitim ve önceden eğitilmiş model arasındaki fark:

Bu Word'ü Vektöre Dönüştür bileşeninde üç farklı strateji sağladık: iki çevrimiçi eğitim modeli ve bir önceden eğitilmiş model. Çevrimiçi eğitim modelleri giriş veri kümenizi eğitim verileri olarak kullanır ve eğitim sırasında sözcük ve sözcük vektörleri oluşturur. Önceden eğitilen model, Wikipedia veya Twitter metni gibi çok daha büyük bir metin grubu tarafından zaten eğitildi. Önceden eğitilen model aslında bir sözcük/ekleme çiftleri koleksiyonudur.

GloVe önceden eğitilmiş modeli, giriş veri kümesinden bir sözcük dağarcığını özetler ve önceden eğitilen modeldeki her sözcük için bir ekleme vektöru oluşturur. Çevrimiçi eğitim olmadan, önceden eğitilmiş bir modelin kullanılması eğitimden tasarruf edebilir. Özellikle giriş veri kümesi boyutu nispeten küçük olduğunda daha iyi performansa sahiptir.
Ekleme boyutu:

Genel olarak, sözcük eklemenin uzunluğu birkaç yüz olarak ayarlanır. Örneğin, 100, 200, 300. Küçük bir ekleme boyutu, sözcük ekleme çakışmalarına neden olabilecek küçük bir vektör alanı anlamına gelir.

Sözcük eklemelerin uzunluğu önceden eğitilen modeller için sabittir. Bu örnekte glove-wiki-gigaword-100 ekleme boyutu 100'dür.

Sonraki adımlar

Azure Machine Learning'in kullanabileceği bileşenler kümesine bakın.

Tasarımcı bileşenlerine özgü hataların listesi için bkz. Machine Learning hata kodları.