Özellik Karması bileşen başvurusu

Bu makalede Azure Machine Learning tasarımcısında bulunan bir bileşen açıklanmaktadır.

bir İngilizce metin akışını bir tamsayı özellikleri kümesine dönüştürmek için Özellik Karması bileşenini kullanın. Daha sonra metin analizi modelini eğitmek için bu karma özellik kümesini bir makine öğrenmesi algoritmasına geçirebilirsiniz.

Bu bileşende sağlanan özellik karma işlevi nimbusml çerçevesini temel alır. Daha fazla bilgi için bkz. NgramHash sınıfı.

Özellik karması nedir?

Özellik karması, benzersiz belirteçleri tamsayılara dönüştürerek çalışır. Giriş olarak sağladığınız tam dizeler üzerinde çalışır ve herhangi bir dil analizi veya önişlem gerçekleştirmez.

Örneğin, bunlar gibi bir dizi basit cümleyi ve ardından yaklaşım puanını alın. Model oluşturmak için bu metni kullanmak istediğinizi varsayalım.

Kullanıcı metni Yaklaşım
Bu kitabı çok sevdim. 3
Bu kitaptan nefret ettim. 1
Bu kitap harikaydı 3
Kitapları severim 2

Dahili olarak, Özellik Karması bileşeni n gramlık bir sözlük oluşturur. Örneğin, bu veri kümesinin bigrams listesi şöyle olabilir:

Terim (bigrams) Sıklık
Bu kitap 3
Sevdim 1
Nefret ettim 1
Çok seviyorum. 1

N-gram özelliğini kullanarak n-gram boyutunu denetleyebilirsiniz. Bigram'ları seçerseniz, tekgramlar da hesaplanır. Sözlükte şunlara benzer tek terimler de bulunur:

Terim (tek birimleri) Sıklık
Kitap 3
I 3
kitaplar 1
was 1

Sözlük oluşturulduktan sonra Özellik Karması bileşeni sözlük terimlerini karma değerlere dönüştürür. Ardından her durumda bir özelliğin kullanılıp kullanılmadığını hesaplar. Her metin verisi satırı için bileşen, her karma özellik için bir sütun olmak üzere bir sütun kümesi oluşturur.

Örneğin, karma oluşturma sonrasında özellik sütunları şuna benzer olabilir:

Derecelendirme Karma özelliği 1 Karma özelliği 2 Karma özelliği 3
4 1 1 0
5 0 0 0
  • Sütundaki değer 0 ise, satır karma özelliğini içermiyordu.
  • Değer 1 ise, satır özelliği içeriyordur.

Özellik karması, boyutsallığı azaltmak için değişken uzunluktaki metin belgelerini eşit uzunlukta sayısal özellik vektörleri olarak temsil etmenizi sağlar. Eğitim için metin sütununu olduğu gibi kullanmaya çalışırsanız, bu sütun birçok farklı değere sahip kategorik bir özellik sütunu olarak değerlendirilir.

Sayısal çıkışlar sınıflandırma, kümeleme ve bilgi alma gibi yaygın makine öğrenmesi yöntemlerinin kullanılmasını da mümkün hale getirir. Arama işlemleri dize karşılaştırmaları yerine tamsayı karmalarını kullanabileceğinden, özellik ağırlıklarını almak da çok daha hızlıdır.

Özellik Karması bileşenini yapılandırma

  1. Özellik Karması bileşenini tasarımcıdaki işlem hattınıza ekleyin.

  2. Analiz etmek istediğiniz metni içeren veri kümesini bağlayın.

    İpucu

    Özellik karma oluşturma, kök kesme veya kesme gibi sözcük temelli işlemler gerçekleştirmediğinden, özellik karmasını uygulamadan önce metni ön işleyerek bazen daha iyi sonuçlar elde edebilirsiniz.

  3. Hedef sütunları, karma özelliklere dönüştürmek istediğiniz metin sütunlarına ayarlayın. Şunları unutmayın:

    • Sütunlar dize veri türü olmalıdır.

    • Birden çok metin sütunu seçmenin özellik boyutsallığı üzerinde önemli bir etkisi olabilir. Örneğin, 10 bit karma için sütun sayısı tek bir sütun için 1.024'ten iki sütun için 2.048'e gider.

  4. Karma tabloyu oluştururken kullanılacak bit sayısını belirtmek için Karma bit boyutu kullanın.

    Varsayılan bit boyutu 10'dur. Birçok sorun için bu değer yeterlidir. Eğitim metnindeki n gram sözcük dağarcığının boyutuna bağlı olarak, çakışmaları önlemek için daha fazla alana ihtiyacınız olabilir.

  5. N-gram için, eğitim sözlüğüne eklenecek n-gram uzunluğunu tanımlayan bir sayı girin. N-gram, benzersiz bir birim olarak ele alınan n sözcük dizisidir.

    Örneğin, 3 girerseniz, tekgramlar, bigram'lar ve trigramlar oluşturulur.

  6. İşlem hattını gönderin.

Sonuçlar

İşlem tamamlandıktan sonra bileşen, özgün metin sütununun birden çok sütuna dönüştürüldüğü dönüştürülmüş bir veri kümesi oluşturur. Her sütun, metindeki bir özelliği temsil eder. Sözlüğün ne kadar önemli olduğuna bağlı olarak, sonuçta elde edilen veri kümesi büyük olabilir:

Sütun adı 1 Sütun türü 2
USERTEXT Özgün veri sütunu
DUYGULARI Özgün veri sütunu
USERTEXT - Karma özelliği 1 Karma özellik sütunu
USERTEXT - Karma özelliği 2 Karma özellik sütunu
USERTEXT - Karma özelliği n Karma özellik sütunu
USERTEXT - Karma özelliği 1024 Karma özellik sütunu

Dönüştürülmüş veri kümesini oluşturduktan sonra Modeli Eğit bileşenine giriş olarak kullanabilirsiniz.

En iyi yöntemler

Aşağıdaki en iyi yöntemler Özellik Karması bileşeninden en iyi şekilde yararlanmak için size yardımcı olabilir:

  • Giriş metnini önceden işlemek için Özellik Karması'nı kullanmadan önce bir Önişle Metin bileşeni ekleyin.

  • Çıkış veri kümesinden metin sütunlarını kaldırmak için Özellik Karması bileşeninden sonra Sütun Seç bileşeni ekleyin. Karma özellikleri oluşturulduktan sonra metin sütunlarına ihtiyacınız yoktur.

  • Sonuçları basitleştirmek ve doğruluğu geliştirmek için bu metin ön işleme seçeneklerini kullanmayı göz önünde bulundurun:

    • Sözcük kesme
    • Sözcük kaldırmayı durdurma
    • Büyük/küçük harf normalleştirme
    • Noktalama işaretlerinin ve özel karakterlerin kaldırılması
    • Dallanma

Herhangi bir çözümde uygulanacak en uygun ön işleme yöntemleri kümesi etki alanına, kelime dağarcığına ve iş gereksinimine bağlıdır. hangi metin işleme yöntemlerinin en etkili olduğunu görmek için verilerinizle işlem hattı oluşturun.

Sonraki adımlar

Azure Machine Learning'in kullanabileceği bileşenler kümesine bakın