Bölüm ve Örnek

Örneklemeyi temel alan bir veri kümesinin birden çok bölümünü oluşturur

Kategori: veri dönüştürme/örnekleme ve bölme

Not

Uygulama hedefi: Machine Learning Studio (klasik)

Bu içerik yalnızca Studio (klasik) ile ilgilidir. Benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısına eklenmiştir. Bu makalede iki sürümü karşılaştırandaha fazla bilgi edinin.

Modüle genel bakış

Bu makalede, bir veri kümesinde örnekleme gerçekleştirmek veya veri kümesinizden bölümler oluşturmak için Azure Machine Learning Studio (klasik) içinde bölüm ve örnek modülün nasıl kullanılacağı açıklanır.

Örnekleme, makine öğreniminde önemli bir araçtır çünkü aynı değer oranını koruyarak bir veri kümesinin boyutunu azaltmanızı sağlar. Bu modül makine öğreniminde önemli olan birkaç ilgili görevi destekler:

  • Verilerinizi aynı boyuttaki birden çok alt tabloya bölme.

    Bölümleri çapraz doğrulama için kullanabilir veya rastgele gruplara servis talepleri atayabilirsiniz.

  • Verileri gruplara ayırma ve ardından belirli bir gruptaki verilerle çalışma.

    Farklı gruplara rastgele bir şekilde servis talebi atadıktan sonra, yalnızca bir grupla ilişkili özellikleri değiştirmeniz gerekebilir.

  • Aşağıdakine.

    Verilerin bir yüzdesini çıkarabilir, rastgele örnekleme uygulayabilir ya da veri kümesini dengelemek için kullanılacak bir sütun seçebilir ve değerleri üzerinde kümeleştirilmiş örnekleme yapabilirsiniz.

  • Test için daha küçük bir veri kümesi oluşturma.

    Çok fazla veriniz varsa, denemeyi ayarlarken yalnızca ilk n satırı kullanmak ve ardından modelinizi oluştururken tam veri kümesini kullanmaya geçiş yapmak isteyebilirsiniz. Geliştirme sırasında kullanmak için daha küçük veri kümesi oluşturmak üzere örnekleme de kullanabilirsiniz.

Bölüm ve örnek yapılandırma

Bu modül, verilerinizi bölümlere bölmek veya örneklemeye yönelik birden çok yöntemi destekler. Önce yöntemi seçin ve ardından yöntemi için gereken ek seçenekleri ayarlayın.

  • En çok satır sayısını Al

Bir veri kümesinden Ilk N satır al

Yalnızca ilk n satırı almak için bu modu kullanın. Bu seçenek, bir denemeyi az sayıda satırda test etmek isterseniz ve verilerin herhangi bir şekilde dengelenmesi veya örneklenmesi gerekmiyorsa yararlıdır.

  1. Studio 'da (klasik) deneymenize bölüm ve örnek modülünü ekleyin ve veri kümesini bağlayın.

  2. Bölüm veya örnek modu: Bu seçeneği Head olarak ayarlayın.

  3. Seçilecek satır sayısı: Döndürülecek satır sayısını yazın.

    Belirttiğiniz satır sayısı negatif olmayan bir tamsayı olmalıdır. Seçilen satır sayısı veri kümesindeki satır sayısından büyükse, tüm veri kümesi döndürülür.

  4. Denemeyi çalıştırın.

Modül yalnızca belirtilen sayıda satırı içeren tek bir veri kümesi çıkarır. Satırlar her zaman veri kümesinin üstünden okunurdur.

Veri örneği oluşturma

Bu seçenek, basit rastgele örnekleme veya düzensiz rastgele örneklemeyi destekler. Test için daha küçük bir temsili örnek veri kümesi oluşturmak istiyorsanız bu yararlı olur.

  1. Studio 'da (klasik) deneymenize bölüm ve örnek modülünü ekleyin ve veri kümesini bağlayın.

  2. Bölüm veya örnek mod: bunu örneklemeye ayarlayın.

  3. Örnekleme oranı: 0 ile 1 arasında bir değer yazın. Bu değer, kaynak veri kümesinden çıktı veri kümesine dahil edilecek satırların yüzdesini belirtir.

    Örneğin, özgün veri kümesinin yalnızca yarısını istiyorsanız 0.5 örnekleme hızının %50 olması gerektiğini belirtmek için yazın.

    Giriş veri kümesinin satırları, belirtilen oranına göre karıştırılmış şekilde, çıktı veri kümesine seçmeli olarak konur.

  4. Örnekleme Için rastgele çekirdek: isteğe bağlı olarak, çekirdek değeri olarak kullanılacak bir tamsayı yazın.

    Satırların her seferinde aynı şekilde bölüneceğini istiyorsanız bu seçenek önemlidir. Varsayılan değer 0 ' dır, yani bir başlangıç çekirdeği sistem saatine göre oluşturulur. Bu, denemeyi her çalıştırışınızda biraz farklı sonuçlara yol açabilir.

  5. Örnekleme için ayrılmış bölme: veri kümesindeki satırların örnekleme öncesinde bazı anahtar sütunlara eşit olarak bölünebilmesi önemliyse bu seçeneği belirleyin.

    Örnekleme Için Stratification anahtar sütunu için, veri kümesini bölmek üzere tek bir konuşmasıyla Strata sütunu seçin. Veri kümesindeki satırlar şu şekilde bölünür:

    1. Tüm giriş satırları, belirtilen konuşmasıyla Strata sütunundaki değerler tarafından gruplandırılır (alt).

    2. Satırlar her grup içinde karıştırılır.

    3. Her grup, belirtilen oranı karşılamak için, çıktı veri kümesine seçmeli olarak eklenir.

    Ara örnekleme hakkında daha fazla bilgi için Teknik notlar bölümüne bakın.

  6. Denemeyi çalıştırın.

    Bu seçenekle modül, verilerin temsili bir örneklemeyi içeren tek bir veri kümesi çıkarır.

    Veri kümesinin kalan, örneksiz olmayan kısmı çıkış değil. Ancak, hangi satırların kullanılmamış olduğunu anlamak için SQL dönüştürme modülünü Uygula ' yı kullanarak veri kümelerinde JOIN oluşturabilirsiniz.

Verileri bölümlere ayırma

Veri kümesini verilerin alt kümelerine bölmek istediğinizde bu seçeneği kullanın. Bu seçenek ayrıca, çapraz doğrulama için özel sayıda katların oluşturulması veya satırları birkaç gruba bölmek istediğinizde yararlı olur.

  1. Studio 'da (klasik) deneymenize bölüm ve örnek modülünü ekleyin ve veri kümesini bağlayın.

  2. Bölüm veya örnek mod Için, katlara ata' yı seçin.

  3. Bölümlemede değiştirme kullan: örneklenmiş satırın olası yeniden kullanım için satır havuzuna geri dönmesi istiyorsanız bu seçeneği belirleyin. Sonuç olarak, aynı satır birkaç katlara atanabilir.

    Değiştirme (varsayılan seçenek) kullanmıyorsanız, Örneklenmiş satır olası yeniden kullanım için satır havuzuna geri yerleştirmez. Sonuç olarak, her satır yalnızca bir katlamalı atanabilir.

  4. Rastgele bölme: satırların katlara rastgele atanmasını istiyorsanız bu seçeneği belirleyin.

    Bu seçeneği seçmezseniz, satırlar hepsini bir kez deneme yöntemi kullanılarak katlara atanır.

  5. Rastgele çekirdek: isteğe bağlı olarak, çekirdek değeri olarak kullanılacak bir tamsayı yazın. Satırların her seferinde aynı şekilde bölüneceğini istiyorsanız bu seçenek önemlidir. Aksi takdirde, varsayılan 0 değeri rastgele bir başlangıç temel değerinin kullanılacağı anlamına gelir.

  6. Bölümleyici yöntemini belirtin: şu seçenekleri kullanarak verilerin her bölüme nasıl alınacağını belirtmek istediğinizi belirtin:

    • Bölüm eşit: her bölüme eşit sayıda satır yerleştirmek için bu seçeneği kullanın. Çıkış bölümlerinin sayısını belirtmek için, eşit olarak bölmek için katlama sayısını belirtin metin kutusuna bir tamsayı girin.

    • Özelleştirilmiş oranlar Içeren bölüm: Bu seçeneği, her bölümün boyutunu virgülle ayrılmış bir liste olarak belirtmek için kullanın.

      Örneğin, üç bölüm oluşturmak istiyorsanız, verilerin %50 ' i ve her biri verilerin %25 ' i içeren kalan iki bölüm varsa, virgülle ayrılmış metin kutusuna göre boyut listesine tıklayın ve şu sayıları yazın: .5, .25, .25

      Tüm bölüm boyutlarının toplamı tam olarak 1 ' i içermelidir.

      • 1 ' den az olan sayı girerseniz, kalan satırları tutmak için ek bir bölüm oluşturulur. Örneğin, .2 ve .3 değerlerini yazarsanız, tüm satırların yüzde 50 ' unu tutan üçüncü bir bölüm oluşturulur.

      • 1 ' den fazla ekleyen sayılar girerseniz, denemeyi çalıştırdığınızda bir hata oluşur.

  7. Dikey bölme: satırların bölünmesi sırasında dikey olmasını istiyorsanız bu seçeneği belirleyin ve ardından konuşmasıyla Strata sütununu seçin.

    Ara örnekleme hakkında daha fazla bilgi için Teknik notlar bölümüne bakın.

  8. Denemeyi çalıştırın.

    Bu seçenekle modül, belirttiğiniz kuralları kullanarak bölümlenmiş birden çok veri kümesi çıkışı verir.

Önceden tanımlanmış bir bölümden verileri kullanma

Bu seçenek, bir veri kümesini birden çok bölüme ayırdığınızda ve şimdi daha fazla analiz veya işleme için her bölümü sırayla yüklemek istediğinizde kullanılır.

  1. Bölüm ve örnek modülünü Studio 'daki deneyle (klasik) ekleyin.

  2. Önceki bölüm ve örnek örneğinin çıkışına bağlayın. Bu örnek, birkaç bölüm oluşturmak için katlara ata seçeneğini kullanmış olmalıdır.

  3. Bölüm veya örnek modu: katlama Seç ' i seçin.

  4. Hangi katlamayı örnekleneceğini belirtin: dizinini yazarak kullanılacak bir bölüm seçin. Bölüm dizinleri 1 tabanlıdır. Örneğin, veri kümesini üç parçaya ayrılmışsa, bölümler 1, 2 ve 3 ' e sahip olur.

    Geçersiz bir dizin değeri yazarsanız, bir tasarım zamanı hatası oluşur: "hata 0018: veri kümesi geçersiz veri içeriyor."

    Veri kümesini katlara göre gruplandırmanın yanı sıra, veri kümesini iki grup halinde ayırabilirsiniz: hedef katlama ve diğer her şey. Bunu yapmak için, tek bir katın dizinini yazın ve ardından seçeneği belirleyin, her şeyi, belirtilen katdaki verileri almak için Seçili katlamayı seçin.

  5. Birden çok bölümle çalışıyorsanız, bölüm ve örnek modülün her birini işlemek için ek örnekler eklemeniz gerekir.

    Örneğin, daha önce yaşı kullanarak beş katcuya daha önce bölümlenen hastalar söyleyin. Her katlama ile çalışmak için bölüm ve örnek modülün beş kopyası gerekir ve her birinde farklı bir katlama seçersiniz.

    İpucu

    Örnek deneme, bölümü bölme ve örnek, bu tekniği gösterir.

  6. Denemeyi çalıştırın.

    Bu seçenekle, modül yalnızca o katlamalı satırları içeren tek bir veri kümesi çıkarır.

Not

Katlama gösterimlerini doğrudan görüntüleyemezsiniz; yalnızca meta verilerde bulunur.

Örnekler

Bu modülün nasıl kullanıldığına ilişkin örnekler için Azure yapay zeka Galerisibakın:

  • Ikili sınıflandırma Için çapraz doğrulama: daha küçük bir rastgele örneklenmiş veri kümesi oluşturmak için %20 örnekleme hızı uygulanır. Orijinal görselleştirmenizdeki veri kümesinde 30.000 satır daha vardı; örneklenmiş veri kümesinde 6500 etrafında bir yer vardır.

  • Gerileme Için çapraz doğrulama: veriler, Stratification olmadan rastgele ve eşit olarak beş katlara atanır ve sonuçlar çapraz doğrulama için kullanılır.

  • Bölümü bölme ve örnek: bölümleme ve örnekleme kullanmanın birden çok yolunu gösterir. İlk olarak, veri kümesindeki satırları üç eşit ölçekli gruptan birine atamak için, katlara ata seçeneği kullanılır. Daha sonra, verilerin alt kümelerine işlem uygulamak için seçim katlama modu kullanılarak bölüm ve örnek üç daha örneği eklenir

    • İlk katlama (1 dizininden), satırlar rastgele bölünür.
    • İkinci katlama (2 dizini) içinde, satırlar eğitime göre bölünür.
    • Üçüncü katlama (3 dizini) içinde, satırlar Age 'e göre bölünür.

Teknik notlar

  • Stratification sütunu, ayrık değerlerle kategorik olmalıdır. Sütun zaten kategorik değilse ve bir hata alırsanız, sütun özelliklerini değiştirmek için meta verileri Düzenle ' yi kullanın.

  • Belirttiğiniz konuşmasıyla Strata sütunu sürekli veri içeremez: diğer bir deyişle, her hücrede kayan nokta değerleri olan sayısal bir veri. Aksi halde modül, verileri işleyemez ve bir hata döndürür.

    Bunun nedeni, Stratification için kullanılan herhangi bir sütunun sonlu olası değer kümesine sahip olması gerekir. Belirtilen konuşmasıyla Strata sütunu herhangi bir kayan nokta değeri içeriyorsa ve sütun kategorik türünde değilse, muhtemelen sınırsız sayıda değer içerir.

  • Konuşmasıyla Strata sütunu Boole değerleri içeriyorsa ve bunların kategorik olarak yorumlanmasını istiyorsanız, meta veri etiketini değiştirmek için meta verileri Düzenle modülünü kullanmanız gerekir.

  • Konuşmasıyla Strata sütunlarınız çok fazla benzersiz değere sahip dize veya sayısal veri içeriyorsa, sütun, doğru örnekleme için iyi bir aday değildir.

Ayrıntılı örnekleme hakkında daha fazla bilgi

Bağlama örnekleme , verilerin alt kümelerinin seçili konuşmasıyla Strata sütununun temsili bir örneklemesine sahip olmasını sağlar. Bu teknik, örneğin, eğitim verilerinizin test verilerinin (veya tam tersi) sahip olduğu yaş değerlerinin dağıtımını içerdiğinden emin olmak istediğinizde yararlı olur. Ya da veri bölümlenmiş olduğunda males ve kadınlara 'in eşit bir şekilde dağıtılmasını sağlamak için, sağlık durumu incelemesinde cinsiyet sütununu tanımlamak isteyebilirsiniz. Stratification, seçilen değerlerin oranlarında korunmasını sağlar.

Katman sütunu olarak kullanılacak tek bir sütun seçerek verileri ayırabilmeniz için değerler belirtirsiniz.

Bu modül, konuşmasıyla Strata sütununun bir kategorik sütun olmasını gerektirir. Strata için tamsayı değerlerinin bir sütununu kullanmak istiyorsanız, bu sütuna kategorik bir tür atamak en iyi uygulamadır. Bunu, Azure Machine Learning Studio (klasik) ' a eklemeden önce verilerin şeması aracılığıyla yapabilir veya meta verileri Düzenle' yi kullanarak sütunun meta verilerini güncelleştirebilirsiniz.

Sürekli verileri olan sütunlar (yani, her hücrede kayan nokta değerlerine sahip sayısal veriler), konuşmasıyla Strata sütunları olarak kullanılamaz. Bir hata alırsanız, değerleri ayrık aralıklar halinde parçalara ayırır ve sonra sütunun kategorik olarak değerlendirilip değerlendirilmeyeceğini garantilemek Için meta verileri Düzenle ' yi kullanabilirsiniz.

Beklenen girişler

Ad Tür Description
Veri kümesi Veri tablosu Bölünecek veri kümesi

Modül parametreleri

Name Aralık Tür Varsayılan Description
Bölüm veya örnek mod Liste Örnekleme yöntemleri Örnekleme Bölüm veya örnekleme modunu seçin
Bölümlemede değiştirme kullanma Herhangi biri Boole Yanlış Katların ayrık (varsayılan-değişiklik yok) veya örtüşme (true-Use değiştirme) olup olmadığını belirtir
Rastgele bölme Herhangi biri Boole Doğru Bölünen rastgele olup olmadığını belirtir
Rastgele çekirdek Herhangi biri Tamsayı 0 Rastgele sayı üreticisi için bir çekirdek belirtin
Bölümleyici yöntemini belirtin Liste Bölüm yöntemleri Düzgün bölme Eşit boyutun katlarıyla bölümlenmesi için bölüm ' ü veya özelleştirilmiş boyut katlarının bölümlenmesi için özelleştirilmiş oranlarla bölümü seçin
Eşit olarak bölünecek katların sayısını belirtin >= 1 Tamsayı 5 Bölünecek sayıda bölüm seçin
Dikey bölme Liste True/false türü Yanlış Bölündüğü belirtir
Stratification anahtar sütunu Herhangi biri ColumnSelection Stratification anahtarını içerir
Virgülle ayrılmış oranlar listesi Herhangi biri Dize Virgüllerle ayrılmış liste oranları
Özelleştirilmiş katlama ataması için dikey bölme Herhangi biri True/false türü Yanlış Bölme 'in özelleştirilmiş katlama atamaları için doğru olup olmadığını belirtir
Özelleştirilmiş katlama ataması için Stratification anahtar sütunu Herhangi biri ColumnSelection Özelleştirilmiş katlama atamaları için Stratification anahtarını içerir
Hangi katlamayı örnekleneceğini belirtin >= 1 Tamsayı 1 Örneklendiği katın dizinini içerir
Seçili katlamayı tamamlayan Seç Herhangi biri Boole Yanlış Belirtilen katlamayı tamamlamak için seçin
Örnekleme oranı Herhangi biri Float 0.01 Örnekleme oranı seçin
Örnekleme için rastgele çekirdek Herhangi biri Tamsayı 0 Örnekleme için rastgele numara Oluşturucu için bir çekirdek belirtin
Örnekleme için ayrılmış bölme Herhangi biri True/False Yanlış Bölünmeye örnekleme için ayrılmış olup olmadığını belirtir
Örnekleme için Stratification anahtar sütunu Herhangi biri ColumnSelection Örnekleme için Stratification anahtarını içerir
Seçilecek satır sayısı >= 0 Tamsayı 10 Sonraki modüle geçmesine izin verilecek en fazla kayıt sayısını seçin

Çıkışlar

Ad Tür Description
oDataset Veri tablosu Bölme işleminden kaynaklanan veri kümesi

Ayrıca bkz.

Örnek ve bölünmüş
Verileri Böl
Meta verileri Düzenle
Verileri Kutulara Gruplama