Bölünmüş satırları kullanarak verileri bölme

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

bu makalede, Machine Learning Studio 'nun bölünmüş veri modülündeki (klasik) satırları böl seçeneğinin nasıl kullanılacağı açıklanır. Bu seçenek özellikle, eğitim ve test için kullanılan veri kümelerini rastgele veya bazı ölçütlere bölmek istediğinizde yararlıdır.

Not

uygulama hedefi: yalnızca Machine Learning Studio (klasik)

benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısındakullanılabilir.

Satırları Böl seçeneği hem rastgele hem de dikey bölmeler destekler. Örneğin, her iki veri kümesi için de aynı şekilde temsil edilen bir 70-30 Split veya hedef değişkeniniz ile 10-90 bölme belirleyebilirsiniz.

Machine Learning denemeleri için veri bölümleme hakkında genel bilgi için bkz. verileri bölme ve bölme ve bölme.

Verileri bölme modülündeki diğer seçenekler, verileri bölmek için farklı yollar destekler:

Veri kümesini iki gruba bölme

  1. .Net Studio 'daki (klasik) denemenize veri ayırma modülünü ekleyin ve ayırmak istediğiniz veri kümesini bağlayın.

  2. Ayırma moduIçin satırları Böl' ü seçin.

  3. İlk çıkış veri kümesindeki satırların kesri. İlk (sol taraftaki) çıktıya kaç satır gideceğini öğrenmek için bu seçeneği kullanın. Diğer tüm satırlar ikinci (sağ) çıktıya gidecektir.

    Oran, ilk çıkış veri kümesine gönderilen satırların yüzdesini temsil eder, bu nedenle 0 ile 1 arasında bir ondalık sayı yazmanız gerekir.

    Örneğin, değer olarak 0,75 yazarsanız, veri kümesi, ilk çıkış veri kümesine gönderilen satırların %75 ' i ve ikinci çıkış veri kümesine gönderilen %25 ' lik bir 75:25 oranı kullanılarak bölünür.

  4. Veri seçimini iki gruba rastgele atamak istiyorsanız rastgele bölme seçeneğini belirleyin. Bu, eğitim ve test veri kümeleri oluştururken tercih edilen seçenektir.

  5. Rastgele çekirdek: kullanılacak örnek dizisini başlatmak için negatif olmayan bir tamsayı değeri yazın. Bu varsayılan çekirdek, rastgele sayılar üreten tüm modüllerde kullanılır.

    Bir çekirdek belirtmek sonuçları genellikle tekrarlanabilir hale getirir. Bir bölme işleminin sonuçlarını tekrarlamanız gerekiyorsa, rastgele numara Oluşturucu için bir çekirdek belirtmeniz gerekir. Aksi takdirde, rastgele çekirdek varsayılan olarak 0 olarak ayarlanır; Bu, ilk çekirdek değer sistem saatinden elde edilen anlamına gelir. Sonuç olarak, her bölme yaptığınızda verilerin dağıtılması biraz farklı olabilir.

  6. Ayrılmış bölme: iki çıkış veri kümesinin konuşmasıyla Strata sütunu veya Stratification Key sütunundakideğerlerin temsili bir örneğini içermesini sağlamak için bu seçeneği true olarak ayarlayın.

    Birbirine bağlı örnekleme ile, veriler her bir çıktı veri kümesinin her bir hedef değerin kabaca aynı yüzdesini almasını sağlayan şekilde bölünür. Örneğin, eğitimin ve test kümelerinin, sonuca göre veya cinsiyet gibi başka bir sütunla ilgili olarak kabaca dengelendiği konusunda emin olmak isteyebilirsiniz.

  7. Denemeyi çalıştırın veya modüle sağ tıklayıp Seçileni Çalıştır' ı seçin.

Örnekler

Aşağıdaki örneklerde, bölünmüş satırlar modu kullanılarak nasıl basit bölmeler yapılacağı gösterilmektedir.

İki eşit parçaya böl

Veri kümesinden sonra, başka bir değişiklik yapmadan bölünmüş veri modülünü ekleyin. Varsayılan olarak, modül veri kümesini iki eşit bölümden ayırır. Tek sayıda satır içeren veriler için ikinci çıkış kalanı alır.

Üçe ayır

Bir veri kümesini iki parçaya bölmek istediğinizi varsayalım; eğitim için kullanılan üçüncü veriler ve test ya da ek bölmeler için kullanılır.

Bunu yapmak için, bölünmüş bir veri modülü ekleyin ve Ilk çıktıda satır kesirini 0,33 olarak ayarlayın. İkinci çıktı, kalan iki buçuk ' u içerir.

İkinci çıktıyı eşit parçalara bölmek için, bölünmüş veri modülünün başka bir örneğini ekleyin ve bu kez, 50-50 bölme için varsayılanı kullanın.

Teknik notlar

Bu bölümde, sık sorulan soruların uygulama ayrıntıları, ipuçları ve yanıtları yer almaktadır.

Uygulama ayrıntıları

  • Bu modül, veri kümesinin en az iki satır içermesini gerektirir; Aksi takdirde bir hata oluşur.

  • İstenen sayıda satır belirtmek için seçeneğini kullanırsanız, belirtilen sayı pozitif bir tamsayı olmalıdır ve sayının veri kümesindeki toplam satır sayısından küçük olması gerekir.

  • Tüm yüzde değerleri 0 ve 1 aralığı içinde olmalıdır.

  • Bir sayı veya yüzde değerini bir kayan noktalı sayı olarak belirtirseniz ve yüzde simgesini (%) kullanmazsanız, sayı orantılı bir değer olarak yorumlanır.

Ayrıntılı örnekleme için ek gereksinimler

  • Konuşmasıyla Strata sütunu yalnızca nominal veya kategorik veri içerebilir. Sütun sürekli sayısal veriler içeriyorsa, bir hata iletisi tetiklenir.

  • Çok fazla benzersiz değeri olan bir sütun, Stratification için iyi bir aday değildir. Daha önce bazı kategorileri daraltmayı veya gruplandırma değerlerini deneyebilirsiniz.

Ayrıca bkz.

Örnek ve bölünmüşbölüm ve örnek