Bölümleme ve Örnek bileşen

Bu makalede Azure Machine Learning tasarımcısındaki bir bileşen açıklanmaktadır.

Bir veri kümesinde örnekleme yapmak veya veri kümenizden bölümler oluşturmak için Bölüm ve Örnek bileşenini kullanın.

Örnekleme, aynı değer oranını korurken veri kümesinin boyutunu azaltmanıza olanak sağladığından makine öğrenmesinde önemli bir araçtır. Bu bileşen, makine öğrenmesinde önemli olan çeşitli ilgili görevleri destekler:

  • Verilerinizi aynı boyuttaki birden çok alt bölüme bölme.

    Bölümleri çapraz doğrulama için veya olayları rastgele gruplara atamak için kullanabilirsiniz.

  • Verileri gruplara ayırma ve ardından belirli bir gruptaki verilerle çalışma.

    Servis taleplerini farklı gruplara rastgele atadıktan sonra, yalnızca bir grupla ilişkili özellikleri değiştirmeniz gerekebilir.

  • Örnekleme.

    Veri yüzdesini ayıklayabilir, rastgele örnekleme uygulayabilir veya veri kümesini dengelemek ve değerleri üzerinde katmanlı örnekleme gerçekleştirmek için kullanılacak bir sütun seçebilirsiniz.

  • Test için daha küçük bir veri kümesi oluşturma.

    Çok fazla veriniz varsa, işlem hattını ayarlarken yalnızca ilk n satırı kullanmak ve modelinizi oluştururken tam veri kümesini kullanmaya geçmek isteyebilirsiniz. Geliştirmede kullanmak üzere daha küçük bir veri kümesi oluşturmak için örneklemeyi de kullanabilirsiniz.

Bileşeni yapılandırma

Bu bileşen, verilerinizi bölümlere bölmek veya örneklemek için aşağıdaki yöntemleri destekler. Önce yöntemini seçin ve ardından yöntemin gerektirdiği ek seçenekleri ayarlayın.

  • Head
  • Örnekleme
  • Katlamalara atama
  • Katlama seç

Bir veri kümesinden TOP N satır alma

Yalnızca ilk n satırı almak için bu modu kullanın. Bu seçenek, işlem hattını az sayıda satırda test etmek istiyorsanız ve verilerin herhangi bir şekilde dengelenmiş veya örneklenmiş olması gerekmiyorsa kullanışlıdır.

  1. Arabiriminde işlem hattınıza Partition ve Sample bileşenini ekleyin ve veri kümesini bağlayın.

  2. Bölüm veya örnek modu: Bu seçeneği Baş olarak ayarlayın.

  3. Seçilebilen satır sayısı: Döndürülecek satır sayısını girin.

    Satır sayısı negatif olmayan bir tamsayı olmalıdır. Seçili satırların sayısı veri kümesindeki satır sayısından büyükse, veri kümesinin tamamı döndürülür.

  4. İşlem hattını gönderin.

Bileşen, yalnızca belirtilen sayıda satırı içeren tek bir veri kümesi verir. Satırlar her zaman veri kümesinin en üstünden okunur.

Veri örneği oluşturma

Bu seçenek basit rastgele örneklemeyi veya katmanlı rastgele örneklemeyi destekler. Test için daha küçük bir temsili örnek veri kümesi oluşturmak istiyorsanız kullanışlıdır.

  1. İşlem hattınıza Partition ve Sample bileşenini ekleyin ve veri kümesini bağlayın.

  2. Bölüm veya örnek modu: Bu seçeneği Örnekleme olarak ayarlayın.

  3. Örnekleme oranı: 0 ile 1 arasında bir değer girin. bu değer, çıkış veri kümesine eklenmesi gereken kaynak veri kümesindeki satırların yüzdesini belirtir.

    Örneğin, özgün veri kümesinin yalnızca yarısını istiyorsanız örnekleme oranının yüzde 50 olması gerektiğini belirtmek için girin 0.5 .

    Giriş veri kümesinin satırları karıştırılır ve belirtilen orana göre çıkış veri kümesine seçmeli olarak yerleştirilir.

  4. Örnekleme için rastgele tohum: İsteğe bağlı olarak, tohum değeri olarak kullanılacak bir tamsayı girin.

    Satırların her seferinde aynı şekilde bölünmesini istiyorsanız bu seçenek önemlidir. Varsayılan değer 0'dır, yani sistem saati temelinde bir başlangıç tohumu oluşturulur. Bu değer, işlem hattını her çalıştırdığınızda biraz farklı sonuçlara yol açabilir.

  5. Örnekleme için katmanlı bölme: Veri kümesindeki satırların örneklemeden önce bir anahtar sütuna eşit olarak bölünmesi önemliyse bu seçeneği belirleyin.

    Örnekleme için Katmanlama anahtar sütunu için veri kümesini bölerken kullanılacak tek bir katman sütunu seçin. Veri kümesindeki satırlar aşağıdaki gibi bölünür:

    1. Tüm giriş satırları, belirtilen katman sütunundaki değerlere göre gruplandırılır (katmanlanır).

    2. Satırlar her grup içinde karıştırılır.

    3. Her grup, belirtilen oranı karşılamak için çıkış veri kümesine seçmeli olarak eklenir.

  6. İşlem hattını gönderin.

    Bu seçenekle bileşen, verilerin temsili örneklemesini içeren tek bir veri kümesi çıkışı oluşturur. Veri kümesinin kalan örneklenmemiş bölümü çıkış değildir.

Verileri bölümlere bölme

Veri kümesini verilerin alt kümelerine bölmek istediğinizde bu seçeneği kullanın. Bu seçenek, çapraz doğrulama için özel bir katlama sayısı oluşturmak veya satırları birkaç gruba bölmek istediğinizde de kullanışlıdır.

  1. İşlem hattınıza Partition ve Sample bileşenini ekleyin ve veri kümesini bağlayın.

  2. Bölüm veya örnek modu içinKatlamalara Ata'yı seçin.

  3. Bölümlemede değiştirme özelliğini kullanın: Örneklenen satırın olası yeniden kullanım için satır havuzuna geri konulmasını istiyorsanız bu seçeneği belirleyin. Sonuç olarak, aynı satır birkaç kata atanabilir.

    Değiştirme (varsayılan seçenek) kullanmazsanız, örneklenen satır olası yeniden kullanım için satır havuzuna geri yerleştirilmemiştir. Sonuç olarak, her satır yalnızca bir kata atanabilir.

  4. Rastgele bölme: Satırların katlamalara rastgele atanmasını istiyorsanız bu seçeneği belirleyin.

    Bu seçeneği belirlemezseniz, satırlar hepsini bir kez deneme yöntemi aracılığıyla katlamalara atanır.

  5. Rastgele tohum: İsteğe bağlı olarak, tohum değeri olarak kullanılacak bir tamsayı girin. Satırların her seferinde aynı şekilde bölünmesini istiyorsanız bu seçenek önemlidir. Aksi takdirde, varsayılan 0 değeri rastgele bir başlangıç tohumunun kullanılacağı anlamına gelir.

  6. Bölümleyici yöntemini belirtin: Şu seçenekleri kullanarak verilerin her bölüme nasıl kullanılmasını istediğinizi belirtin:

    • Eşit bölümle: Her bölüme eşit sayıda satır yerleştirmek için bu seçeneği kullanın. Çıkış bölümlerinin sayısını belirtmek için, Eşit olarak bölünecek katlama sayısını belirtin kutusuna bir tamsayı girin.

    • Özelleştirilmiş oranlara sahip bölüm: Her bölümün boyutunu virgülle ayrılmış liste olarak belirtmek için bu seçeneği kullanın.

      Örneğin, üç bölüm oluşturmak istediğinizi varsayalım. İlk bölüm verilerin yüzde 50'sini içerir. Kalan iki bölümün her biri verilerin yüzde 25'ini içerir. Virgülle ayrılmış oran listesi kutusuna şu sayıları girin: .5, .25, .25.

      Tüm bölüm boyutlarının toplamı tam olarak 1'e kadar eklenmelidir.

      1'den küçük sayılar girerseniz, kalan satırları tutmak için fazladan bir bölüm oluşturulur. Örneğin, .2 ve .3 değerlerini girerseniz, tüm satırların kalan yüzde 50'sini tutmak için üçüncü bir bölüm oluşturulur.

      1'den fazla sayı girerseniz, işlem hattını çalıştırdığınızda bir hata oluşur.

  7. Katmanlı bölme: Satırların bölünürken katmanlanmasını istiyorsanız bu seçeneği belirleyin ve ardından katman sütununu seçin.

  8. İşlem hattını gönderin.

    Bu seçenekle, bileşen birden çok veri kümesi çıkışı oluşturur. Veri kümeleri, belirttiğiniz kurallara göre bölümlenir.

Önceden tanımlanmış bir bölümdeki verileri kullanma

Bir veri kümesini birden çok bölüme böldüğünüzde ve artık daha fazla analiz veya işleme için her bölümü sırayla yüklemek istediğinizde bu seçeneği kullanın.

  1. Bölüm ve Örnek bileşenini işlem hattına ekleyin.

  2. Bileşeni önceki bir Bölüm ve Örnek örneğinin çıkışına bağlayın. Bu örnek, birkaç bölüm oluşturmak için Katlamalara Ata seçeneğini kullanmalıdır.

  3. Bölüm veya örnek modu: Katla'ya Tıklayın'ı seçin.

  4. Hangi katlamanın örnekleneceğini belirtin: Dizinini girerek kullanılacak bölümü seçin. Bölüm dizinleri 1 tabanlıdır. Örneğin, veri kümesini üç bölüme bölerseniz bölümler 1, 2 ve 3 dizinlerine sahip olur.

    Geçersiz bir dizin değeri girerseniz tasarım zamanı hatası oluşur: "Hata 0018: Veri kümesi geçersiz veri içeriyor."

    Veri kümesini katlamalara göre gruplandırmaya ek olarak, veri kümesini iki gruba ayırabilirsiniz: hedef katlama ve diğer her şey. Bunu yapmak için, tek katlamanın dizinini girin ve belirtilen katlamadaki veriler dışında her şeyi almak için Seçili katlamanın tamamlayıcısını seç seçeneğini belirleyin.

  5. Birden çok bölümle çalışıyorsanız, her bölümü işlemek için Bölüm ve Örnek bileşeninin daha fazla örneğini eklemeniz gerekir.

    Örneğin, ikinci satırdaki Bölüm ve Örnek bileşeni Katlamalara Ata olarak, üçüncü satırdaki bileşen ise Katlama Seç olarak ayarlanır.

    Bölüm ve örnek

  6. İşlem hattını gönderin.

    Bu seçenekle bileşen, yalnızca o katlama için atanan satırları içeren tek bir veri kümesi oluşturur.

Not

Katlanmış ifadeleri doğrudan görüntüleyemezsiniz. Bunlar yalnızca meta verilerde bulunur.

Sonraki adımlar

Bkz. Azure Machine Learning'de kullanılabilen bileşenler kümesi .