Eksik Verileri Temizle bileşeni

Bu makalede Azure Machine Learning tasarımcısındaki bir bileşen açıklanmaktadır.

Eksik değerleri kaldırmak, değiştirmek veya çıkarmak için bu bileşeni kullanın.

Veri bilimciler genellikle eksik değerler için verileri denetler ve ardından verileri düzeltmek veya yeni değerler eklemek için çeşitli işlemler gerçekleştirir. Bu tür temizleme işlemlerinin amacı, modeli eğitirken ortaya çıkabilecek eksik verilerin neden olduğu sorunları önlemektir.

Bu bileşen eksik değerleri "temizlemek" için aşağıdakiler dahil olmak üzere birden çok işlem türünü destekler:

  • Eksik değerleri yer tutucu, ortalama veya başka bir değerle değiştirme
  • Eksik değerleri olan satırları ve sütunları tamamen kaldırma
  • İstatistiksel yöntemlere göre değerleri çıkarma

Bu bileşenin kullanılması kaynak veri kümenizi değiştirmez. Bunun yerine, çalışma alanınızda sonraki iş akışında kullanabileceğiniz yeni bir veri kümesi oluşturur. Ayrıca yeni, temizlenmiş veri kümesini yeniden kullanmak üzere kaydedebilirsiniz.

Bu bileşen ayrıca eksik değerleri temizlemek için kullanılan dönüştürmenin tanımını da verir. Dönüşümü Uygula bileşenini kullanarak bu dönüşümü aynı şemaya sahip diğer veri kümelerinde yeniden kullanabilirsiniz .

Eksik Verileri Temizle'yi kullanma

Bu bileşen bir temizleme işlemi tanımlamanızı sağlar. Temizleme işlemini daha sonra yeni verilere uygulayabilmek için de kaydedebilirsiniz. Temizleme işleminin nasıl oluşturulup kaydedildiğini gösteren aşağıdaki bölümlere bakın:

Önemli

Eksik değerleri işlemek için kullandığınız temizleme yöntemi sonuçlarınızı önemli ölçüde etkileyebilir. Farklı yöntemlerle denemeler kullanmanızı öneririz. Hem belirli bir yöntemin kullanılmasının gerekçesini hem de sonuçların kalitesini göz önünde bulundurun.

Eksik değerleri değiştirme

Eksik Verileri Temizle bileşenini bir veri kümesine her uyguladığınızda, seçtiğiniz tüm sütunlara aynı temizleme işlemi uygulanır. Bu nedenle, farklı yöntemler kullanarak farklı sütunları temizlemeniz gerekiyorsa bileşenin ayrı örneklerini kullanın.

  1. Eksik Verileri Temizle bileşenini işlem hattınıza ekleyin ve eksik değerler içeren veri kümesini bağlayın.

  2. Sütunların temizlenmesi için, değiştirmek istediğiniz eksik değerleri içeren sütunları seçin. Birden çok sütun seçebilirsiniz, ancak tüm seçili sütunlarda aynı değiştirme yöntemini kullanmanız gerekir. Bu nedenle, genellikle dize sütunlarını ve sayısal sütunları ayrı ayrı temizlemeniz gerekir.

    Örneğin, tüm sayısal sütunlarda eksik değerleri denetlemek için:

    1. Eksik Verileri Temizle bileşenini seçin ve bileşenin sağ panelindeki Düzenle sütununa tıklayın.

    2. Ekle için açılan listeden Sütun türleri'ni ve ardından Sayısal'ı seçin.

    Seçtiğiniz tüm temizleme veya değiştirme yöntemleri, seçimdeki tüm sütunlar için geçerli olmalıdır. Herhangi bir sütundaki veriler belirtilen işlemle uyumsuzsa, bileşen bir hata döndürür ve işlem hattını durdurur.

  3. En düşük eksik değer oranı için, işlemin gerçekleştirilmesi için gereken en az eksik değer sayısını belirtin.

    Bu seçeneği, veri kümesinde temizleme işleminin gerçekleştirildiği koşulları tanımlamak için Eksik değer oranı üst sınırı ile birlikte kullanırsınız. Eksik değerler çok fazla veya çok az satır varsa, işlem gerçekleştirilemez.

    Girdiğiniz sayı, eksik değerlerin sütundaki tüm değerlere oranını temsil eder. Varsayılan olarak, Minimum eksik değer oranı özelliği 0 olarak ayarlanır. Bu, eksik değerlerin yalnızca bir eksik değer olsa bile temizlendiğini gösterir.

    Uyarı

    Belirtilen işlemin uygulanabilmesi için bu koşulun her sütun tarafından karşılanması gerekir. Örneğin, üç sütun seçtiğinizi ve eksik değerlerin en düşük oranını 0,2 (%20) olarak ayarladığınızı, ancak yalnızca bir sütunda aslında %20 eksik değerlerin olduğunu varsayalım. Bu durumda temizleme işlemi yalnızca %20'nin üzerinde eksik değere sahip sütuna uygulanır. Bu nedenle, diğer sütunlar değiştirilmez.

    Eksik değerlerin değiştirilip değiştirilmediğine dair herhangi bir şüpheniz varsa Eksik değer göstergesi oluştur sütununu seçin. Her sütunun minimum ve maksimum aralıklar için belirtilen ölçütleri karşılayıp karşılamadığını belirtmek için veri kümesine bir sütun eklenir.

  4. Eksik değer oranı üst sınırı için, gerçekleştirilecek işlem için mevcut olabilecek en fazla eksik değer sayısını belirtin.

    Örneğin, eksik değer değiştirme işlemini yalnızca satırların %30'u veya daha azı eksik değerler içeriyorsa gerçekleştirmek isteyebilirsiniz, ancak satırların %30'undan fazlası eksik değerlere sahipse değerleri olduğu gibi bırakın.

    Sayıyı, eksik değerlerin sütundaki tüm değerlere oranı olarak tanımlarsınız. Varsayılan olarak, Eksik değer oranı üst sınırı 1 olarak ayarlanır. Bu, sütundaki değerlerin %100'ünün eksik olması durumunda bile eksik değerlerin temizlendiğini gösterir.

  5. Temizleme Modu için eksik değerleri değiştirmek veya kaldırmak için aşağıdaki seçeneklerden birini belirleyin:

    • Özel değiştirme değeri: Tüm eksik değerlere uygulanan bir yer tutucu değeri (0 veya NA gibi) belirtmek için bu seçeneği kullanın. Değiştirme olarak belirttiğiniz değerin sütunun veri türüyle uyumlu olması gerekir.

    • değerini ortalamayla değiştirin: Sütun ortalamasını hesaplar ve sütundaki eksik her değer için ortalamayı değiştirme değeri olarak kullanır.

      Yalnızca Tamsayı, Çift veya Boole veri türlerine sahip sütunlar için geçerlidir.

    • yerine ortanca değerini yazın: Sütun ortanca değerini hesaplar ve sütundaki eksik değerlerin yerine ortanca değeri kullanır.

      Yalnızca Tamsayı veya Çift veri türlerine sahip sütunlar için geçerlidir.

    • moduyla değiştir: Sütunun modunu hesaplar ve sütundaki eksik her değerin değiştirme değeri olarak modu kullanır.

      Tamsayı, Çift, Boole veya Kategorik veri türlerine sahip sütunlar için geçerlidir.

    • Satırın tamamını kaldırma: Veri kümesinde bir veya daha fazla eksik değeri olan tüm satırları tamamen kaldırır. Bu, eksik değerin rastgele eksik olduğu kabul edilebiliyorsa yararlıdır.

    • Sütunun tamamını kaldırma: Veri kümesinde bir veya daha fazla eksik değeri olan tüm sütunları tamamen kaldırır.

  6. Değiştirme değeri, Özel değiştirme değeri seçeneğini belirlediyseniz kullanılabilir. Sütundaki tüm eksik değerler için değiştirme değeri olarak kullanılacak yeni bir değer yazın.

    Bu seçeneği yalnızca Tamsayı, Çift, Boole veya Dize içeren sütunlarda kullanabileceğinizi unutmayın.

  7. Eksik değer göstergesi sütunu oluştur: Sütundaki değerlerin eksik değer temizleme ölçütlerine uygun olup olmadığını gösteren bir gösterge elde etmek istiyorsanız bu seçeneği belirleyin. Bu seçenek özellikle yeni bir temizleme işlemi ayarlarken ve tasarlandığı gibi çalıştığından emin olmak istediğinizde kullanışlıdır.

  8. İşlem hattını gönderin.

Sonuçlar

Bileşen iki çıkış döndürür:

  • Temizlenen veri kümesi: Seçili sütunlardan oluşan bir veri kümesi; belirtilen şekilde işlenen eksik değerler ve bu seçeneği belirttiyseniz bir gösterge sütunu.

    Temizleme için seçilmeyen sütunlar da "geçirilir".

  • Temizleme dönüşümü: Temizleme için kullanılan ve çalışma alanınıza kaydedilebilen ve daha sonra yeni verilere uygulanabilen bir veri dönüşümü.

Yeni verilere kaydedilmiş temizleme işlemi uygulama

Temizleme işlemlerini sık sık yinelemeniz gerekiyorsa, veri temizleme tarifinizi dönüşüm olarak kaydetmenizi ve aynı veri kümesiyle yeniden kullanmanızı öneririz. Temizleme dönüştürmesini kaydetmek özellikle aynı şemaya sahip verileri sık sık yeniden içeri aktarmanız ve temizlemeniz gerekiyorsa yararlıdır.

  1. DönüştürmeYi Uygula bileşenini işlem hattınıza ekleyin.

  2. Temizlemek istediğiniz veri kümesini ekleyin ve veri kümesini sağ giriş bağlantı noktasına bağlayın.

  3. Tasarımcının sol tarafındaki bölmede Dönüşümler grubunu genişletin. Kaydedilen dönüşümü bulun ve işlem hattına sürükleyin.

  4. Kaydedilen dönüştürmeyi Dönüşümü Uygula'nın sol giriş bağlantı noktasına bağlayın.

    Kaydedilmiş bir dönüştürme uyguladığınızda, dönüşümün uygulandığı sütunları seçemezsiniz. Bunun nedeni dönüştürmenin zaten tanımlanmış olması ve özgün işlemde belirtilen sütunlara otomatik olarak geçerli olmasıdır.

    Ancak, sayısal sütunların bir alt kümesinde bir dönüşüm oluşturduğunuzu varsayalım. Eksik değerler yalnızca eşleşen sayısal sütunlarda değiştirildiğinden, bu dönüşümü hata oluşturmadan karma sütun türlerinin veri kümesine uygulayabilirsiniz.

  5. İşlem hattını gönderin.

Sonraki adımlar

Bkz. Azure Machine Learning'de kullanılabilen bileşenler kümesi .