Gelişmiş makine öğrenmesi için verileri hazırlama

Verileri ön işleme ve temizleme, bir veri kümesinin model eğitimi için kullanılabilmesi için önce gerçekleştirilmesi gereken önemli görevlerdir. Ham veriler genellikle gürültülü ve güvenilir değildir ve eksik değerler olabilir. Modelleme için bu tür verilerin kullanılması yanıltıcı sonuçlara neden olabilir. Bu görevler Team Veri Bilimi Process'in (TDSP) bir parçasıdır ve genellikle gerekli ön işlemeyi bulmak ve planlamak için kullanılan bir veri kümesinin ilk keşfini izler. Daha fazla bilgi için Ekip Veri Bilimi Süreci nedir?.

Veri araştırma görevi gibi ön işleme ve temizleme görevleri SQL veya Hive veya Azure Machine Learning stüdyosu (klasik) gibi çok çeşitli ortamlarda gerçekleştirilebilir. R veya Python gibi çeşitli araçları ve dilleri de kullanabilirsiniz. Verilerinizin nerede depolandığı ve biçiminin bu kararları nasıl etkilediği. TDSP doğası gereği yinelemeli olduğundan, bu görevler sürecin iş akışındaki çeşitli adımlarda gerçekleşebilir.

Bu makalede, verileri Azure Machine Learning stüdyosu (klasik) içine almadan önce veya aldıktan sonra gerçekleştirilebilecek çeşitli veri işleme kavramları ve görevleri tanıtılacaktır.

Azure Machine Learning stüdyosu (klasik) içinde yapılan veri keşfi ve ön işleme örneği için bkz. Verileri önceden işleme.

Neden verileri ön işleme ve temizleme?

Gerçek dünya verileri çeşitli kaynaklardan ve işlemlerden toplanır ve veri kümesinin kalitesini tehlikeye atabilecek düzensizlikler veya bozuk veriler içerebilir. Ortaya çıkan tipik veri kalitesi sorunları şunlardır:

  • Eksik veriler: Eksik öznitelikler veya eksik değerler içeriyor
  • Gürültülü veriler: Hatalı kayıtlar veya aykırı değerler içerir
  • Tutarsız veriler: Çakışan kayıtlar veya tutarsızlıklar içerir

Kalite verileri, kalite tahmine dayalı modeller için önkoşuldur. Verilerin çöpe atılmasını önlemek , veri kalitesini artırmak ve dolayısıyla performansı modellemek için, veri sorunlarını erken tespit etmek için bir veri durumu ekranı yürütmek zorunlu olur. İlgili veri işleme ve temizleme adımlarına karar vermeniz gerekir.

Kullanılan bazı tipik veri durumu ekranları nelerdir?

Aşağıdakileri denetleyerek verilerin genel kalitesini de kontrol edebilirsiniz:

  • Kayıt sayısı.
  • Özniteliklerin (veya özelliklerin) sayısı.
  • Nominal, sıralı veya sürekli gibi öznitelik veri türleri.
  • Eksik değerlerin sayısı.
  • İyi biçimlendirilmiş veriler için.
    • Veriler TSV veya CSV biçimindeyse sütun ayırıcılarının ve çizgi ayırıcılarının sütunları ve çizgileri doğru ayırıp ayırmadığını denetleyin.
    • Veriler HTML veya XML biçimindeyse, verilerin ilgili standartlarına göre iyi biçimlendirilmiş olup olmadığını denetleyin.
    • Ayrıştırma, yarı yapılandırılmış veya yapılandırılmamış verilerden yapılandırılmış bilgileri ayıklamak için de gerekli olabilir.
  • Tutarsız veri kayıtları. Değer aralığına izin verildiğinden denetleyin. Örneğin, veriler öğrenci not noktası ortalamaları (GPA) içeriyorsa, GÇA'ların belirlenen aralıkta olup olmadığını (örneğin 0-4) denetleyin.

Verilerle ilgili sorunlar bulduğunuzda, eksik değerleri temizleme, veri normalleştirme, ayrıklaştırma, veri hizalamayı etkileyebilecek ekli karakterleri kaldırmak veya değiştirmek için metin işleme, ortak alanlardaki karışık veri türleri ve diğerleri gibi işleme adımlarını gerçekleştirin.

Azure Machine Learning iyi biçimlendirilmiş tablosal verileri tüketir. Veriler zaten tablo biçimindeyse, veri ön işlemesini doğrudan Azure Machine Learning stüdyosu (klasik) ile gerçekleştirebilirsiniz. Veriler tablo biçiminde değilse , örneğin XML biçimindeyse, verileri tablosal forma dönüştürmek için ayrıştırmanız gerekebilir.

Veri ön işlemedeki önemli görevlerden bazıları nelerdir?

  • Veri temizleme: Eksik değerleri doldurun, gürültülü verileri ve aykırı değerleri algılayın ve kaldırın.
  • Veri dönüştürme: Boyutları ve gürültüyü azaltmak için verileri normalleştirin.
  • Veri azaltma: Daha kolay veri işleme için örnek veri kayıtları veya öznitelikleri.
  • Veri ayırma: Belirli makine öğrenmesi yöntemleriyle kullanım kolaylığı için sürekli öznitelikleri kategorik özniteliklere dönüştürün.
  • Metin temizleme: Verilerin yanlış hizalanmasıyla sonuçlanabilecek ekli karakterleri kaldırın. Örneğin, sekmeyle ayrılmış bir veri dosyasına eklenmiş sekmeler veya kayıtları kesen eklenmiş yeni satırlar olabilir.

Aşağıdaki bölümlerde bu veri işleme adımlarından bazıları ayrıntılı olarak anlatılacaktır.

Eksik değerlerle nasıl başa çıkılır?

Eksik değerlerle başa çıkmak için önce eksik değerlerin nedenini belirleyin. Tipik eksik değer işleme yöntemleri şunlardır:

  • Silme: Eksik değerleri olan kayıtları kaldırın.
  • Sahte değiştirme: Eksik değerleri, kategorik değerler için bilinmiyor veya sayısal değerler için 0 gibi bir işlev dışı değerle değiştirin.
  • Ortalama değiştirme: Eksik veriler sayısalsa, eksik değerleri ortalamayla değiştirin.
  • Sık değiştirme: Eksik veriler kategorikse, eksik değerleri en sık kullanılan öğeyle değiştirin.
  • Regresyon değiştirme: Eksik değerleri regresyon değerleriyle değiştirmek için bir regresyon yöntemi kullanın.

Verileri normalleştirme

Veri normalleştirme, sayısal değerleri belirtilen bir aralığa yeniden ölçekler. Popüler veri normalleştirme yöntemleri şunlardır:

  • En düşük normalleştirme: Verileri doğrusal olarak 0 ile 1 arasında bir aralığa dönüştürün; burada en düşük değer 0'a ölçeklendirilir ve maksimum değer 1'e ölçeklendirilir.
  • Z puanı normalleştirmesi: Ortalama ve standart sapmaya göre verileri ölçeklendirin. Veriler ile ortalama arasındaki farkı standart sapmaya bölün.
  • Ondalık ölçeklendirme: Öznitelik değerinin ondalık noktasını taşıyarak verileri ölçeklendirin.

Veriler nasıl ayrıklaştırılır?

Veriler, sürekli değerler nominal özniteliklere veya aralıklara dönüştürülerek ayrık hale getirilebilir. Aşağıdaki yöntemleri kullanabilirsiniz:

  • Eşit genişlikli bölme: Özniteliğin tüm olası değerlerinin aralığını aynı boyuttaki N gruplarına bölün ve bölme numarasıyla bir bölmeye giren değerleri atayın.
  • Eşit yükseklikli bölme: Bir özniteliğin tüm olası değerlerinin aralığını, her biri aynı sayıda örneği içeren N gruplarına bölün. Ardından, bölme numarasıyla bir bölmeye giren değerleri atayın.

Veriler nasıl azaltılır?

Daha kolay veri işleme için veri boyutunu küçültmek için çeşitli yöntemler vardır. Veri boyutuna ve etki alanına bağlı olarak aşağıdaki yöntemleri uygulayabilirsiniz:

  • Kayıt örnekleme: Veri kayıtlarını örnekleyip verilerden yalnızca temsili alt kümeyi seçin.
  • Öznitelik örnekleme: Verilerden en önemli özniteliklerin yalnızca bir alt kümesini seçin.
  • Toplama: Verileri gruplara bölün ve her grubun numaralarını depolayın. Örneğin, bir restoran zincirinin son 20 yıldaki günlük gelir sayıları, verilerin boyutunu azaltmak için aylık gelire toplanabilir.

Metin verileri nasıl temizlir?

Tablosal verilerdeki metin alanları, sütun hizalamasını veya kayıt sınırlarını etkileyen karakterler içerebilir. Örneğin, sekmeyle ayrılmış bir dosyadaki katıştırılmış sekmeler sütunda yanlış hizaya neden olur ve eklenen yeni satır karakterleri kayıt satırlarını kırar. Metin yazarken veya okurken, bilgi kaybını önlemek, yanlışlıkla okunamayan karakterler (null gibi) veya metin ayrıştırmasını olumsuz etkileyen metin kodlamasını düzgün bir şekilde işleyin. Verileri dikkatlice ayrıştırıp düzenlemeniz gerekebilir. Düzgün hizalama sağlamak ve yapılandırılmamış veya yarı yapılandırılmış verilerden yapılandırılmış verileri ayıklamak için metin alanlarını temizleyebilirsiniz.

Veri keşfi , verilere erken bir görünüm sağlar. Bu adım sırasında birçok veri sorununu ortaya çıkartabilir ve bu sorunları gidermek için ilgili yöntemleri uygulayabilirsiniz. Sorunun kaynağının ne olduğu ve sorunun nasıl ortaya çıkarıldığı gibi sorular sormak önemlidir. Bu işlem, bunları çözmek için izlenmesi gereken veri işleme adımlarına karar vermenize de yardımcı olur. Veri işleme çalışmalarını önceliklendirmek için son kullanım örneklerini ve kişilikleri belirleyebilirsiniz.

Başvurular

Veri Madenciliği: Kavramlar ve Teknikler, Üçüncü Sürüm, Morgan Kaufmann, 2011, Jiawei Han, Micheline Kamber ve Jian Pei

Katkıda Bulunanlar

Bu makale Microsoft tarafından yönetilir. Başlangıçta aşağıdaki katkıda bulunanlar tarafından yazılmıştır.

Asıl yazar:

Nonpublic LinkedIn profillerini görmek için LinkedIn'de oturum açın.

Sonraki adımlar