Team Veri Bilimi Process yaşam döngüsünün modelleme aşaması

Bu makalede, Ekip Veri Bilimi İşleminin (TDSP) modelleme aşamasıyla ilişkili hedefler, görevler ve teslim edilebilir öğeler özetlenmiştir. Bu işlem, ekibinizin veri bilimi projelerinizi yapılandırmak için kullanabileceği önerilen bir yaşam döngüsü sağlar. Yaşam döngüsü, ekibinizin genellikle yinelemeli olarak gerçekleştirdiği ana aşamaları özetler:

  • İş anlayışı
  • Veri edinme ve anlama
  • Modelleme
  • Dağıtım
  • Müşteri kabulü

TDSP yaşam döngüsünün görsel bir gösterimi aşağıdadır:

Diagram that shows the stages of the TDSP lifecycle.

Hedefler

Modelleme aşamasının hedefleri şunlardır:

  • Makine öğrenmesi modeli için en uygun veri özelliklerini belirleme.

  • Hedefi en doğru şekilde tahmin eden bilgilendirici bir makine öğrenmesi modeli oluşturun.

  • Üretim için uygun bir makine öğrenmesi modeli oluşturun.

Görevleri tamamlama

Modelleme aşamasında üç ana görev vardır:

  • Özellik mühendisliği: Model eğitimini kolaylaştırmak için ham verilerden veri özellikleri oluşturun.

  • Model eğitimi: Modellerin başarı ölçümlerini karşılaştırarak soruyu en doğru şekilde yanıtlayan modeli bulun.

  • Model değerlendirmesi: Modelinizin üretim için uygun olup olmadığını belirleyin.

Özellik mühendisliği

Özellik mühendisliği, analizde kullanılan özellikleri oluşturmak için ham değişkenleri dahil etmeyi, toplamayı ve dönüştürmeyi içerir. Modelin nasıl oluşturulduğu hakkında içgörü elde etmek istiyorsanız modelin temel özelliklerini incelemeniz gerekir.

Bu adım, etki alanı uzmanlığının yaratıcı bir bileşimini ve veri araştırma adımından elde edilen içgörüleri gerektirir. Özellik mühendisliği, bilgilendirici değişkenleri bulma ve dahil etme ile aynı zamanda çok fazla ilgisiz değişkenden kaçınmaya çalışan bir dengeleme eylemidir. Bilgilendirici değişkenler sonucunuzu geliştirir. İlişkisiz değişkenler modele gereksiz kirlilik getirir. Puanlama sırasında elde edilen tüm yeni veriler için de bu özellikleri oluşturmanız gerekir. Sonuç olarak, bu özelliklerin oluşturulması yalnızca puanlama sırasında kullanılabilen verilere bağlı olabilir.

Model eğitimi

Yanıtlamaya çalıştığınız sorunun türüne bağlı olarak kullanabileceğiniz birçok modelleme algoritması vardır. Önceden oluşturulmuş bir algoritma seçme konusunda rehberlik için bkz . Azure Machine Learning tasarımcısı için Machine Learning algoritması bilgi sayfası. Diğer algoritmalar R veya Python'daki açık kaynak paketler aracılığıyla kullanılabilir. Bu makale Azure Machine Learning'e odaklansa da, sağladığı rehberlik birçok makine öğrenmesi projesi için yararlıdır.

Model eğitimi süreci aşağıdaki adımları içerir:

  • Modelleme için giriş verilerini bir eğitim veri kümesine ve test veri kümesine rastgele bölün.

  • Eğitim veri kümesini kullanarak modelleri oluşturun.

  • Eğitimi ve test veri kümesini değerlendirin . Bir dizi rakip makine öğrenmesi algoritması kullanın. İlgili soruyu geçerli verilerle yanıtlamaya yönelik çeşitli ilişkili ayarlama parametrelerini (parametre süpürmeleri olarak bilinir) kullanın.

  • Alternatif yöntemler arasındaki başarı ölçümlerini karşılaştırarak soruyu yanıtlamak için en iyi çözümü belirleyin.

Daha fazla bilgi için bkz . Machine Learning ile modelleri eğitma.

Not

Sızıntıyı önleme: Bir modelin veya makine öğrenmesi algoritmasının gerçek anlamda iyi tahminlerde bulunmasını sağlayan eğitim veri kümesinin dışından veriler eklerseniz veri sızıntısına neden olabilirsiniz. Sızıntı, veri bilimcilerinin doğru olamayacak kadar iyi görünen tahmine dayalı sonuçlar elde ettiğinde gergin olmasının yaygın bir nedenidir. Bu bağımlılıkları algılamak zor olabilir. Sızıntıyı önlemek için genellikle analiz veri kümesi oluşturma, model oluşturma ve sonuçların doğruluğunu değerlendirme arasında yineleme yapılması gerekir.

Modeli değerlendirme

Modeli eğittiğinizde ekibinizdeki bir veri bilimcisi model değerlendirmesine odaklanır.

  • Bir belirleme yapın: Modelin üretim için yeterli performans gösterip göstermediğini değerlendirin. Sorulacak bazı önemli sorular şunlardır:

    • Model, test verilerine göre soruyu yeterli güvenle yanıtlar mı?

    • Alternatif yaklaşımlar denemeli misiniz?

    • Daha fazla veri toplamalı, daha fazla özellik mühendisliği yapmalı veya diğer algoritmalarla deneme yapmalı mısınız?

  • Modeli yorumlama: Aşağıdaki görevleri gerçekleştirmek için Machine Learning Python SDK'sını kullanın:

    • Kişisel makinenizdeki model davranışının tamamını veya bireysel tahminleri yerel olarak açıklayın.

    • Mühendislik özellikleri için yorumlanabilirlik tekniklerini etkinleştirin.

    • Azure'da modelin tamamına ve tek tek tahminlere ilişkin davranışı açıklama.

    • Machine Learning çalıştırma geçmişine açıklamaları yükleyin.

    • Hem Jupyter not defterinde hem de Machine Learning çalışma alanında model açıklamalarınızla etkileşime geçmek için görselleştirme panosu kullanın.

    • Çıkarım sırasında açıklamaları gözlemlemek için modelinizle birlikte bir puanlama açıklaması dağıtın.

  • Eşitliği değerlendirme: Aşağıdaki görevleri gerçekleştirmek için Machine Learning ile fairlearn açık kaynak Python paketini kullanın:

    • Model tahminlerinizin eşitliğini değerlendirin. Bu süreç, ekibinizin makine öğrenmesindeki eşitlik hakkında daha fazla bilgi edinmelerine yardımcı olur.

    • Machine Learning studio'ya ve Machine Learning studio'dan eşitlik değerlendirmesi içgörülerini karşıya yükleyin, listeleyin ve indirin.

    • Modellerinizin eşitlik içgörüleriyle etkileşime geçmek için Machine Learning studio'daki eşitlik değerlendirmesi panosuna bakın.

MLflow ile tümleştirme

Machine Learning, modelleme yaşam döngüsünü desteklemek için MLflow ile tümleşir. Denemeler, proje dağıtımı, model yönetimi ve model kayıt defteri için MLflow izlemesini kullanır. Bu tümleştirme sorunsuz ve verimli bir makine öğrenmesi iş akışı sağlar. Machine Learning'deki aşağıdaki özellikler bu modelleme yaşam döngüsü öğesini desteklemeye yardımcı olur:

  • Denemeleri izleme: MLflow'un temel işlevselliği, çeşitli denemeleri, parametreleri, ölçümleri ve yapıtları izlemek için modelleme aşamasında yaygın olarak kullanılır.

  • Projeleri dağıtma: MLflow Projeleri ile kod paketleme, tutarlı çalıştırmalar ve yinelemeli model geliştirme sırasında çok önemli olan ekip üyeleri arasında kolay paylaşım sağlar.

  • Modelleri yönetme: Farklı modeller oluşturulduğu, değerlendirildiğinde ve iyileştirildiğinden modellerin yönetilmesi ve sürüm oluşturması bu aşamada kritik önem taşır.

  • Modelleri kaydetme: Model kayıt defteri, modelleri yaşam döngüleri boyunca sürüm oluşturma ve yönetme için kullanılır.

Hakemli literatür

Araştırmacılar, TDSP hakkında hakemli literatürde çalışmalar yayımlar. Alıntılar , modelleme yaşam döngüsü aşaması da dahil olmak üzere TDSP'ye yönelik diğer uygulamaları veya benzer fikirleri araştırma fırsatı sunar.

Katkıda Bulunanlar

Bu makale Microsoft tarafından yönetilir. Başlangıçta aşağıdaki katkıda bulunanlar tarafından yazılmıştır.

Asıl yazar:

Genel olmayan LinkedIn profillerini görmek için LinkedIn'de oturum açın.

Bu makalelerde TDSP yaşam döngüsünün diğer aşamaları açıklanmaktadır: