Ekip Veri Bilimi Süreci yaşam döngüsünün veri edinme ve anlama aşaması

Bu makalede, Team Veri Bilimi Process'in (TDSP) veri alma ve anlama aşamasıyla ilişkili hedefler, görevler ve teslim edilebilir öğeler özetlenmiştir. Bu işlem, ekibinizin veri bilimi projelerinizi yapılandırmak için kullanabileceği önerilen bir yaşam döngüsü sağlar. Yaşam döngüsü, ekibinizin genellikle yinelemeli olarak gerçekleştirdiği ana aşamaları özetler:

  • İş anlayışı
  • Veri edinme ve anlama
  • Modelleme
  • Dağıtım
  • Müşteri kabulü

TDSP yaşam döngüsünün görsel bir gösterimi aşağıdadır:

Diagram that shows the stages of the TDSP lifecycle.

Hedefler

Veri edinme ve anlama aşamasının hedefleri şunlardır:

  • Hedef değişkenlerle açıkça ilişkili temiz ve yüksek kaliteli bir veri kümesi oluşturma. Ekibinizin modelleme aşamasına hazır olması için veri kümesini uygun analiz ortamında bulun.

  • Verileri düzenli olarak yenileyen ve puanlayan veri işlem hattının çözüm mimarisini geliştirin.

Görevleri tamamlama

Veri alma ve anlama aşaması üç ana görev içerir:

  • Verileri hedef analiz ortamına alma.

  • Verilerin soruyu yanıtlayabilir olup olmadığını belirlemek için verileri keşfedin.

  • Yeni veya düzenli olarak yenilenen verilerin puanını almak için bir veri işlem hattı ayarlayın.

Verileri alma

Verileri kaynak konumlardan eğitim ve tahminler gibi analiz işlemlerini çalıştırdığınız hedef konumlara taşımak için bir işlem ayarlayın.

Verileri inceleme

Modellerinizi eğitmeden önce, veriler hakkında sağlam bir anlayış geliştirmeniz gerekir. Gerçek dünya veri kümeleri genellikle gürültülü olur, eksik değerlerdir veya başka tutarsızlıklar barındırır. Verilerinizin kalitesini denetlemek ve modellemeye hazır olmadan önce verileri işlemek için bilgi toplamak için veri özetlemeyi ve görselleştirmeyi kullanabilirsiniz. Bu işlem genellikle yinelemeli olur. Verileri temizleme hakkında yönergeler için bkz . Gelişmiş makine öğrenmesi için verileri hazırlama görevleri.

Temizlenen verilerin kalitesinden memnun kaldığınızda, sonraki adım verilerdeki desenleri daha iyi anlamaktır. Bu veri analizi, hedefiniz için uygun bir tahmine dayalı model seçmenize ve geliştirmenize yardımcı olur. Verilerin hedefe ne kadar karşılık olduğunu belirleyin. Ardından, ekibinizin sonraki modelleme adımlarıyla ilerlemek için yeterli veriye sahip olup olmadığına karar verin. Bu işlem genellikle yinelemeli bir işlemdir. Başlangıçta önceki aşamada tanımlanan veri kümesini ayarlamak için daha doğru veya daha ilgili verilere sahip yeni veri kaynakları bulmanız gerekebilir.

Veri işlem hattı ayarlama

Verileri alma ve temizlemeye ek olarak, genellikle devam eden bir öğrenme sürecinin bir parçası olarak yeni verileri puanlama veya verileri düzenli aralıklarla yenilemek için bir işlem ayarlamanız gerekir. Veri puanını almak için bir veri işlem hattı veya iş akışı kullanabilirsiniz. Azure Data Factory kullanan bir işlem hattı öneririz.

Bu aşamada, veri işlem hattının çözüm mimarisini geliştirirsiniz. İşlem hattını, veri bilimi projesinin bir sonraki aşamasına paralel olarak oluşturursunuz. İş gereksinimlerinize ve bu çözümün tümleştirildiği mevcut sistemlerinizin kısıtlamalarına bağlı olarak işlem hattı şu şekilde olabilir:

  • Toplu iş tabanlı
  • Akış veya gerçek zamanlı
  • Hibrit

MLflow ile tümleştirme

Veri anlama aşamasında, MLflow'un deneme izlemesini kullanarak çeşitli veri ön işleme stratejilerini ve keşif veri analizini izleyebilir ve belgeleyebilirsiniz.

Artifacts

Bu aşamada ekibiniz şunları sunar:

  • Veri özetlerini, her öznitelik ve hedef arasındaki ilişkileri, değişken derecelendirmesini ve daha fazlasını içeren bir veri kalitesi raporu .

  • Ekibinizin yeni veriler üzerinde tahmin çalıştırmak için kullandığı veri işlem hattınızın diyagramı veya açıklaması gibi bir çözüm mimarisi. Bu diyagram, modelinizi yeni verilere göre yeniden eğitmek için işlem hattını da içerir. TDSP dizin yapısı şablonunu kullandığınızda, belgeyi proje dizininde depolayın.

  • Denetim noktası kararı. Tam özellikli mühendislik ve model oluşturmaya başlamadan önce, beklenen değerin devam etmek için yeterli olup olmadığını belirlemek için projeyi yeniden değerlendirebilirsiniz. Örneğin, devam etmeye hazır olabilir, daha fazla veri toplamanız gerekebilir veya soruları yanıtlayan verileri bulamazsanız projeyi terk edebilirsiniz.

Hakemli literatür

Araştırmacılar, TDSP hakkında hakemli literatürde çalışmalar yayımlar. Alıntılar , veri edinme ve yaşam döngüsü aşamasını anlama da dahil olmak üzere TDSP'ye yönelik diğer uygulamaları veya benzer fikirleri araştırma fırsatı sunar.

Katkıda Bulunanlar

Bu makale Microsoft tarafından yönetilir. Başlangıçta aşağıdaki katkıda bulunanlar tarafından yazılmıştır.

Asıl yazar:

Genel olmayan LinkedIn profillerini görmek için LinkedIn'de oturum açın.

Bu makalelerde TDSP yaşam döngüsünün diğer aşamaları açıklanmaktadır: