Team Veri Bilimi Process yaşam döngüsünün iş anlama aşaması

Bu makalede, Ekip Veri Bilimi Süreci'nin (TDSP) iş anlama aşamasıyla ilişkili hedefler, görevler ve teslim edilebilir öğeler özetlenmiştir. Bu işlem, ekibinizin veri bilimi projelerinizi yapılandırmak için kullanabileceği önerilen bir yaşam döngüsü sağlar. Yaşam döngüsü, ekibinizin genellikle yinelemeli olarak gerçekleştirdiği ana aşamaları özetler:

  • İş anlayışı
  • Veri edinme ve anlama
  • Modelleme
  • Dağıtım
  • Müşteri kabulü

TDSP yaşam döngüsünün görsel bir gösterimi aşağıdadır:

Diagram that shows the stages of the TDSP lifecycle.

Hedefler

İş anlama aşamasının hedefleri şunlardır:

  • Model hedefleri olarak hizmet veren anahtar değişkenlerini belirtin. Ayrıca, projenin başarısını belirleyen hedeflerin ölçümlerini belirtin.

  • İşletmenin erişimi olan veya alması gereken ilgili veri kaynaklarını belirleyin.

Görevleri tamamlama

İş anlama aşamasının iki ana görevi vardır:

  • Hedefleri tanımlama: İş sorunlarını anlamak ve tanımlamak için müşterinizle ve diğer paydaşlarla birlikte çalışın. Veri bilimi tekniklerinin hedefleyebilecekleri iş hedeflerini tanımlayan soruları formüle edin.

  • Veri kaynaklarını tanımlama: Projenin hedeflerini tanımlayan soruları yanıtlamanıza yardımcı olacak ilgili verileri bulun.

Hedefleri tanımlama

  1. Bu aşamanın temel bir amacı, analizin tahmin etmesi gereken temel iş değişkenlerini belirlemektir. Bu değişkenlere model hedefleri adı verilir ve bunlarla ilişkili ölçümler projenin başarısını belirlemek için kullanılır. Örneğin, hedef bir satış tahmini veya bir siparişin sahte olma olasılığı olabilir.

  2. Proje hedeflerini tanımlamak için ilgili, belirli ve kesin olmayan keskin sorular sorun ve geliştirin. Veri bilimi, bu tür soruları yanıtlamak için adları ve sayıları kullanan bir süreçtir. Genellikle beş tür soruyu yanıtlamak için veri bilimi veya makine öğrenmesi kullanırsınız:

    • Ne kadar veya kaç? (regresyon)
    • Hangi kategori? (sınıflandırma)
    • Hangi grup? (kümeleme)
    • Bu olağan dışı mı? (anomali algılama)
    • Hangi seçenek kullanılmalıdır? (öneri)

    Bu sorulardan hangisini sorabileceğinizi ve yanıtlamanın iş hedeflerinize ulaşmanıza nasıl yardımcı olabileceğini belirleyin.

  3. Proje ekibini tanımlamak için üyelerinin rollerini ve sorumluluklarını belirtin. Daha fazla bilgi keşfederken yinelediğiniz üst düzey bir kilometre taşı planı geliştirin.

  4. Başarı ölçümlerini tanımlamanız gerekir. Örneğin, üç aylık bir projenin sonuna kadar yüzde x doğruluk oranına sahip bir müşteri değişim sıklığı tahminini karşılamak isteyebilirsiniz. Bu verilerle değişim oranını azaltmak için müşteri promosyonları sunabilirsiniz. Ölçümler SMART olmalıdır:

    • Sözel
    • Measurable
    • Birchievable
    • Relevant
    • Time-bound

Veri kaynaklarını belirleme

Sorularınıza verilen yanıtların bilinen örneklerini içeren veri kaynaklarını belirleyin. Aşağıdaki verileri arayın:

  • Soruyla ilgili veriler. Hedefle ilgili ölçüleriniz ve hedefle ilgili özellikleriniz var mı?
  • Model hedefinizin ve ilgilendiğiniz özelliklerin doğru ölçüsü olan veriler.

Örneğin, mevcut bir sistemde bir sorunu gidermek ve proje hedefine ulaşmak için gereken veriler olmayabilir. Bu durumda, dış veri kaynaklarını bulmanız veya yeni veri toplamak için sistemlerinizi güncelleştirmeniz gerekebilir.

MLflow ile tümleştirme

İş anlama aşamasında ekibiniz MLflow araçlarını kullanmaz, ancak MLflow'un belgelerinden ve deneme izleme özelliklerinden dolaylı olarak yararlanabilir. Bu özellikler, projenin iş hedefleriyle uyumlu hale getirmesine yardımcı olacak içgörüler ve geçmiş bağlamı sağlayabilir.

Artifacts

Bu aşamada ekibiniz şunları sunar:

  • Bir kiralama belgesi. Kiralama belgesi canlı bir belgedir. Yeni keşifler yaparken ve iş gereksinimleri değiştikçe belgeyi proje boyunca güncelleştirirsiniz. Anahtar, bu belgeyi yinelemektir. Bulma işleminde ilerledikçe daha fazla ayrıntı ekleyin. Değişiklikleri ve bunların nedenlerini müşteriyi ve diğer paydaşları bilgilendirin.

  • Veri kaynakları. Veri kaynağı yönetimini işlemek için Azure Machine Learning'i kullanabilirsiniz. MLflow ile tümleştirildiği için bu Azure hizmetini etkin ve özellikle büyük projeler için öneririz.

  • Veri sözlükleri. Bu belge, istemcinin sağladığı verilerin açıklamalarını sağlar. Bu açıklamalar, şema (varsa doğrulama kurallarıyla ilgili veri türleri ve bilgiler) ve varsa varlık ilişkisi diyagramları hakkındaki bilgileri içerir. Ekibiniz bu bilgilerin bir kısmını veya tamamını belgelemelidir.

Hakemli literatür

Araştırmacılar, TDSP hakkında hakemli literatürde çalışmalar yayımlar. Alıntılar , iş anlayışı yaşam döngüsü aşaması da dahil olmak üzere TDSP'ye yönelik diğer uygulamaları veya benzer fikirleri araştırma fırsatı sunar.

Katkıda Bulunanlar

Bu makale Microsoft tarafından yönetilir. Başlangıçta aşağıdaki katkıda bulunanlar tarafından yazılmıştır.

Asıl yazar:

Genel olmayan LinkedIn profillerini görmek için LinkedIn'de oturum açın.

Bu makalelerde TDSP yaşam döngüsünün diğer aşamaları açıklanmaktadır: