Veri Akışlarını İzleme

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

Bahşiş

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Veri akışınızı oluşturmayı ve hata ayıklamayı tamamladıktan sonra, veri akışınızı işlem hattı bağlamında bir zamanlamaya göre yürütülecek şekilde zamanlamak istiyorsunuz. Tetikleyicileri kullanarak işlem hattını zamanlayabilirsiniz. Veri akışınızı bir işlem hattından test etmek ve hata ayıklamak için araç çubuğu şeridindeki Hata Ayıkla düğmesini veya İşlem Hattı Oluşturucusu'ndan Şimdi Tetikle seçeneğini kullanarak işlem hattı bağlamında veri akışınızı test etmek üzere tek çalıştırmalı bir yürütme yürütebilirsiniz.

İşlem hattınızı yürütürken işlem hattını ve Veri Akışı etkinliği de dahil olmak üzere işlem hattında yer alan tüm etkinlikleri izleyebilirsiniz. Sol taraftaki kullanıcı arabirimi panelinde monitör simgesini seçin. Aşağıdakine benzer bir ekran görebilirsiniz. Vurgulanan simgeler, Veri Akışı etkinliği de dahil olmak üzere işlem hattındaki etkinliklerde detaya gitmenizi sağlar.

Screenshot shows icons to select for pipelines for more information.

Çalıştırma süreleri ve durumu da dahil olmak üzere bu düzeyde istatistikler görürsünüz. Etkinlik düzeyindeki Çalıştırma Kimliği, işlem hattı düzeyindeki Çalıştırma Kimliği'den farklıdır. Önceki düzeydeki Çalıştırma Kimliği işlem hattına yöneliktir. Gözlüklerin seçilmesi, veri akışı yürütmeniz hakkında ayrıntılı bilgiler sağlar.

Screenshot shows the eyeglasses icon to see details of data flow execution.

Grafik düğüm izleme görünümündeyken veri akışı grafınızın basitleştirilmiş bir salt görüntüleme sürümünü görebilirsiniz. Dönüştürme aşaması etiketlerini içeren daha büyük grafik düğümlerine sahip ayrıntılar görünümünü görmek için tuvalinizin sağ tarafındaki yakınlaştırma kaydırıcısını kullanın. Veri akışı mantığınızın parçalarını grafikte bulmak için sağ taraftaki arama düğmesini de kullanabilirsiniz.

Screenshot shows the view-only version of the graph.

Veri Akışı Yürütme Planlarını Görüntüleme

Veri Akışı Spark'ta yürütürken hizmet, veri akışınızın tamamına göre en uygun kod yollarını belirler. Ayrıca, yürütme yolları farklı genişleme düğümlerinde ve veri bölümlerinde oluşabilir. Bu nedenle izleme grafiği, dönüştürmelerinizin yürütme yolunu dikkate alarak akışınızın tasarımını temsil eder. Tek tek düğümleri seçtiğinizde, kümede birlikte yürütülen kodu temsil eden "aşamaları" görebilirsiniz. Gördüğünüz zamanlamalar ve sayımlar, tasarımınızdaki adımlardan farklı olarak bu grupları veya aşamaları temsil eder.

Screenshot shows the page for a data flow.

  • İzleme penceresinde açık alanı seçtiğinizde, alt bölmedeki istatistikler her Havuz için zamanlamayı ve satır sayısını ve dönüştürme kökeni için havuz verilerine yol açan dönüştürmeleri görüntüler.

  • Tek tek dönüştürmeleri seçtiğinizde, sağ panelde bölüm istatistiklerini, sütun sayılarını, dengesizliği (verilerin bölümler arasında ne kadar eşit dağıtıldığı) ve basıklığı (verilerin ne kadar yüksek olduğu) gösteren ek geri bildirim alırsınız.

  • İşleme süresine göre sıralama, veri akışınızdaki hangi aşamaların en çok zaman aldığını belirlemenize yardımcı olur.

  • Her aşamada hangi dönüşümlerin en çok zaman aldığını bulmak için en yüksek işleme süresine göre sıralayın.

  • Yazılan *satırlar, veri akışınızdaki hangi akışların en çok veri yaztığını belirlemenin bir yolu olarak da sıralanabilir.

  • Düğüm görünümünde Havuz'ı seçtiğinizde sütun kökenini görebilirsiniz. Havuza inmek için veri akışınızda sütunların biriktiği üç farklı yöntem vardır. Bunlar:

    • Hesaplanan: Sütunu koşullu işleme için veya veri akışınızdaki bir ifadenin içinde kullanırsınız, ancak havuza aktarmazsınız
    • Türetilmiş: Sütun, akışınızda oluşturduğunuz yeni bir sütundur, yani Kaynakta mevcut değildir
    • Eşlendi: Sütun kaynaktan geldi ve bunu bir havuz alanına eşliıyorsunuz
    • Veri akışı durumu: Yürütmenizin geçerli durumu
    • Küme başlangıç zamanı: Veri akışı yürütmeniz için JIT Spark işlem ortamını edinme süresi
    • Dönüşüm sayısı: Akışınızda kaç dönüştürme adımı yürütülüyor?

Screenshot shows the Refresh option.

Toplam Havuz İşleme Süresi - Dönüştürme İşleme Süresi

Her dönüştürme aşaması, her bölüm yürütme süresinin birlikte toplandığı bu aşamanın tamamlanması için bir toplam süre içerir. Havuz'ı seçtiğinizde "Havuz İşleme Süresi" ifadesini görürsünüz. Bu süre, dönüşüm süresinin toplamını ve verilerinizi hedef deponuza yazmak için geçen G/Ç süresini içerir. Havuz İşleme Süresi ile dönüşümün toplamı arasındaki fark, verileri yazmak için G/Ç süresidir.

İşlem hattı izleme görünümünde veri akışı etkinliğinizden JSON çıktısını açarsanız, her bölüm dönüştürme adımı için ayrıntılı zamanlamayı da görebilirsiniz. JSON her bölüm için milisaniyelik zamanlama içerirken, UX izleme görünümü birlikte eklenen bölümlerin toplam zamanlamasıdır:

 {
     "stage": 4,
     "partitionTimes": [
          14353,
          14914,
          14246,
          14912,
          ...
         ]
}

Havuz işleme süresi

Haritanızda bir havuz dönüştürme simgesi seçtiğinizde, sağdaki slayt panelinde altta "işlem sonrası zaman" adlı ek bir veri noktası gösterilir. Bu, verileriniz yüklendikten, dönüştürüldükten ve yazıldıktan sonra Spark kümesinde işinizi yürütmek için harcanan süredir. Bu süre bağlantı havuzlarını kapatmayı, sürücü kapatmayı, dosyaları silmeyi, dosyaları birleştirmeyi vb. içerebilir. Akışınızda "dosyaları taşıma" ve "tek dosyaya çıkış" gibi eylemler gerçekleştirdiğinizde, işlem sonrası zaman değerinde büyük olasılıkla bir artış görürsünüz.

  • Yazma aşaması süresi: Synapse SQL için verileri hazırlama konumuna yazma süresi
  • Tablo işlemi SQL süresi: Verileri geçici tablolardan hedef tabloya taşımaya harcanan süre
  • SQL öncesi süresi & POST SQL süresi: SQL öncesi/sonrası komutlarını çalıştırmak için harcanan süre
  • Komut öncesi süresi ve post komutları süresi: Dosya tabanlı kaynak/havuzlar için herhangi bir ön/son işlemi çalıştırmak için harcanan süre. Örneğin, işlendikten sonra dosyaları taşıyın veya silin.
  • Birleştirme süresi: Tek bir dosyaya yazılırken veya "Sütun verileri olarak dosya adı" kullanıldığında, dosya birleştirme dosyaları dosya tabanlı havuzlar için birleştirirken harcanan süre. Bu ölçümde önemli bir süre harcandıysa bu seçenekleri kullanmaktan kaçınmanız gerekir.
  • Aşama süresi: İşlemi aşama olarak tamamlamak için Spark'ın içinde harcanan toplam süre.
  • Geçici hazırlama kararlısı: Veri akışları tarafından veritabanındaki verileri hazırlamak için kullanılan geçici tablonun adı.

Hata satırları

Veri akışı havuzunuzda hata satırı işlemenin etkinleştirilmesi izleme çıkışına yansıtılır. Havuzu "hatada başarı bildir" olarak ayarladığınızda, havuz izleme düğümünü seçtiğinizde izleme çıktısı başarı ve başarısız satır sayısını gösterir.

Screenshot shows error rows.

"Hatada hata bildir" seçeneğini belirlediğinizde, aynı çıkış yalnızca etkinlik izleme çıkış metninde gösterilir. Bunun nedeni, veri akışı etkinliğinin yürütme için hata döndürmesi ve ayrıntılı izleme görünümünün kullanılamamasıdır.

Screenshot shows error rows in activity.

monitör simgeleri

Bu simge, dönüştürme verilerinin kümede zaten önbelleğe alındığını, dolayısıyla zamanlamaların ve yürütme yolunun bunu dikkate aldığı anlamına gelir:

Screenshot shows the disk icon.

Dönüşümde yeşil daire simgeleri de görürsünüz. Bunlar, verilerin aktığı havuz sayısının sayısını temsil eder.