Veri akışlarını izleme

Uygulama hedefi: Azure SYNAPSE Analytics 'i Azure Data Factory

Veri akışınızı oluşturma ve hata ayıklamayı tamamladıktan sonra, veri akışınızı bir işlem hattı bağlamı içindeki bir zamanlamaya göre yürütülecek şekilde zamanlamak istersiniz. İşlem hattını Tetikleyiciler kullanarak zamanlayabilirsiniz. Veri akışını bir işlem hattından test etmek ve hatalarını ayıklamak için, işlem hattı oluşturucusuna bir araç çubuğu şeridinde Hata Ayıkla düğmesini veya bir tek çalıştırma yürütmesi yürütmek üzere işlem hattı bağlamında veri akışınızı test etmek için şimdi Tetikle seçeneğini kullanabilirsiniz.

işlem hattınızı yürüttüğünüzde, işlem hattını ve veri Flow etkinliği dahil olmak üzere işlem hattında bulunan tüm etkinlikleri izleyebilirsiniz. Sol taraftaki UI panelinde izleyici simgesine tıklayın. Aşağıdakine benzer bir ekran görebilirsiniz. vurgulanan simgeler, veri Flow etkinliği dahil olmak üzere işlem hattındaki etkinliklerin ayrıntılarına gitmenizi sağlar.

Ekran görüntüsünde daha fazla bilgi için işlem hatları için seçilecek simgeler gösterilir.

Bu düzeyde istatistikler ve çalışma süreleri ve durumu da dahil olmak üzere istatistikleri görürsünüz. Etkinlik düzeyindeki çalıştırma KIMLIĞI, işlem hattı düzeyindeki çalıştırma KIMLIĞINDEN farklı. Önceki düzeydeki çalıştırma KIMLIĞI işlem hattı içindir. Duyun seçilmesi, veri akışı yürütmenize ilişkin ayrıntılı ayrıntılar sağlar.

Ekran görüntüsünde, veri akışı yürütmesinin ayrıntılarını görmek için göz gözlük simgesi gösterilir.

Grafik düğüm izleme görünümünde olduğunuzda, veri akışı grafiklerinizin yalnızca Basitleştirilmiş bir görünüm sürümünü görebilirsiniz. Dönüşüm aşaması etiketlerini içeren daha büyük grafik düğümleri ile Ayrıntılar görünümünü görmek için, tuvalinizde sağ taraftaki yakınlaştırma kaydırıcısını kullanın. Grafikteki veri akışı mantığınızın parçalarını bulmak için sağ taraftaki Ara düğmesini de kullanabilirsiniz.

Ekran görüntüsü grafiğin yalnızca görünüm sürümünü gösterir.

veri Flow yürütme planlarını görüntüleme

veri Flow Spark 'ta yürütüldüğünde, hizmet, veri akışınızı tamamen temel alarak en iyi kod yollarını belirler. Ek olarak, yürütme yolları farklı genişleme düğümlerinde ve veri bölümlerinde de gerçekleşebilir. Bu nedenle, izleme grafiği, dönüştürmelerinizin yürütme yolunu dikkate alarak akışınızın tasarımını temsil eder. Tek tek düğümleri seçtiğinizde, kümede birlikte yürütülen kodu temsil eden "aşamalar" görebilirsiniz. Gördüğünüz zamanlamalar ve sayımlar, tasarımınızda bireysel adımların aksine bu grupları veya aşamaları temsil eder.

Ekran görüntüsü bir veri akışı için sayfayı gösterir.

  • İzleme penceresinde açık alanı seçtiğinizde, alt bölmedeki istatistikler her bir havuz için zamanlama ve satır sayılarını ve dönüştürme kökenini için havuz verilerine işaret eden dönüşümleri görüntüler.

  • Tek tek dönüştürmeleri seçtiğinizde, sağ bölmede bölüm istatistiklerini, sütun sayılarını, çarpıklığı (bölümler arasında dağıtılan veriler ne kadar eşit olduğu) ve basıklık (çıkmanız gerekirse ' in verileri) gösteren ek geri bildirim alırsınız.

  • İşleme zamanına göre sıralama, veri akışındaki hangi aşamaların en çok zaman sürdüğünü belirlemenize yardımcı olur.

  • Her aşamanın içindeki hangi dönüştürmelerin en çok zaman sürdüğünü bulmak için en yüksek işlem süresine göre sıralayın.

  • Yazılan satırlar Ayrıca, veri akışınız içindeki hangi akışların en fazla veri yazmakta olduğunu belirlemek için de sıralanabilir bir yoldur.

  • Düğüm görünümünde havuzu seçtiğinizde, kökenini sütununu görebilirsiniz. Her sütun, veri akışınız genelinde havuza akacak şekilde birikmiş üç farklı yöntem vardır. Bunlar:

    • Hesaplandı: sütunu, Koşullu işleme için veya veri akışındaki bir ifade dahilinde kullanın, ancak bunu havuzda gösterme
    • Türetilmiş: sütun, akışta oluşturduğunuz yeni bir sütundur, diğer bir deyişle, kaynakta mevcut değildir
    • Eşlendi: kaynak, kaynaktan geldiğini ve bir havuz alanıyla eşlemenizi sağlar
    • Veri akışı durumu: yürütmenin geçerli durumu
    • Küme başlangıç zamanı: veri akışı yürütmenizle ilgili JıT Spark işlem ortamının elde edilecek süre miktarı
    • Dönüşüm sayısı: akışınızda kaç dönüştürme adımı yürütüldüğü

Ekran görüntüsü Yenile seçeneğini gösterir.

Toplam Havuz İşleme Süresi - Dönüştürme İşleme Süresi

Her bir dönüştürme aşaması, her bir bölüm yürütme süresi toplandığında bu aşamanın tamamlanacağı toplam süreyi içerir. Havuza tıkladığınızda, "havuz Işleme süresi" görüntülenir. Bu süre, dönüştürme süresinin toplamını ve verilerinizi hedef deponuza yazmak için geçen g/ç süresini içerir. Havuz Işleme süresi ve dönüşümün Toplam arasındaki fark, verileri yazmak için g/ç zamanı olur.

Ayrıca, ardışık düzen izleme görünümündeki veri akışı etkinliğinizden JSON çıkışını açarsanız her bölüm dönüştürme adımı için ayrıntılı zamanlamayı görebilirsiniz. JSON, her bölüm için milisaniyelik zamanlama içerir, ancak UX izleme görünümü birlikte eklenen bölümlerin toplam zamanlamadır:

 {
     "stage": 4,
     "partitionTimes": [
          14353,
          14914,
          14246,
          14912,
          ...
         ]
}

Havuz işleme süresi

Haritaınızda bir havuz dönüştürme simgesi seçtiğinizde, sağdaki slayt paneli alt kısımdaki "işlem sonrası zamanı" adlı ek bir veri noktası gösterir. Bu, verileriniz yüklendikten, dönüştürüldükten ve yazıldıktan sonra Spark kümesinde işinizi yürütmek için harcanan süre miktarıdır. Bu süre, bağlantı havuzlarını kapatmayı, sürücü kapatmayı, dosyaları silmeyi, birleştirme dosyalarını, vb. içerebilir. Akışınızda "dosyaları taşı" ve "çıktıyı tek dosyaya kaydet" gibi eylemler gerçekleştirdiğinizde, işlem sonrası süre değerinde bir artış görürsünüz.

  • Yazma aşaması süresi: SYNAPSE SQL için bir hazırlama konumuna veri yazma zamanı
  • tablo işlemi SQL süresi: verileri geçici tablolardan hedef tabloya taşımak için harcanan süre
  • ön SQL süresi & Post SQL süresi: öncesi veya sonrası SQL komutlarını çalıştırmak için harcanan süre
  • Komut süresi & son komutlar süre: dosya tabanlı kaynak/havuz için herhangi bir ön/POST işlemi çalıştırmak için harcanan süre. Örneğin, işlemden sonra dosyaları taşıyın veya silin.
  • Birleştirme süresi: dosyayı birleştirme sırasında harcanan süre, birleştirme dosyaları tek bir dosyaya yazılırken veya "sütun verileri olarak dosya adı" kullanılırken dosya tabanlı havuzlar için kullanılır. Bu ölçümde önemli bir zaman harcanması durumunda, bu seçenekleri kullanmaktan kaçının.
  • Aşama saati: bir aşama olarak işlemi tamamlaması için Spark içinde harcanan toplam süre miktarı.
  • Geçici hazırlama kararlı: veritabanındaki verileri hazırlamak için veri akışları tarafından kullanılan geçici tablonun adı.

Hata satırları

Veri akışı havuzinizdeki hata satırı işlemenin etkinleştirilmesi izleme çıktısına yansıtılır. Havuzu "hatada başarıyı bildir" olarak belirlediğinizde, havuz izleme düğümüne tıkladığınızda izleme çıktısı başarı ve başarısız satır sayısını gösterir.

Ekran görüntüsünde hata satırları gösterilir.

"Hatada hata bildir" seçeneğini belirlediğinizde, aynı çıkış yalnızca etkinlik izleme çıkış metninde gösterilir. Bunun nedeni, veri akışı etkinliğinin yürütme hatası döndürmesinin ve ayrıntılı izleme görünümünün kullanılamayacak olması içindir.

Ekran görüntüsünde, etkinliğin hata satırları gösterilir.

Simgeleri izle

Bu simge, dönüştürme verilerinin kümede zaten önbelleğe alındığı anlamına gelir; bu nedenle zamanlamalar ve yürütme yolu şu hesaba alınır:

Ekran görüntüsü disk simgesini gösterir.

Ayrıca, dönüşümde yeşil daire simgeleri görürsünüz. Bunlar, verilerin akan havuz sayısını temsil eder.