Share via


Veri işlem hattı için kaynak verileri keşfetme

Veri işlem hattı oluşturmanın yaygın bir ilk adımı, işlem hattının kaynak verilerini anlamaktır. Bu adımda, kaynak verileri ve yapıtları incelemek için bir not defterinde Databricks Yardımcı Programları ve PySpark komutlarını çalıştıracaksınız.

Keşif veri analizi hakkında daha fazla bilgi edinmek için bkz . Azure Databricks'te keşif veri analizi: Araçlar ve teknikler.

Video: Databricks not defterlerine giriş

Databricks not defterlerine giriş için şu videoyu izleyin:

Veri araştırma not defteri oluşturma

  1. Kenar çubuğunda Yeni'ye tıklayın Yeni Simgeve menüden Not Defteri'ni seçin. Not defteri, değiştirebileceğiniz varsayılan bir adla açılır.

  2. Not defteri için bir ad girin; örneğin, Explore songs data. Varsayılan olarak:

    • Seçilen dil Python'dır .
    • Not defteri, kullandığınız son kümeye eklenir. Bu durumda, 1. Adım: Küme oluşturma bölümünde oluşturduğunuz küme.
  3. Veri kümesini içeren dizinin içeriğini görüntülemek için, not defterinin ilk hücresine aşağıdakileri girin, öğesine tıklayın Çalıştır Menüsüve Hücreyi Çalıştır'ı seçin.

    %fs ls "/databricks-datasets/songs/data-001"
    
    yol Adı size modificationTime
    1 dbfs:/databricks-datasets/songs/README.md BENİOKU.md 1719 1454620183000
    2 dbfs:/databricks-datasets/songs/data-001/ data-001/ 0 1672791237846
    3 dbfs:/databricks-datasets/songs/data-002/ data-002/ 0 1672791237846

Verileri keşfetme

  1. README dosyasında veri kümesi hakkında veri şemasının açıklaması da dahil olmak üzere bilgiler bulunur. Şema bilgileri, verileri alırken sonraki adımda kullanılır. BENİOKU içeriğini görüntülemek için hücre eylemleri menüsüne tıklayınAşağı Şapka İşareti, Altına Hücre Ekle'yi seçin, yeni hücreye aşağıdakileri girin, öğesine tıklayın Çalıştır Menüsüve Hücreyi Çalıştır'ı seçin.

    %fs head --maxBytes=10000 "/databricks-datasets/songs/README.md"
    
    Sample of Million Song Dataset
    ===============================
    
    ## Source
    This data is a small subset of the [Million Song Dataset](http://labrosa.ee.columbia.edu/millionsong/).
    The original data was contributed by The Echo Nest.
    Prepared by T. Bertin-Mahieux <tb2332 '@' columbia.edu>
    
    ## Attribute Information
    - artist_id:string
    - artist_latitude:double
    - artist_longitude:double
    - artist_location:string
    - artist_name:string
    - duration:double
    - end_of_fade_in:double
    - key:int
    - key_confidence:double
    - loudness:double
    - release:string
    - song_hotnes:double
    - song_id:string
    - start_of_fade_out:double
    - tempo:double
    - time_signature:double
    - time_signature_confidence:double
    - title:string
    - year:double
    - partial_sequence:int
    ...
    
  2. Bu örnekte kullanılan kayıtlar dizindedir /databricks-datasets/songs/data-001/ . Bu dizinin içeriğini görüntülemek için hücre eylemleri menüsüne tıklayınAşağı Şapka İşareti, Altına Hücre Ekle'yi seçin, yeni hücreye aşağıdakileri girin, öğesine tıklayın Çalıştır Menüsüve Hücreyi Çalıştır'ı seçin.

    %fs ls "/databricks-datasets/songs/data-001"
    
    yol Adı size modificationTime
    1 dbfs:/databricks-datasets/songs/data-001/header.txt header.txt 377 1454633901000
    2 dbfs:/databricks-datasets/songs/data-001/part-00000 bölüm 00000 52837 1454547464000
    3 dbfs:/databricks-datasets/songs/data-001/part-00001 bölüm 00001 52469 1454547465000
  3. BENİOKU ve dosya adları dosya biçimini belirtmediğinden, her kaydın içeriğini ve biçimini daha iyi anlamak için kayıtların bir örneğini görüntüleyebilirsiniz. Veri dosyalarından birinden ilk on kaydı okumak ve görüntülemek için hücre eylemleri menüsüne tıklayınAşağı Şapka İşareti, Altına Hücre Ekle'yi seçin, yeni hücreye aşağıdakileri girin, öğesine tıklayınÇalıştır Menüsü ve Hücreyi Çalıştır'ı seçin.

    %fs head --maxBytes=10000 "/databricks-datasets/songs/data-001/part-00000"
    
     AR81V6H1187FB48872  nan     nan             Earl Sixteen    213.7073        0.0     11      0.419   -12.106 Soldier of Jah Army     nan     SOVNZSZ12AB018A9B8      208.289 125.882 1       0.0     Rastaman        2003    --
     ARVVZQP11E2835DBCB  nan     nan             Wavves  133.25016       0.0     0       0.282   0.596   Wavvves 0.471578247701  SOJTQHQ12A8C143C5F      128.116 89.519  1       0.0     I Want To See You (And Go To The Movies)        2009    --
     ARFG9M11187FB3BBCB  nan     nan     Nashua USA      C-Side  247.32689       0.0     9       0.612   -4.896  Santa Festival Compilation 2008 vol.1   nan     SOAJSQL12AB0180501      242.196 171.278 5       1.0     Loose on the Dancefloor 0       225261
     ...
    

    Kayıtların bir örneğini görüntüleyerek veriler hakkında birkaç şey gözlemleyebilirsiniz. Bu gözlemleri daha sonra verileri işlerken kullanacaksınız:

    • Kayıtlar üst bilgi içermiyor. Bunun yerine, üst bilgi aynı dizinde ayrı bir dosyada depolanır.
      • Dosyalar sekmeyle ayrılmış değer (TSV) biçiminde görünüyor.
      • Bazı alanlar eksik veya geçersiz.
  4. Verileri daha fazla araştırmak ve analiz etmek için bu gözlemleri kullanarak TSV biçimli şarkı verilerini PySpark DataFrame'e yükleyin. Bunu yapmak için hücre eylemleri menüsüne tıklayınAşağı Şapka İşareti, Altına Hücre Ekle'yi seçin, yeni hücreye aşağıdaki kodu girin ve ardından Hücreyi Çalıştır'a tıklayın>Çalıştır Menüsü.

    df = spark.read.format('csv').option("sep", "\t").load('dbfs:/databricks-datasets/songs/data-001/part-00000')
    df.display()
    

    Veri dosyasında üst bilgi eksik olduğundan, sütun adları , _c1vb. olarak _c0görüntülenir. Her sütun, gerçek veri türünden bağımsız olarak string yorumlanır. Sonraki adımda ham verilerin alımı, verileri yüklerken geçerli bir şemayı nasıl uygulayabileceğinize ilişkin bir örnek gösterir.

    Ham şarkı verilerinden oluşturulan DataFrame