Bagikan melalui


Menjelajahi data sumber untuk alur data

Langkah pertama umum dalam membuat alur data adalah memahami data sumber untuk alur. Dalam langkah ini, Anda akan menjalankan perintah Utilitas Databricks dan PySpark di notebook untuk memeriksa data sumber dan artefak.

Untuk mempelajari selengkapnya tentang analisis data eksploratif, lihat Analisis data eksploratif di Azure Databricks: Alat dan teknik.

Video: Pengantar notebook Databricks

Untuk pengenalan notebook Databricks, tonton video ini:

Membuat buku catatan eksplorasi data

  1. Di bar samping, klik Ikon BaruBaru dan pilih Buku Catatan dari menu. Buku catatan terbuka dengan nama default yang bisa Anda ganti.

  2. Masukkan nama untuk buku catatan, misalnya, Explore songs data. Secara default:

    • Python adalah bahasa yang dipilih.
    • Buku catatan dilampirkan ke kluster terakhir yang Anda gunakan. Dalam hal ini, kluster yang Anda buat di Langkah 1: Buat kluster.
  3. Untuk menampilkan konten direktori yang berisi himpunan data, masukkan yang berikut ini di sel pertama buku catatan, klik Menu Jalankan, dan pilih Jalankan Sel.

    %fs ls "/databricks-datasets/songs/data-001"
    
    jalan nama size modificationTime
    1 dbfs:/databricks-datasets/songs/README.md README.md 1719 1454620183000
    2 dbfs:/databricks-datasets/songs/data-001/ data-001/ 0 1672791237846
    3 dbfs:/databricks-datasets/songs/data-002/ data-002/ 0 1672791237846

Menjelajahi data

  1. File README memiliki informasi tentang himpunan data, termasuk deskripsi skema data. Informasi skema digunakan pada langkah berikutnya saat menyerap data. Untuk menampilkan konten README, klik Down Caretdi menu tindakan sel, pilih Tambahkan Sel Di Bawah, masukkan yang berikut ini di sel baru, klikMenu Jalankan , dan pilih Jalankan Sel.

    %fs head --maxBytes=10000 "/databricks-datasets/songs/README.md"
    
    Sample of Million Song Dataset
    ===============================
    
    ## Source
    This data is a small subset of the [Million Song Dataset](http://labrosa.ee.columbia.edu/millionsong/).
    The original data was contributed by The Echo Nest.
    Prepared by T. Bertin-Mahieux <tb2332 '@' columbia.edu>
    
    ## Attribute Information
    - artist_id:string
    - artist_latitude:double
    - artist_longitude:double
    - artist_location:string
    - artist_name:string
    - duration:double
    - end_of_fade_in:double
    - key:int
    - key_confidence:double
    - loudness:double
    - release:string
    - song_hotnes:double
    - song_id:string
    - start_of_fade_out:double
    - tempo:double
    - time_signature:double
    - time_signature_confidence:double
    - title:string
    - year:double
    - partial_sequence:int
    ...
    
  2. Rekaman yang digunakan dalam contoh ini ada di /databricks-datasets/songs/data-001/ direktori. Untuk menampilkan konten direktori ini, klik Down Caretdi menu tindakan sel, pilih Tambahkan Sel Di Bawah, masukkan yang berikut ini di sel baru, klikMenu Jalankan , dan pilih Jalankan Sel.

    %fs ls "/databricks-datasets/songs/data-001"
    
    jalan nama size modificationTime
    1 dbfs:/databricks-datasets/songs/data-001/header.txt header.txt 377 1454633901000
    2 dbfs:/databricks-datasets/songs/data-001/part-00000 part-00000 52837 1454547464000
    3 dbfs:/databricks-datasets/songs/data-001/part-000001 part-00001 52469 1454547465000
  3. Karena README dan nama file tidak menunjukkan format file, Anda bisa melihat sampel rekaman untuk lebih memahami konten dan format setiap rekaman. Untuk membaca dan menampilkan sepuluh rekaman pertama dari salah satu file data, klik Down Caretdi menu tindakan sel, pilih Tambahkan Sel Di Bawah, masukkan yang berikut ini di sel baru, klikMenu Jalankan , dan pilih Jalankan Sel.

    %fs head --maxBytes=10000 "/databricks-datasets/songs/data-001/part-00000"
    
     AR81V6H1187FB48872  nan     nan             Earl Sixteen    213.7073        0.0     11      0.419   -12.106 Soldier of Jah Army     nan     SOVNZSZ12AB018A9B8      208.289 125.882 1       0.0     Rastaman        2003    --
     ARVVZQP11E2835DBCB  nan     nan             Wavves  133.25016       0.0     0       0.282   0.596   Wavvves 0.471578247701  SOJTQHQ12A8C143C5F      128.116 89.519  1       0.0     I Want To See You (And Go To The Movies)        2009    --
     ARFG9M11187FB3BBCB  nan     nan     Nashua USA      C-Side  247.32689       0.0     9       0.612   -4.896  Santa Festival Compilation 2008 vol.1   nan     SOAJSQL12AB0180501      242.196 171.278 5       1.0     Loose on the Dancefloor 0       225261
     ...
    

    Anda dapat mengamati beberapa hal tentang data dari melihat sampel rekaman. Anda akan menggunakan pengamatan ini nanti saat memproses data:

    • Rekaman tidak berisi header. Sebagai gantinya, header disimpan dalam file terpisah dalam direktori yang sama.
      • File tampaknya dalam format nilai yang dipisahkan tab (TSV).
      • Beberapa bidang hilang atau tidak valid.
  4. Untuk menjelajahi dan menganalisis data lebih lanjut, gunakan pengamatan ini untuk memuat data lagu berformat TSV ke dalam PySpark DataFrame. Untuk melakukan ini, klik Down Caretdi menu tindakan sel, pilih Tambahkan Sel Di Bawah ini, masukkan kode berikut di sel baru, lalu klikMenu Jalankan> Jalankan Sel.

    df = spark.read.format('csv').option("sep", "\t").load('dbfs:/databricks-datasets/songs/data-001/part-00000')
    df.display()
    

    Karena file data kehilangan header, nama kolom ditampilkan sebagai _c0, _c1, dan sebagainya. Setiap kolom ditafsirkan sebagai string terlepas dari jenis data aktual. Penyerapan data mentah pada langkah berikutnya menunjukkan contoh bagaimana Anda dapat memaksakan skema yang valid saat Anda memuat data.

    DataFrame dibuat dari data lagu mentah