Menjelajahi data sumber untuk alur data

Artikel
04/19/2024

Langkah pertama umum dalam membuat alur data adalah memahami data sumber untuk alur. Dalam langkah ini, Anda akan menjalankan perintah Utilitas Databricks dan PySpark di notebook untuk memeriksa data sumber dan artefak.

Untuk mempelajari selengkapnya tentang analisis data eksploratif, lihat Analisis data eksploratif di Azure Databricks: Alat dan teknik.

Video: Pengantar notebook Databricks

Untuk pengenalan notebook Databricks, tonton video ini:

Membuat buku catatan eksplorasi data

Di bar samping, klik Baru dan pilih Buku Catatan dari menu. Buku catatan terbuka dengan nama default yang bisa Anda ganti.
Masukkan nama untuk buku catatan, misalnya, Explore songs data. Secara default:
- Python adalah bahasa yang dipilih.
- Buku catatan dilampirkan ke kluster terakhir yang Anda gunakan. Dalam hal ini, kluster yang Anda buat di Langkah 1: Buat kluster.

Untuk menampilkan konten direktori yang berisi himpunan data, masukkan yang berikut ini di sel pertama buku catatan, klik , dan pilih Jalankan Sel.

%fs ls "/databricks-datasets/songs/data-001"

	jalan	nama	size	modificationTime
1	dbfs:/databricks-datasets/songs/README.md	README.md	1719	1454620183000
2	dbfs:/databricks-datasets/songs/data-001/	data-001/	0	1672791237846
3	dbfs:/databricks-datasets/songs/data-002/	data-002/	0	1672791237846

Menjelajahi data

File README memiliki informasi tentang himpunan data, termasuk deskripsi skema data. Informasi skema digunakan pada langkah berikutnya saat menyerap data. Untuk menampilkan konten README, klik Down Caret di menu tindakan sel, pilih Tambahkan Sel Di Bawah, masukkan yang berikut ini di sel baru, klik , dan pilih Jalankan Sel.

%fs head --maxBytes=10000 "/databricks-datasets/songs/README.md"

Sample of Million Song Dataset
===============================

## Source
This data is a small subset of the [Million Song Dataset](http://labrosa.ee.columbia.edu/millionsong/).
The original data was contributed by The Echo Nest.
Prepared by T. Bertin-Mahieux <tb2332 '@' columbia.edu>

## Attribute Information
- artist_id:string
- artist_latitude:double
- artist_longitude:double
- artist_location:string
- artist_name:string
- duration:double
- end_of_fade_in:double
- key:int
- key_confidence:double
- loudness:double
- release:string
- song_hotnes:double
- song_id:string
- start_of_fade_out:double
- tempo:double
- time_signature:double
- time_signature_confidence:double
- title:string
- year:double
- partial_sequence:int
...

Rekaman yang digunakan dalam contoh ini ada di /databricks-datasets/songs/data-001/ direktori. Untuk menampilkan konten direktori ini, klik Down Caret di menu tindakan sel, pilih Tambahkan Sel Di Bawah, masukkan yang berikut ini di sel baru, klik , dan pilih Jalankan Sel.

%fs ls "/databricks-datasets/songs/data-001"

	jalan	nama	size	modificationTime
1	dbfs:/databricks-datasets/songs/data-001/header.txt	header.txt	377	1454633901000
2	dbfs:/databricks-datasets/songs/data-001/part-00000	part-00000	52837	1454547464000
3	dbfs:/databricks-datasets/songs/data-001/part-000001	part-00001	52469	1454547465000

Karena README dan nama file tidak menunjukkan format file, Anda bisa melihat sampel rekaman untuk lebih memahami konten dan format setiap rekaman. Untuk membaca dan menampilkan sepuluh rekaman pertama dari salah satu file data, klik Down Caret di menu tindakan sel, pilih Tambahkan Sel Di Bawah, masukkan yang berikut ini di sel baru, klik , dan pilih Jalankan Sel.

%fs head --maxBytes=10000 "/databricks-datasets/songs/data-001/part-00000"

 AR81V6H1187FB48872  nan     nan             Earl Sixteen    213.7073        0.0     11      0.419   -12.106 Soldier of Jah Army     nan     SOVNZSZ12AB018A9B8      208.289 125.882 1       0.0     Rastaman        2003    --
 ARVVZQP11E2835DBCB  nan     nan             Wavves  133.25016       0.0     0       0.282   0.596   Wavvves 0.471578247701  SOJTQHQ12A8C143C5F      128.116 89.519  1       0.0     I Want To See You (And Go To The Movies)        2009    --
 ARFG9M11187FB3BBCB  nan     nan     Nashua USA      C-Side  247.32689       0.0     9       0.612   -4.896  Santa Festival Compilation 2008 vol.1   nan     SOAJSQL12AB0180501      242.196 171.278 5       1.0     Loose on the Dancefloor 0       225261
 ...

Anda dapat mengamati beberapa hal tentang data dari melihat sampel rekaman. Anda akan menggunakan pengamatan ini nanti saat memproses data:

Rekaman tidak berisi header. Sebagai gantinya, header disimpan dalam file terpisah dalam direktori yang sama.
- File tampaknya dalam format nilai yang dipisahkan tab (TSV).
- Beberapa bidang hilang atau tidak valid.

Untuk menjelajahi dan menganalisis data lebih lanjut, gunakan pengamatan ini untuk memuat data lagu berformat TSV ke dalam PySpark DataFrame. Untuk melakukan ini, klik di menu tindakan sel, pilih Tambahkan Sel Di Bawah ini, masukkan kode berikut di sel baru, lalu klik> Jalankan Sel.
```
df = spark.read.format('csv').option("sep", "\t").load('dbfs:/databricks-datasets/songs/data-001/part-00000')
df.display()
```
Karena file data kehilangan header, nama kolom ditampilkan sebagai _c0, _c1, dan sebagainya. Setiap kolom ditafsirkan sebagai string terlepas dari jenis data aktual. Penyerapan data mentah pada langkah berikutnya menunjukkan contoh bagaimana Anda dapat memaksakan skema yang valid saat Anda memuat data.

Bagikan melalui

Menjelajahi data sumber untuk alur data

Video: Pengantar notebook Databricks

Membuat buku catatan eksplorasi data

Menjelajahi data

Saran dan Komentar

Saran dan Komentar

Sumber Daya Tambahan: