Menjelajahi data sumber untuk alur data
Langkah pertama umum dalam membuat alur data adalah memahami data sumber untuk alur. Dalam langkah ini, Anda akan menjalankan perintah Utilitas Databricks dan PySpark di notebook untuk memeriksa data sumber dan artefak.
Untuk mempelajari selengkapnya tentang analisis data eksploratif, lihat Analisis data eksploratif di Azure Databricks: Alat dan teknik.
Video: Pengantar notebook Databricks
Untuk pengenalan notebook Databricks, tonton video ini:
Membuat buku catatan eksplorasi data
Di bar samping, klik Baru dan pilih Buku Catatan dari menu. Buku catatan terbuka dengan nama default yang bisa Anda ganti.
Masukkan nama untuk buku catatan, misalnya,
Explore songs data
. Secara default:- Python adalah bahasa yang dipilih.
- Buku catatan dilampirkan ke kluster terakhir yang Anda gunakan. Dalam hal ini, kluster yang Anda buat di Langkah 1: Buat kluster.
Untuk menampilkan konten direktori yang berisi himpunan data, masukkan yang berikut ini di sel pertama buku catatan, klik , dan pilih Jalankan Sel.
%fs ls "/databricks-datasets/songs/data-001"
jalan nama size modificationTime 1 dbfs:/databricks-datasets/songs/README.md README.md 1719 1454620183000 2 dbfs:/databricks-datasets/songs/data-001/ data-001/ 0 1672791237846 3 dbfs:/databricks-datasets/songs/data-002/ data-002/ 0 1672791237846
Menjelajahi data
File README memiliki informasi tentang himpunan data, termasuk deskripsi skema data. Informasi skema digunakan pada langkah berikutnya saat menyerap data. Untuk menampilkan konten README, klik di menu tindakan sel, pilih Tambahkan Sel Di Bawah, masukkan yang berikut ini di sel baru, klik , dan pilih Jalankan Sel.
%fs head --maxBytes=10000 "/databricks-datasets/songs/README.md"
Sample of Million Song Dataset =============================== ## Source This data is a small subset of the [Million Song Dataset](http://labrosa.ee.columbia.edu/millionsong/). The original data was contributed by The Echo Nest. Prepared by T. Bertin-Mahieux <tb2332 '@' columbia.edu> ## Attribute Information - artist_id:string - artist_latitude:double - artist_longitude:double - artist_location:string - artist_name:string - duration:double - end_of_fade_in:double - key:int - key_confidence:double - loudness:double - release:string - song_hotnes:double - song_id:string - start_of_fade_out:double - tempo:double - time_signature:double - time_signature_confidence:double - title:string - year:double - partial_sequence:int ...
Rekaman yang digunakan dalam contoh ini ada di
/databricks-datasets/songs/data-001/
direktori. Untuk menampilkan konten direktori ini, klik di menu tindakan sel, pilih Tambahkan Sel Di Bawah, masukkan yang berikut ini di sel baru, klik , dan pilih Jalankan Sel.%fs ls "/databricks-datasets/songs/data-001"
jalan nama size modificationTime 1 dbfs:/databricks-datasets/songs/data-001/header.txt header.txt 377 1454633901000 2 dbfs:/databricks-datasets/songs/data-001/part-00000 part-00000 52837 1454547464000 3 dbfs:/databricks-datasets/songs/data-001/part-000001 part-00001 52469 1454547465000 Karena README dan nama file tidak menunjukkan format file, Anda bisa melihat sampel rekaman untuk lebih memahami konten dan format setiap rekaman. Untuk membaca dan menampilkan sepuluh rekaman pertama dari salah satu file data, klik di menu tindakan sel, pilih Tambahkan Sel Di Bawah, masukkan yang berikut ini di sel baru, klik , dan pilih Jalankan Sel.
%fs head --maxBytes=10000 "/databricks-datasets/songs/data-001/part-00000"
AR81V6H1187FB48872 nan nan Earl Sixteen 213.7073 0.0 11 0.419 -12.106 Soldier of Jah Army nan SOVNZSZ12AB018A9B8 208.289 125.882 1 0.0 Rastaman 2003 -- ARVVZQP11E2835DBCB nan nan Wavves 133.25016 0.0 0 0.282 0.596 Wavvves 0.471578247701 SOJTQHQ12A8C143C5F 128.116 89.519 1 0.0 I Want To See You (And Go To The Movies) 2009 -- ARFG9M11187FB3BBCB nan nan Nashua USA C-Side 247.32689 0.0 9 0.612 -4.896 Santa Festival Compilation 2008 vol.1 nan SOAJSQL12AB0180501 242.196 171.278 5 1.0 Loose on the Dancefloor 0 225261 ...
Anda dapat mengamati beberapa hal tentang data dari melihat sampel rekaman. Anda akan menggunakan pengamatan ini nanti saat memproses data:
- Rekaman tidak berisi header. Sebagai gantinya, header disimpan dalam file terpisah dalam direktori yang sama.
- File tampaknya dalam format nilai yang dipisahkan tab (TSV).
- Beberapa bidang hilang atau tidak valid.
- Rekaman tidak berisi header. Sebagai gantinya, header disimpan dalam file terpisah dalam direktori yang sama.
Untuk menjelajahi dan menganalisis data lebih lanjut, gunakan pengamatan ini untuk memuat data lagu berformat TSV ke dalam PySpark DataFrame. Untuk melakukan ini, klik di menu tindakan sel, pilih Tambahkan Sel Di Bawah ini, masukkan kode berikut di sel baru, lalu klik> Jalankan Sel.
df = spark.read.format('csv').option("sep", "\t").load('dbfs:/databricks-datasets/songs/data-001/part-00000') df.display()
Karena file data kehilangan header, nama kolom ditampilkan sebagai
_c0
,_c1
, dan sebagainya. Setiap kolom ditafsirkan sebagaistring
terlepas dari jenis data aktual. Penyerapan data mentah pada langkah berikutnya menunjukkan contoh bagaimana Anda dapat memaksakan skema yang valid saat Anda memuat data.
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk