Bagikan melalui


Data demo Taksi NYC untuk tutorial SQL Server Python dan R

Berlaku untuk: SQL Server 2016 (13.x) dan Azure SQL Managed Instance yang lebih baru

Artikel ini menjelaskan cara menyiapkan database sampel yang terdiri dari data publik dari New York City Taxi dan Limousine Commission. Data ini digunakan dalam beberapa tutorial R dan Python untuk analitik dalam database di SQL Server. Untuk membuat kode sampel berjalan lebih cepat, kami membuat pengambilan sampel 1% data yang representatif. Pada sistem Anda, file cadangan database sedikit lebih dari 90 MB, menyediakan 1,7 juta baris dalam tabel data utama.

Untuk menyelesaikan latihan ini, Anda harus memiliki SQL Server Management Studio (SSMS) atau alat lain yang dapat memulihkan file cadangan database dan menjalankan kueri T-SQL.

Tutorial dan mulai cepat menggunakan himpunan data ini mencakup artikel berikut:

Mengunduh file

Database sampel adalah file cadangan SQL Server 2016 (.bak) yang dihosting oleh Microsoft. Anda dapat memulihkannya di SQL Server 2016 dan yang lebih baru. Unduhan file segera dimulai ketika Anda membuka tautan.

Ukuran file sekitar 90 MB.

Catatan

Untuk memulihkan database sampel di SQL Server Kluster Big Data, unduh NYCTaxi_Sample.bak dan ikuti petunjuk dalam Memulihkan database ke dalam instans master kluster big data SQL Server.

Catatan

Untuk memulihkan database sampel di Pembelajaran Mesin Services di Azure SQL Managed Instance, ikuti instruksi di Mulai Cepat: Memulihkan database ke Azure SQL Managed Instance menggunakan database demo Taksi NYC .bak file: https://aka.ms/sqlmldocument/NYCTaxi_Sample.bak.

  1. Unduh file cadangan database NYCTaxi_Sample.bak.

  2. Salin file ke C:\Program files\Microsoft SQL Server\MSSQL-instance-name\MSSQL\Backup atau jalur serupa, untuk folder default Backup instans Anda.

  3. Di SQL Server Management Studio, klik kanan Database dan pilih Pulihkan File dan Grup File.

  4. Masukkan NYCTaxi_Sample sebagai nama database.

  5. Pilih Dari perangkat lalu buka halaman pemilihan file untuk memilih NYCTaxi_Sample.bak file cadangan. Pilih Tambahkan untuk memilih NYCTaxi_Sample.bak.

  6. Pilih kotak centang Pulihkan dan pilih OK untuk memulihkan database.

Meninjau objek database

Konfirmasikan objek database ada di instans SQL Server menggunakan SQL Server Management Studio. Anda akan melihat database, tabel, fungsi, dan prosedur tersimpan.

rsql_devtut_BrowseTables

Objek dalam database NYCTaxi_Sample

Tabel berikut ini meringkas objek yang dibuat dalam database demo Taksi NYC.

Nama objek Jenis objek Keterangan
NYCTaxi_Sample database Membuat database dan dua tabel:

dbo.nyctaxi_sample tabel: Berisi himpunan data Taksi NYC utama. Indeks penyimpan kolom berkluster ditambahkan ke tabel untuk meningkatkan penyimpanan dan performa kueri. Sampel 1% dari himpunan data Taksi NYC dimasukkan ke dalam tabel ini.

dbo.nyc_taxi_models tabel: Digunakan untuk mempertahankan model analitik tingkat lanjut terlatih.
fnCalculateDistance fungsi bernilai skalar Menghitung jarak langsung antara lokasi penjemputan dan pengantaran. Fungsi ini digunakan dalam Membuat fitur data, Melatih dan menyimpan model dan Mengoprasionalkan model R.
fnEngineerFeatures fungsi bernilai tabel Membuat fitur data baru untuk pelatihan model. Fungsi ini digunakan dalam Membuat fitur data dan Mengoprasionalkan model R.

Prosedur tersimpan dibuat menggunakan skrip R dan Python yang ditemukan dalam berbagai tutorial. Tabel berikut ini meringkas prosedur tersimpan yang dapat Anda tambahkan secara opsional ke database demo Taksi NYC saat Anda menjalankan skrip dari berbagai pelajaran.

Prosedur Tersimpan Bahasa Keterangan
RxPlotHistogram R Memanggil fungsi RevoScaleR rxHistogram untuk memplot histogram variabel lalu mengembalikan plot sebagai objek biner. Prosedur tersimpan ini digunakan dalam Menjelajahi dan memvisualisasikan data.
RPlotRHist R Membuat grafik menggunakan Hist fungsi dan menyimpan output sebagai file PDF lokal. Prosedur tersimpan ini digunakan dalam Menjelajahi dan memvisualisasikan data.
RxTrainLogitModel R Melatih model regresi logistik dengan memanggil paket R. Model memprediksi nilai tipped kolom, dan dilatih menggunakan 70% data yang dipilih secara acak. Output prosedur tersimpan adalah model terlatih, yang disimpan dalam tabel dbo.nyc_taxi_models. Prosedur tersimpan ini digunakan dalam Melatih dan menyimpan model.
RxPredictBatchOutput R Memanggil model terlatih untuk membuat prediksi menggunakan model. Prosedur tersimpan menerima kueri sebagai parameter inputnya dan mengembalikan kolom nilai numerik yang berisi skor untuk baris input. Prosedur tersimpan ini digunakan dalam Memprediksi potensi hasil.
RxPredictSingleRow R Memanggil model terlatih untuk membuat prediksi menggunakan model. Prosedur tersimpan ini menerima pengamatan baru sebagai input, dengan nilai fitur individual diteruskan sebagai parameter in-line, dan mengembalikan nilai yang memprediksi hasil untuk pengamatan baru. Prosedur tersimpan ini digunakan dalam Memprediksi potensi hasil.

Mengueri data

Sebagai langkah validasi, jalankan kueri untuk mengonfirmasi bahwa data telah diunggah.

  1. Di Object Explorer, di bawah Database, klik kanan database NYCTaxi_Sample , dan mulai kueri baru.

  2. Jalankan beberapa kueri dasar:

    SELECT TOP(10) * FROM dbo.nyctaxi_sample;
    SELECT COUNT(*) FROM dbo.nyctaxi_sample;
    

Database berisi 1,7 juta baris.

  1. Dalam database adalah dbo.nyctaxi_sample tabel yang berisi himpunan data. Tabel telah dioptimalkan untuk perhitungan berbasis set dengan penambahan indeks penyimpan kolom. Jalankan pernyataan ini untuk menghasilkan ringkasan cepat pada tabel.

    SELECT DISTINCT [passenger_count]
        , ROUND (SUM ([fare_amount]),0) as TotalFares
        , ROUND (AVG ([fare_amount]),0) as AvgFares
    FROM [dbo].[nyctaxi_sample]
    GROUP BY [passenger_count]
    ORDER BY  AvgFares DESC
    

Hasilnya harus mirip dengan yang ditampilkan dalam cuplikan layar berikut.

Informasi ringkasan tabel

Langkah berikutnya

Data sampel Taksi NYC sekarang tersedia untuk pembelajaran langsung.