Örnek veri kümeleri

Azure Databricks tarafından sağlanan ve Azure Databricks çalışma alanınızda kullanabileceğiniz üçüncü taraflar tarafından kullanıma sunulan çeşitli örnek veri kümeleri vardır.

Unity Kataloğu veri kümeleri

Unity Kataloğu , katalogdaki bir dizi örnek veri kümesine samples erişim sağlar. Bu veri kümelerini Katalog Gezgini kullanıcı arabiriminde gözden geçirebilir ve deseni kullanarak doğrudan bir not defterinde veya SQL düzenleyicisinde<catalog-name>.<schema-name>.<table-name> bunlara başvurabilirsiniz.

Şema nyctaxi (veritabanı olarak da bilinir), New York'taki taksi yolculuklarıyla ilgili ayrıntıları içeren tablosunu tripsiçerir. Aşağıdaki deyim, bu tablodaki ilk 10 kaydı döndürür:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Şema, tpch TPC-H Karşılaştırmasından verileri içerir. Bu şemadaki tabloları listelemek için şunu çalıştırın:

SHOW TABLES IN samples.tpch

Databricks veri kümeleri (databricks-datasets)

Azure Databricks, DBFS'ye bağlı çeşitli örnek veri kümeleri içerir.

Not

Databricks veri kümelerinin kullanılabilirliği ve konumu bildirimde bulunmaksızın değiştirilebilir.

Databricks veri kümelerine göz atma

Python, Scala veya R not defterinden bu dosyalara göz atmak için Databricks Yardımcı Programları (dbutils) başvurularını kullanabilirsiniz. Aşağıdaki kod tüm kullanılabilir Databricks veri kümelerini listeler.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Databricks veri kümeleri hakkında bilgi alma

Databricks veri kümesi hakkında daha fazla bilgi edinmek için, bu kod örneğinde gösterildiği gibi Python, R veya Scala not defteri kullanarak veri kümesini README (varsa) yazdırmak için yerel dosya API'sini kullanabilirsiniz.

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Databricks veri kümesini temel alan bir tablo oluşturma

Bu kod örneğinde SQL düzenleyicisinde SQL'in nasıl kullanılacağı veya Databricks veri kümesini temel alan bir tablo oluşturmak için SQL, Python, Scala veya R not defterlerinin nasıl kullanılacağı gösterilmektedir:

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

CSV biçiminde üçüncü taraf örnek veri kümeleri

Azure Databricks, üçüncü taraf örnek veri kümelerini virgülle ayrılmış değerler (CSV) dosyaları olarak Azure Databricks çalışma alanlarına hızla yüklemek için yerleşik araçlara sahiptir. CSV biçiminde kullanılabilen bazı popüler üçüncü taraf örnek veri kümeleri:

Örnek veri kümesi Örnek veri kümesini CSV dosyası olarak indirmek için...
Sincap Nüfus Sayımı Veri web sayfasında Verileri Park Et'e tıklayın.
Sincap Verileri veya Hikayeler.
OWID Veri Kümesi Koleksiyonu GitHub deposunda veri kümeleri klasörüne tıklayın. Hedef veri kümesini içeren alt klasöre tıklayın ve ardından veri kümesinin CSV dosyasına tıklayın.
CSV veri kümelerini Data.gov Arama sonuçları web sayfasında hedef arama sonucuna tıklayın ve CSV simgesinin yanında İndir'e tıklayın.
Elmaslar (Kaggle hesabı gerektirir) Veri kümesinin web sayfasındaki Veri sekmesindeki Veri sekmesinde, diamonds.csv yanındaki İndir simgesine tıklayın.
NYC Taksi Yolculuğu Süresi (Kaggle hesabı gerektirir) Veri kümesinin web sayfasında, Veri sekmesinde, sample_submission.zip yanındaki
İndir simgesi. Veri kümesinin CSV dosyalarını bulmak için indirilen ZIP dosyasının içeriğini ayıklar.
UFO Gözlemleri (data.world hesabı gerektirir) Veri kümesinin web sayfasında,
nuforc_reports.csv İndir simgesine tıklayın.

Azure Databricks çalışma alanınızda üçüncü taraf örnek veri kümelerini kullanmak için aşağıdakileri yapın:

  1. Veri kümesini yerel makinenize CSV dosyası olarak indirmek için üçüncü tarafın yönergelerini izleyin.
  2. CSV dosyasını yerel makinenizden Azure Databricks çalışma alanınıza yükleyin.
  3. İçeri aktarılan verilerle çalışmak için Databricks SQL'i kullanarak verileri sorgular. Ya da verileri DataFrame olarak yüklemek için bir not defteri kullanabilirsiniz.

Kitaplıklar içindeki üçüncü taraf örnek veri kümeleri

Bazı üçüncü taraflar, Python Paket Dizini (PyPI) paketleri veya Kapsamlı R Arşiv Ağı (CRAN) paketleri gibi kitaplıklar içindeki örnek veri kümelerini içerir. Daha fazla bilgi için kitaplık sağlayıcısının belgelerine bakın.