Örnek veri kümeleri
Azure Databricks tarafından sağlanan ve Azure Databricks çalışma alanınızda kullanabileceğiniz üçüncü taraflar tarafından kullanıma sunulan çeşitli örnek veri kümeleri vardır.
Unity Kataloğu veri kümeleri
Unity Kataloğu , katalogdaki bir dizi örnek veri kümesine samples
erişim sağlar. Bu veri kümelerini Katalog Gezgini kullanıcı arabiriminde gözden geçirebilir ve deseni kullanarak doğrudan bir not defterinde veya SQL düzenleyicisinde<catalog-name>.<schema-name>.<table-name>
bunlara başvurabilirsiniz.
Şema nyctaxi
(veritabanı olarak da bilinir), New York'taki taksi yolculuklarıyla ilgili ayrıntıları içeren tablosunu trips
içerir. Aşağıdaki deyim, bu tablodaki ilk 10 kaydı döndürür:
SELECT * FROM samples.nyctaxi.trips LIMIT 10
Şema, tpch
TPC-H Karşılaştırmasından verileri içerir. Bu şemadaki tabloları listelemek için şunu çalıştırın:
SHOW TABLES IN samples.tpch
Databricks veri kümeleri (databricks-datasets)
Azure Databricks, DBFS'ye bağlı çeşitli örnek veri kümeleri içerir.
Not
Databricks veri kümelerinin kullanılabilirliği ve konumu bildirimde bulunmaksızın değiştirilebilir.
Databricks veri kümelerine göz atma
Python, Scala veya R not defterinden bu dosyalara göz atmak için Databricks Yardımcı Programları (dbutils) başvurularını kullanabilirsiniz. Aşağıdaki kod tüm kullanılabilir Databricks veri kümelerini listeler.
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"
Databricks veri kümeleri hakkında bilgi alma
Databricks veri kümesi hakkında daha fazla bilgi edinmek için, bu kod örneğinde gösterildiği gibi Python, R veya Scala not defteri kullanarak veri kümesini README
(varsa) yazdırmak için yerel dosya API'sini kullanabilirsiniz.
Python
f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())
Scala
scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
print
}
R
library(readr)
f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)
Databricks veri kümesini temel alan bir tablo oluşturma
Bu kod örneğinde SQL düzenleyicisinde SQL'in nasıl kullanılacağı veya Databricks veri kümesini temel alan bir tablo oluşturmak için SQL, Python, Scala veya R not defterlerinin nasıl kullanılacağı gösterilmektedir:
SQL
CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')
Python
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
Scala
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
R
library(SparkR)
sparkR.session()
sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
CSV biçiminde üçüncü taraf örnek veri kümeleri
Azure Databricks, üçüncü taraf örnek veri kümelerini virgülle ayrılmış değerler (CSV) dosyaları olarak Azure Databricks çalışma alanlarına hızla yüklemek için yerleşik araçlara sahiptir. CSV biçiminde kullanılabilen bazı popüler üçüncü taraf örnek veri kümeleri:
Örnek veri kümesi | Örnek veri kümesini CSV dosyası olarak indirmek için... |
---|---|
Sincap Nüfus Sayımı | Veri web sayfasında Verileri Park Et'e tıklayın. Sincap Verileri veya Hikayeler. |
OWID Veri Kümesi Koleksiyonu | GitHub deposunda veri kümeleri klasörüne tıklayın. Hedef veri kümesini içeren alt klasöre tıklayın ve ardından veri kümesinin CSV dosyasına tıklayın. |
CSV veri kümelerini Data.gov | Arama sonuçları web sayfasında hedef arama sonucuna tıklayın ve CSV simgesinin yanında İndir'e tıklayın. |
Elmaslar (Kaggle hesabı gerektirir) | Veri kümesinin web sayfasındaki Veri sekmesindeki Veri sekmesinde, diamonds.csv yanındaki İndir simgesine tıklayın. |
NYC Taksi Yolculuğu Süresi (Kaggle hesabı gerektirir) | Veri kümesinin web sayfasında, Veri sekmesinde, sample_submission.zip yanındaki İndir simgesi. Veri kümesinin CSV dosyalarını bulmak için indirilen ZIP dosyasının içeriğini ayıklar. |
UFO Gözlemleri (data.world hesabı gerektirir) | Veri kümesinin web sayfasında, nuforc_reports.csv İndir simgesine tıklayın. |
Azure Databricks çalışma alanınızda üçüncü taraf örnek veri kümelerini kullanmak için aşağıdakileri yapın:
- Veri kümesini yerel makinenize CSV dosyası olarak indirmek için üçüncü tarafın yönergelerini izleyin.
- CSV dosyasını yerel makinenizden Azure Databricks çalışma alanınıza yükleyin.
- İçeri aktarılan verilerle çalışmak için Databricks SQL'i kullanarak verileri sorgular. Ya da verileri DataFrame olarak yüklemek için bir not defteri kullanabilirsiniz.
Kitaplıklar içindeki üçüncü taraf örnek veri kümeleri
Bazı üçüncü taraflar, Python Paket Dizini (PyPI) paketleri veya Kapsamlı R Arşiv Ağı (CRAN) paketleri gibi kitaplıklar içindeki örnek veri kümelerini içerir. Daha fazla bilgi için kitaplık sağlayıcısının belgelerine bakın.
- Küme kullanıcı arabirimini kullanarak Azure Databricks kümesine kitaplık yüklemek için bkz . Küme kitaplıkları.
- Azure Databricks not defteri kullanarak Python kitaplığı yüklemek için bkz . Not defteri kapsamlı Python kitaplıkları.
- Azure Databricks not defteri kullanarak R kitaplığı yüklemek için bkz . Not defteri kapsamlı R kitaplıkları.