Mintaadatkészletek
Az Azure Databricks számos mintaadatkészletet biztosít, amelyeket harmadik felek bocsátanak rendelkezésre, amelyeket az Azure Databricks-munkaterületen használhat.
Unity Catalog-adatkészletek
A Unity Catalog számos mintaadatkészlethez biztosít hozzáférést a samples
katalógusban. Ezeket az adathalmazokat a Katalóguskezelő felhasználói felületén tekintheti át, és a mintával közvetlenül egy jegyzetfüzetben vagy az SQL-szerkesztőben<catalog-name>.<schema-name>.<table-name>
hivatkozhat rájuk.
A nyctaxi
séma (más néven adatbázis) tartalmazza a táblát trips
, amely a New York-i taxiútokkal kapcsolatos részleteket tartalmazza. Az alábbi utasítás a tábla első 10 rekordjának értékét adja vissza:
SELECT * FROM samples.nyctaxi.trips LIMIT 10
A tpch
séma a TPC-H benchmarkból származó adatokat tartalmaz. A séma tábláinak listázásához futtassa a következőt:
SHOW TABLES IN samples.tpch
Databricks-adathalmazok (databricks-datasets)
Az Azure Databricks számos dbFS-hez csatlakoztatott mintaadatkészletet tartalmaz.
Feljegyzés
A Databricks-adathalmazok elérhetősége és helye értesítés nélkül változhat.
Databricks-adathalmazok tallózása
Ha Python-, Scala- vagy R-jegyzetfüzetből szeretné böngészni ezeket a fájlokat, használhatja a Databricks Utilities (dbutils) referenciáját. Az alábbi kód felsorolja az összes elérhető Databricks-adatkészletet.
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"
Adatok lekérése a Databricks-adathalmazokról
A Databricks-adatkészletekkel kapcsolatos további információkért egy helyi fájl API-val kinyomtathatja az adathalmazt README
(ha van ilyen) egy Python-, R- vagy Scala-jegyzetfüzet használatával, ahogyan az ebben a kód példában látható.
Python
f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())
Scala
scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
print
}
R
library(readr)
f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)
Tábla létrehozása Databricks-adatkészlet alapján
Ez a példakód bemutatja, hogyan használható az SQL az SQL-szerkesztőben, illetve hogyan használható SQL-, Python-, Scala- vagy R-jegyzetfüzetek egy Databricks-adatkészleten alapuló tábla létrehozásához:
SQL
CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')
Python
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
Scala
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
R
library(SparkR)
sparkR.session()
sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
Külső mintaadatkészletek CSV formátumban
Az Azure Databricks beépített eszközökkel gyorsan feltölthet külső mintaadatkészleteket vesszővel tagolt értékek (CSV) fájlokként az Azure Databricks-munkaterületekre. Néhány népszerű, harmadik féltől származó mintaadatkészlet, amely CSV formátumban érhető el:
Mintaadatkészlet | A mintaadatkészlet CSV-fájlként való letöltéséhez... |
---|---|
A Mókus-összeírás | Az Adatok weblapon kattintson az Adatok parkja elemre, Mókusadatok vagy történetek. |
OWID-adatkészlet-gyűjtemény | A GitHub-adattárban kattintson az adathalmazok mappára. Kattintson a céladatkészletet tartalmazó almappára, majd az adathalmaz CSV-fájljára. |
CSV-adatkészletek Data.gov | A keresési eredmények weblapján kattintson a célkeresési eredményre, majd a CSV ikon mellett kattintson a Letöltés gombra. |
Rombuszok (Kaggle-fiókot igényel) | Az adathalmaz weblapján, az Adatok lapon, az Adatok lap diamonds.csv mellett kattintson a Letöltés ikonra. |
NYC taxiút időtartama (Kaggle-fiók szükséges) | Az adathalmaz weblapján, az Adatok lap sample_submission.zip mellett kattintson a Letöltés ikon. Az adathalmaz CSV-fájljainak megkereséséhez kinyeri a letöltött ZIP-fájl tartalmát. |
UFO-észlelések (data.world fiókot igényel) | Az adathalmaz weblapján, a következő mellett: nuforc_reports.csv kattintson a Letöltés ikonra. |
Ha külső mintaadatkészleteket szeretne használni az Azure Databricks-munkaterületen, tegye a következőket:
- A külső fél utasításait követve töltse le az adathalmazt CSV-fájlként a helyi gépére.
- Töltse fel a CSV-fájlt a helyi gépről az Azure Databricks-munkaterületre.
- Az importált adatok használatához használja a Databricks SQL-t az adatok lekérdezéséhez. Vagy egy jegyzetfüzethasználatával betöltheti az adatokat DataFrame-ként.
Külső mintaadatkészletek a kódtárakban
Egyes harmadik felek kódtárakon belüli mintaadatkészleteket tartalmaznak, például Python-csomagindex-csomagokat (PyPI- vagy Átfogó R Archive Network-csomagokat). További információkért tekintse meg a könyvtárszolgáltató dokumentációját.
- Ha egy Azure Databricks-fürtre szeretne kódtárat telepíteni a fürt felhasználói felületének használatával, tekintse meg a fürttárakat.
- Python-kódtár Azure Databricks-jegyzetfüzet használatával történő telepítéséhez tekintse meg a jegyzetfüzet-hatókörű Python-kódtárakat.
- Ha R-kódtárat szeretne telepíteni egy Azure Databricks-jegyzetfüzet használatával, tekintse meg a Jegyzetfüzet hatókörű R-kódtárakat.