Ukázkové datové sady
Azure Databricks poskytuje celou řadu ukázkových datových sad a zpřístupnil je třetí strany, které můžete použít ve svém pracovním prostoru Azure Databricks.
Datové sady katalogu Unity
Katalog Unity poskytuje přístup k řadě ukázkových datových sad v samples
katalogu. Tyto datové sady můžete zkontrolovat v uživatelském rozhraní Průzkumníka katalogu a odkazovat na ně přímo v poznámkovém bloku nebo v editoru SQL pomocí <catalog-name>.<schema-name>.<table-name>
vzoru.
Schéma nyctaxi
(označované také jako databáze) obsahuje tabulku trips
, která obsahuje podrobnosti o jízdách taxíkem v New Yorku. Následující příkaz vrátí prvních 10 záznamů v této tabulce:
SELECT * FROM samples.nyctaxi.trips LIMIT 10
Schéma tpch
obsahuje data z srovnávacího testu TPC-H. Pokud chcete zobrazit seznam tabulek v tomto schématu, spusťte:
SHOW TABLES IN samples.tpch
Datové sady Databricks (databricks-datasets)
Azure Databricks zahrnuje celou řadu ukázkových datových sad připojených k DBFS.
Poznámka:
Dostupnost a umístění datových sad Databricks se můžou bez předchozího upozornění změnit.
Procházení datových sad Databricks
K procházení těchto souborů z poznámkového bloku Python, Scala nebo R můžete použít referenční informace k nástrojům Databricks (dbutils). Následující kód obsahuje seznam všech dostupných datových sad Databricks.
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"
Získání informací o datových sadách Databricks
Pokud chcete získat další informace o datové sadě Databricks, můžete pomocí místního souborového rozhraní API vytisknout datovou sadu README
(pokud je k dispozici) pomocí poznámkového bloku Python, R nebo Scala, jak je znázorněno v tomto příkladu kódu.
Python
f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())
Scala
scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
print
}
R
library(readr)
f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)
Vytvoření tabulky založené na datové sadě Databricks
Tento příklad kódu ukazuje použití SQL v editoru SQL nebo použití poznámkových bloků SQL, Pythonu, Scaly nebo R k vytvoření tabulky založené na datové sadě Databricks:
SQL
CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')
Python
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
Scala
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
R
library(SparkR)
sparkR.session()
sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
Ukázkové datové sady třetích stran ve formátu CSV
Azure Databricks má integrované nástroje pro rychlé nahrání ukázkových datových sad třetích stran jako soubory hodnot oddělených čárkami (CSV) do pracovních prostorů Azure Databricks. Některé oblíbené ukázkové datové sady třetích stran dostupné ve formátu CSV:
Ukázková datová sada | Stažení ukázkové datové sady jako souboru CSV... |
---|---|
Veverka Sčítání lidu | Na webové stránce Data klikněte na Park Data, Data veverka nebo příběhy. |
Kolekce datových sad OWID | V úložišti GitHub klikněte na složku datových sad. Klikněte na podsložku obsahující cílovou datovou sadu a potom klikněte na soubor CSV datové sady. |
Data.gov datových sad CSV | Na webové stránce výsledků hledání klikněte na cílový výsledek hledání a vedle ikony CSV klikněte na Tlačítko Stáhnout. |
Kosočtverce (vyžaduje účet Kaggle ) | Na webové stránce datové sady klikněte na kartě Data na kartě Data vedle diamonds.csv na ikonu Stáhnout. |
NYC Taxi Trip Duration (Vyžaduje účet Kaggle ) | Na webové stránce datové sady klikněte na kartě Data vedle sample_submission.zip Ikona pro stažení Pokud chcete najít soubory CSV datové sady, extrahuje obsah staženého souboru ZIP. |
POZOROVÁNÍ CENTRA (vyžaduje účet data.world ) | Na webové stránce datové sady vedle nuforc_reports.csv klikněte na ikonu Stáhnout. |
Pokud chcete v pracovním prostoru Azure Databricks použít ukázkové datové sady třetích stran, postupujte takto:
- Podle pokynů třetích stran si datovou sadu stáhněte jako soubor CSV do místního počítače.
- Nahrajte soubor CSV z místního počítače do pracovního prostoru Azure Databricks.
- Pokud chcete pracovat s importovanými daty, použijte Databricks SQL k dotazování dat. Nebo můžete použít poznámkový blok k načtení dat jako datového rámce.
Ukázkové datové sady třetích stran v knihovnách
Některé třetí strany zahrnují ukázkové datové sady v knihovnách, jako jsou balíčky PyPI (Python Package Index) nebo balíčky CRAN (Comprehensive R Archive Network). Další informace najdete v dokumentaci poskytovatele knihovny.
- Pokud chcete nainstalovat knihovnu do clusteru Azure Databricks pomocí uživatelského rozhraní clusteru, přečtěte si téma Knihovny clusteru.
- Pokud chcete nainstalovat knihovnu Pythonu pomocí poznámkového bloku Azure Databricks, přečtěte si téma Knihovny Pythonu v oboru poznámkového bloku.
- Pokud chcete nainstalovat knihovnu R pomocí poznámkového bloku Azure Databricks, přečtěte si téma Knihovny jazyka R s oborem poznámkového bloku.
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro