Hail 0.2

Die Bibliothek ist eine Bibliothek, die auf Apache Spark zum Analysieren großer genomischer Datasets basiert.

Wichtig

  • Verwenden Sie ab Version 0.2.65 Apache Spark Version 3.1.1 (Databricks Runtime 8.x oder höher).
  • Installieren Sie Die Installation auf Databricks Runtime, nicht Databricks Runtime für Genomics (veraltet).

Erstellen eines Hail-Clusters

Installieren Sie Über Docker mit Databricks Container Services.

Container zum Einrichten einer Umgebung finden Sie auf der Seite ProjectGlow Dockerhub . Verwenden Sie , und ersetzen Sie projectglow/databricks-hail:<hail_version> das Tag durch eine verfügbare Version von "Versionswechsel".

  1. Erstellen eines Jobs-Clusters mit "Ausschau"

    1. Richten Sie die Databricks CLIein.
    2. Erstellen Sie einen Cluster mithilfe des Docker-Containers " Undlegen Sie das -Tag auf den gewünschten fest.
    3. Unten finden Sie eine Beispieldefinition für Aufträge. Bearbeiten Sie notebook_path, Databricks Runtime und <hail_version> .
    databricks jobs create --json-file hail-create-job.json
    

    hail-create-job.json:

{
  "name": "hail",
  "notebook_task": {
    "notebook_path" : "/Users/<user@organization.com>/hail/docs/hail-tutorial",
  },
  "new_cluster": {
    "spark_version": "<databricks_runtime_version>.x-scala2.12",
    "azure_attributes": {
      "availability": "SPOT",
      "availability": "SPOT_WITH_FALLBACK_AZURE",
      "spot_bid_max_price": -1
    },
    "node_type_id": "Standard_DS3_v2",
    "num_workers": 32,
    "docker_image": {
      "url": "projectglow/databricks-hail:<hail_version>"
    }
  }
}

Verwenden von Hail in einem Notebook

In Azure Databricks funktioniert der Code von "Über 0.2" größtenteils identisch mit der Dokumentation zu "Documentation". Es gibt jedoch einige Änderungen, die für die Azure Databricks-Umgebung erforderlich sind.

Initialisieren von "Auslauf"

Übergeben Sie beim Initialisieren von "1" die vorab erstellte , SparkContext und markieren Sie die Initialisierung als idempotent. Diese Einstellung ermöglicht es mehreren Azure Databricks Notebooks, denselben Context Zu verwenden.

Hinweis

Aktivieren Sie skip_logging_configuration diese Option, um Protokolle in der log4j-Ausgabe des parallelen Treibers zu speichern. Diese Einstellung wird nur in Der 0.2.39 und höher unterstützt.

import hail as hl
hl.init(sc, idempotent=True, quiet=True, skip_logging_configuration=True)

Anzeigen von Bokeh-Plots

Die Bokeh-Bibliothek wird verwendet, um Plots zu erstellen. Die show in Bokeh integrierte Funktion funktioniert nicht in Azure Databricks. Sie können einen Befehl wie den folgenden ausführen, um einen bokeh-Plot anzuzeigen, der von Dere generiert wurde:

from bokeh.embed import components, file_html
from bokeh.resources import CDN
plot = hl.plot.histogram(mt.DP, range=(0,30), bins=30, title='DP Histogram', legend='DP')
html = file_html(plot, CDN, "Chart")
displayHTML(html)

Weitere Informationen finden Sie unter Bokeh.