Hail 0.2Hail 0.2

やあは、大規模なゲノムデータセットを分析するために Apache Spark 上に構築されたライブラリです。Hail is a library built on Apache Spark for analyzing large genomic datasets. やあ0.2 は、Genomics の Databricks Runtimeに統合されています。Hail 0.2 is integrated into Databricks Runtime for Genomics.

やあ cluster を作成するCreate a Hail cluster

インストールされたインストールでクラスターを作成するには、次のようにします。To create a cluster with Hail installed:

  1. 次の環境変数を設定します。Set the following environment variable:

    ENABLE_HAIL=true
    

    この環境変数を使用すると、クラスターは、0.2、その依存関係、および Python 3.6 がインストールされた状態で起動します。This environment variable causes the cluster to launch with Hail 0.2, its dependencies, and Python 3.6 installed.

Notebook でのやあの使用Use Hail in a notebook

ほとんどの場合、Azure Databricks の0.2 コードは、お持ちのドキュメントと同じように動作します。For the most part, Hail 0.2 code in Azure Databricks works identically to the Hail documentation. ただし、Azure Databricks 環境にはいくつかの変更が必要です。However, there are a few modifications that are necessary for the Azure Databricks environment.

初期化Initialization

やあを初期化するときに、事前に作成した SparkContext を渡し、その初期化をべき等としてマークします。When initializing Hail, pass in the pre-created SparkContext and mark the initialization as idempotent. この設定により、複数の Azure Databricks notebook で同じように自分のコンテキストを使用できるようになります。This setting enables multiple Azure Databricks notebooks to use the same Hail context.

import hail as hl
hl.init(sc, idempotent=True)

描画Plotting

やあは、 Bokehライブラリを使用してプロットを作成します。Hail uses the Bokeh library to create plots. Bokeh に組み込まれている show 関数は、Azure Databricks では機能しません。The show function built into Bokeh does not work in Azure Databricks. 次のようなコマンドを実行すると、その後に生成された Bokeh プロットを表示できます。To display a Bokeh plot generated by Hail, you can run a command like:

from bokeh.embed import components, file_html
from bokeh.resources import CDN
plot = hl.plot.histogram(mt.DP, range=(0,30), bins=30, title='DP Histogram', legend='DP')
html = file_html(plot, CDN, "Chart")
displayHTML(html)

詳細については、「 Python notebook の Bokeh 」を参照してください。See Bokeh in Python Notebooks for more information.

制限Limitations

  • やあ support が有効になっている場合、クラスターは Python 3.6 を使用するので、異なるバージョンの Python に対して作成されたノートブックは動作しない可能性があります。When Hail support is enabled, your cluster uses Python 3.6, so notebooks written against different versions of Python may not work.
  • やあ support が有効になっていると、既定でインストールされる Python ライブラリの量が減ります。When Hail support is enabled, fewer Python libraries are installed by default. ライブラリ機能を使用して、新しいライブラリをインストールすることもできます。You can still use the Libraries feature to install new libraries.

自分のクラスターをセットアップした後は、自分の概要 notebook を試してみてください。After you’ve set up a Hail cluster, try out the Hail overview notebook.

やあの概要 notebookHail overview notebook

ノートブックを取得するGet notebook