DirectQuery を使用する HDInsight 上の SparkSpark on HDInsight with DirectQuery

DirectQuery を使用する Azure HDInsight 上の Spark を使えば、Spark クラスターにすでに保持してあるデータとメトリックに基づいて、動的なレポートを作成できます。Spark on Azure HDInsight with DirectQuery allows you to create dynamic reports based on data and metric you already have in your Spark cluster. DirectQuery があれば、レポート ビューでデータを探索するときに、Azure HDInsight Spark クラスターにクエリが送り返されます。With DirectQuery, queries are sent back to your Azure HDInsight Spark cluster as you explore the data in the report view. この操作は、接続先のエンティティに精通しているユーザーにお勧めします。This experience is suggested for users who are familiar with the entities they connect to.

警告

Spark ベースのデータセットに基づいて作成されたダッシュボードのタイルでは、タイルの自動更新は無効になっています。Automatic tile refresh has been disabled for dashboard tiles built on Spark based datasets. [ダッシュボード タイルの更新] を選択して手動で更新できます。You can select Refresh Dashboard Tiles to refresh manually. レポートは影響を受けず、最新の状態のままです。Reports are not impacted and should remain up-to-date.

次の手順を使用すると、Power BI サービス内の DirectQuery を使用して、Azure HDInsight のデータ ソースで Spark に接続できます。You can use the following steps to connect to your Spark on Azure HDInsight data source using DirectQuery within the Power BI service.

  1. 左側のナビゲーション ウィンドウの下部にある [データの取得] を選択します。Select Get Data at the bottom of the left navigation pane.

  2. [データベースとその他] を選択します。Select Databases & More.

  3. [Spark on HDInsight] コネクタを選択して、 [接続]を選択します。Select the Spark on HDInsight connector and choose Connect.

  4. 接続先のサーバーの名前と、ユーザー名およびパスワードを入力します。Enter the name of the server you want to connect to, as well as your username and password. このサーバーは、常に <クラスター名>.azurehdinsight.net という形式になります。これらの値を見つける方法については後述します。The server is always in the form <clustername>.azurehdinsight.net, see more details about finding these values below.

  5. 接続すると、"SparkDataset" という名前の新しいデータセットが表示されます。Once connected, you'll see a new dataset with named “SparkDataset”. このデータセットには、作成されたプレースホルダーのタイルからアクセスすることもできます。You can also access the dataset through the placeholder tile that is created.

  6. データセットをドリルダウンすると、データベースに含まれるすべてのテーブルと列を探索できます。Drilling into the dataset, you can explore all of the tables and columns in your database. 列を選択すると、クエリがソースに送り返されて、ビジュアルが動的に作成されます。Selecting a column will send a query back to the source, dynamically creating your visual. これらのビジュアルは、新しいレポートに保存したり、ダッシュボードに戻してピン留めしたりできます。These visuals can be saved in a new report, and pinned back to your dashboard.

HDInsight 上の Spark のパラメーターを検索するFinding your Spark on HDInsight parameters

サーバーは、常に <クラスター名>.azurehdinsight.net の形式になります。これは、Azure Portal で確認できます。The server is always in the form <clustername>.azurehdinsight.net, and can be found in the Azure portal.

ユーザー名とパスワードについても、Azure Portal で確認できます。The username and password can also be found in the Azure portal.

制限事項Limitations

これらの制限および注意事項については、エクスペリエンスの向上に伴い変更される可能性があります。These restrictions and notes may change as we continue to improve the experiences. その他のドキュメントは、「Azure HDInsight の Apache Spark での BI ツールの使用」をご覧ください。Additional documentation can be found at Use BI tools with Apache Spark on Azure HDInsight

  • Power BI サービスでは、Spark 2.0 および HDInsight 3.5 の構成のみをサポートしています。The Power BI service only supports a configuration of Spark 2.0 and HDInsight 3.5.
  • 列の選択やフィルターの追加など、各操作からクエリがデータベースに送信されるようになりました。サイズの大きなフィールドを選択する前に、適切なビジュアルの種類を選択してください。Every action such as selecting a column or adding a filter will send a query back to the database – before selecting very large fields, consider choosing an appropriate visual type.
  • DirectQuery データセットの Q&A は使用できません。Q&A is not available for DirectQuery datasets.
  • スキーマ変更は自動選択されません。Schema changes are not picked up automatically.
  • Power BI では、データセット内のテーブル全体で 16,000 の列がサポートされています。Power BI supports 16,000 columns across all tables within a dataset. また、Power BI には、テーブルごとに内部の行番号列も含まれています。Power BI also includes an internal row number column per table. つまり、データセット内にテーブルが 100 個ある場合は、使用可能な列数は 15,900 になるということです。This means if you have 100 tables in the dataset, the available number of columns would be 15,900. Spark データ ソースから使用しているデータの量によって、この制限は異なる場合があります。Depending on the amount of data you are working with from your Spark data source, you may encounter this limitation.

トラブルシューティングTroubleshooting

クラスターに対するクエリの実行に問題が発生する場合は、アプリケーションがまだ実行されているかどうかを確認し、必要な場合は再起動します。If you're hitting issues executing queries against your cluster, verify the application is still running and restart if necessary.

[構成] > [クラスターのスケール設定] で Azure Portal 内の他のリソースを割り当てることもできます。You can also allocate additional resources within the Azure portal under Configuration > Scale Cluster:

次の手順Next steps

概要: HDInsight Linux で Apache Spark クラスターを作成し、Spark SQL を使用して対話型のクエリを実行するGet started: Create Apache Spark cluster on HDInsight Linux and run interactive queries using Spark SQL
Power BI の概要Get started with Power BI
Power BI のデータの取得Get Data for Power BI
他にわからないことがある場合は、More questions? Power BI コミュニティを利用してくださいTry the Power BI Community