方法: combinable を使用してパフォーマンスを向上させる

[アーティクル]
06/16/2023

この例では、concurrency::combinable クラスを使用して、std::array オブジェクト内の素数の合計を計算する方法を示します。 combinable クラスは、共有状態を解消することでパフォーマンスを向上します。

ヒント

並列マップ (concurrency::parallel_transform) と並列縮小 (concurrency:: parallel_reduce) の方が combinable よりもパフォーマンスを向上させることができる場合もあります。マップ演算とリデュース演算を使用してこの例と同じ結果を生成する例については、「並列アルゴリズム」を参照してください。

例 - accumulate

次の例では、std::accumulate 関数を使用して、配列内の素数である要素の合計を計算します。この例では、a は array オブジェクトであり、入力値が素数であるかどうかを判定するために is_prime 関数を使用します。

prime_sum = accumulate(begin(a), end(a), 0, [&](int acc, int i) {
   return acc + (is_prime(i) ? i : 0);
});

例 - parallel_for_each

次の例では、前の例の並列化を単純な方法で示します。この例では、concurrency::parallel_for_each アルゴリズムを使用して配列を並列で処理し、concurrency::critical_section オブジェクトを使用して prime_sum 変数へのアクセスを同期します。この例では、共有リソースが使用できるようになるのを各スレッドが待機する必要があるため、効率は改善されません。

critical_section cs;
prime_sum = 0;
parallel_for_each(begin(a), end(a), [&](int i) {
   cs.lock();
   prime_sum += (is_prime(i) ? i : 0);
   cs.unlock();
});

例 - combinable

combinable オブジェクトを使用して、前の例のパフォーマンスを向上する例を次に示します。この例では、同期オブジェクトが不要となっています。combinable オブジェクトを使用することにより、各スレッドがタスクを独立して実行できるため、効率が改善されます。

通常、combinable オブジェクトは次の手順で使用します。最初に、処理を並列で実行して、詳細な計算結果を生成します。次に、この計算結果を結合 (換算) して最終結果を生成します。この例では、concurrency::combinable::local メソッドを使用して、ローカルの合計への参照を取得します。次に、concurrency::combinable::combine メソッドと std::plus オブジェクトを使用して、ローカルの計算を結合して最終結果を得ます。

combinable<int> sum;
parallel_for_each(begin(a), end(a), [&](int i) {
   sum.local() += (is_prime(i) ? i : 0);
});
prime_sum = sum.combine(plus<int>());

例 - 逐次と並列

次のコード例全体では、素数の合計を逐次処理と並列処理の両方で計算します。この例では、両方の計算に要する時間もコンソールに出力します。

// parallel-sum-of-primes.cpp
// compile with: /EHsc
#include <windows.h>
#include <ppl.h>
#include <array>
#include <numeric>
#include <iostream>

using namespace concurrency;
using namespace std;

// Calls the provided work function and returns the number of milliseconds 
// that it takes to call that function.
template <class Function>
__int64 time_call(Function&& f)
{
   __int64 begin = GetTickCount();
   f();
   return GetTickCount() - begin;
}

// Determines whether the input value is prime.
bool is_prime(int n)
{
   if (n < 2)
      return false;
   for (int i = 2; i < n; ++i)
   {
      if ((n % i) == 0)
         return false;
   }
   return true;
}

int wmain()
{   
   // Create an array object that contains 200000 integers.
   array<int, 200000> a;

   // Initialize the array such that a[i] == i.
   iota(begin(a), end(a), 0);

   int prime_sum;
   __int64 elapsed;

   // Compute the sum of the numbers in the array that are prime.
   elapsed = time_call([&] {
      prime_sum = accumulate(begin(a), end(a), 0, [&](int acc, int i) {
         return acc + (is_prime(i) ? i : 0);
      });
   });   
   wcout << prime_sum << endl;   
   wcout << L"serial time: " << elapsed << L" ms" << endl << endl;

   // Now perform the same task in parallel.
   elapsed = time_call([&] {
      combinable<int> sum;
      parallel_for_each(begin(a), end(a), [&](int i) {
         sum.local() += (is_prime(i) ? i : 0);
      });
      prime_sum = sum.combine(plus<int>());
   });
   wcout << prime_sum << endl;
   wcout << L"parallel time: " << elapsed << L" ms" << endl << endl;
}

4 つのプロセッサを備えたコンピューターを使用したときのサンプル出力を次に示します。

1709600813
serial time: 6178 ms

1709600813
parallel time: 1638 ms

コードのコンパイル

このコードをコンパイルするには、コードをコピーし、Visual Studio プロジェクトに貼り付けるか、parallel-sum-of-primes.cpp という名前のファイルに貼り付けてから、Visual Studio のコマンドプロンプトウィンドウで次のコマンドを実行します。

cl.exe /EHsc parallel-sum-of-primes.cpp

信頼性の高いプログラミング

マップ演算とリデュース演算を使用して同じ結果を生成する例については、「並列アルゴリズム」を参照してください。

Share via