トップQs
タイムライン
チャット
視点

OpenACC

ウィキペディアから

Remove ads

OpenACC (open acceleratorsの略) は、クレイ、CAPS、NVIDIA、そしてPGIによって開発された並列コンピューティングのための標準の一つである。この標準は、ヘテロジニアスCPU/GPUシステムの並列プログラミングを単純化するために設計された[2]

概要 最新版, プログラミング 言語 ...

位置付けとしては、CUDAOpenCLをさらに抽象化したものであり、OpenMPと似た存在である。

OpenMPのようにプログラマーは、ディレクティブと追加関数を使って高速化されるべき箇所を識別するようにC言語C++、そしてFORTRANソースコードを書き換えれば良い[3]。OpenMP 4.0 とより新しいバージョンのようにOpenACCはCPUとGPUの両方を対象にすることができ、それらの上で計算コードを起動することができる。

OpenACCの会員は、OpenMPの将来のリリースで動作する予定のアクセラレーター(GPUやコプロセッサなど)に対応したり、OpenMPを拡張する共通仕様を作成したり、OpenMPの仕様に合わせるためにOpenMP標準化グループの会員として働いてきた[4][5]。これらの活動は、ある技術報告書としてまとめられている[6]。この報告書のコメントと議論は、年次スーパーコンピューティング会議(2012年11月、ソルトレイクシティ)に時期を合わせるだけでなく、NVIDIA以外のアクセラレーターがOpenMPに参加しているハードウェアベンダーの意見をサポートするという表明にも時期を合わせている[7]

2012年の国際スーパーコンピューティング会議(ISC’12)において、OpenACCは、NVIDIAAMD そして Intel のアクセラレーター上で動作することを証明したが、性能データは公表されなかった[8]

2012年11月12日、SC12(2012年のスーパーコンピューティング会議)において、OpenACCバージョン2.0の草案が発表された[9] 。 新しく提案された機能は、データ移動における新しい制御(非構造化データの取り扱いの改善と不連続メモリ対応の改善のような)、明示的な関数呼び出し、そして分割コンパイル(高速化コードライブラリの作成と再利用を可能にする)という機能を含んでいる。OpenACC 2.0は2013年1月に公式にリリースされた[10]

仕様バージョン2.5は、2015年10月にリリースされた[11]。バージョン2.6は、2017年11月にリリースされた[12] 。バージョン2.7は、2018年11月にリリースされた[13]

2019年4月3日にジョン・レベック(クレイの中核研究拠点クレイスーパーコンピューティングセンターの所長)は、「クレイはCCE/9.0におけるOpenACCのサポートを終了する」と発表した [14]

Remove ads

コンパイラのサポート

OpenACCは、商用コンパイラとして利用可能である。PGI(コンパイラバージョン12.6から)とクレイ(同社のハードウェアのみ)がサポートを行っている[8][15]

OpenUH[16]は、CとFORTRANをサポートしているOpen64英語版を基盤にしたオープンソースのOpenACCコンパイラである。ヒューストン大学のHPCToolsグループによって開発された。

OpenARC[17]は、OpenACC 1.0仕様の全ての機能をサポートするためにオークリッジ国立研究所で開発されたオープンソースのCコンパイラである。実験的な[18]オープンソースコンパイラaccULは、ラ・ラグーナ大学によって開発されている[19]

Omni Compiler[20][21]は、筑波大学HPCS研究室と理化学研究所計算科学研究センターが共同研究しているオープンソースのコンパイラである。OpenACCの他、XcalableMP、及びXcalableMPをOpenACCと組み合わせたXcalableACCをサポートしている。

IPMACC[22]は、ビクトリア大学 (カナダ)によって開発されたオープンソースのCコンパイラである。IPMACCは、OpenACCをCUDA、OpenCL、そしてISPCへ変換する。現在のところ、次のディレクティブのみがサポートされている。つまり、data, kernels, loop, そして cache である。

OpenACCに対するGCCのサポートは、進捗が遅かった[23]。サムスンによるGPUを対象にした実装は、2013年9月に発表された。この実装は、OpenACC 1.1のコードをOpenCLへ変換する[18]。2ヵ月後、「真」の実装の発表があった。今回はNVIDIAによるものであり、OpenACC 2.0に基づいたものであった[24]。このことがいくつかの論争を引き起こした。OpenACC 2.0の実装がNVIDIA独自のPTXアセンブリ言語だけを対象にしており、PTXのために利用できるオープンソースのアセンブラあるいはランタイムは存在しなかった[25][26] 。OpenACC/PTXに対する実験的サポートは、GCCのバージョン5.1の時点で終了した。GCC6とGCC7は、OpenACC 2.0a仕様のより改良された実装を搭載している[27][28]。GCC 9.1は、OpenACC 2.5のサポートはほぼ完成していると発表した[29]

Remove ads

使用方法

対称型並列システムにおけるOpenMP 3.x あるいは初期のOpenHMPP英語版に似た使用方法であり、OpenACCにおけるプログラミングの主要な手段はディレクティブである[30]。その仕様は、いくつかのサポート関数を定義するランタイムライブラリも含んでいる。それらを利用するために利用者は、C言語で"openacc.h"、あるいはFortranで"openacc_lib.h"をインクルードしなければならない[31]。そして、acc_init()関数を呼び出す。

ディレクティブ

OpenACCは、プラグマ(ディレクティブ)の幅広いリストを定義している[32]。例えば、

 #pragma acc parallel
 #pragma acc kernels

別個のセマンティクス(意味論)を用いて、上の2行はアクセラレーター上で実行される並列な計算カーネル(ここで言うカーネルはOSの中心部ではなくて、アクセラレーター上で実行される計算プログラムのこと)を定義するために使われる[33][34]

 #pragma acc data

上はアクセラレーターと行き来するデータを定義したり、コピーしたりするための主要なディレクティブである。

 #pragma acc loop

上は parallel あるいは kernels の領域において並列性の形式を定義するために使われる。

 #pragma acc cache
 #pragma acc update
 #pragma acc declare
 #pragma acc wait

ランタイム API

いくつかのランタイムAPI関数も定義されている。つまり、acc_get_num_devices(), acc_set_device_type(), acc_get_device_type(), acc_set_device_num(), acc_get_device_num(), acc_async_test(), acc_async_test_all(), acc_async_wait(), acc_async_wait_all(), acc_init(), acc_shutdown(), acc_on_device(), acc_malloc(), acc_free() のことである。

通常、OpenACCは、ターゲットデバイスのために作業組織を処理するが、作業組織はgangとworkerを使って再定義されることもある。gangは複数のworkerから構成され、多くの処理要素を操作する(OpenCLのworkgroupに相当)。

Remove ads

関連項目

出典

学習用参考書の例

学習用になりうるネット上の資料等

外部リンク

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads