# 再結合光子の輻射輸送大規模計算に向けた HBM-FPGA 実装への考察 The evaluation for the HBM-FPGA implementation considering a large-scale radiative transfer simulation of recombination photons

| 古川 和輝 *                      | 横野 智也 <sup>†</sup> |
|------------------------------|--------------------|
| Kazuki Furukawa*             | Tomoya Yokono†     |
| 藤田 典久 <sup>§</sup>           | 小林 諒平 §            |
| Norihisa Fujita <sup>§</sup> | Ryohei Kobayashi§  |

#### 1. 概要

本稿は、宇宙輻射輸送シミュレーション ARGOT (Accelerated Radiative transfer on Grids using Oct-Tree) [1]の高速化に向け、FPGA による演算加速を検討した.

ARGOT は、筑波大学計算科学研究センターが天体現 象解明のためのプロジェクトの一環として開発を進め ているシミュレーションコードである. ARGOT は、恒 星などの点光源から放射されるエネルギーを演算する ARGOT スキームと星間媒質など空間に広がった光源か らの輻射エネルギーを演算するための ART (Authentic Radiation Transfer) [3] スキームの 2 つのより構成され ている. そして、これまで、GPU による両スキームの 高速化が検討されてきた. しかし、ART スキームはラ ンダムに近いメモリアクセスを要求するため GPU によ る飛躍的な高速化が困難であることが明らかになってき た. そこで、自由度の高い、FPGA による ART スキー ムの加速検討が開始された.

関連研究 [4] では、HLS 設計により、ART スキーム を FPGA に移植し、その実装や性能比較について詳細 に報告されている. 関連研究 [5] では、HLS 設計に加 え、RTL 設計による演算性能評価が追加された. FPGA は CPU による実装と比較して最大 17.5 倍の大幅な性能 向上を達成したことが示されている. しかし、RTL 実 装はメモリ帯域の制約から FPGA のオンチップメモリ (Block RAM[10]) を積極的に用いた設計となっており、 シミュレーション空間に大きな制約を与えていた.

そこで本研究では、メモリバンド幅に起因するシ ミュレーションサイズの制約に対する解決策として、 HBM (High Bandwidth Memory) [2] を採用することにし た.しかし、Xilinx Alveo UltraScale+ U280 (以下 Alveo U280) [11] が搭載する HBM を用いて ART スキームの 実装を試みたが期待する十分な性能向上を得ることがで きなかった。例えば、本研究における HBM 評価では最 大 426 GB/s のスループットが確認された。一方、ラン

| 山口 佳樹 <sup>‡</sup>             | 吉川 耕司 §                       |
|--------------------------------|-------------------------------|
| Yoshiki Yamaguchi <sup>‡</sup> | Kohji Yoshikawa <sup>§</sup>  |
| 朴 泰祐 <sup>§</sup>              | 梅村 雅之 §                       |
| Taisuke Boku§                  | Masayuki Umemura <sup>§</sup> |

ダムアクセス時は, RAMA IP を利用した場合で最低約 20.6GB/s (read 時), RAMA IP を利用しない場合は 約 4.7GB/s となり, スループットに大きなバラツキがある ことが確認された.

ART スキームの演算加速部は1モジュール約9.6GB/s のデータ入力を必要とする.つまり,この結果は,効率 的に HBM を利用しない場合,演算加速部の1モジュー ルで要求されるスループットの高々半分しか使用できな い可能性を示唆している.また,並列度を32とした場 合はデータ入力に約307GB/sのスループットが必要で あり,HBM にシミュレーション空間を保存することを 考えると,そのアクセスが大きなボトルネックとなる可 能性が高い.そこで,メモリ空間を小さく区切り,ラン ダム性を極力排除するメモリアラインメントと,それを 実現するための ART スキーム用メモリアドレス制御に ついて将来的に検討する.

# 2.ART

#### 2.1. 宇宙輻射輸送方程式の概要

宇宙にある多くの天体はガスでできており,電磁波で ある光を放射する.したがって,その光の放射と物質の 相互作用を考えることは宇宙で起こる物理現象を理解す る上で大変重要である.一般に無数の光子の流れの振る 舞いや伝搬を扱う輻射輸送方程式を利用して,宇宙輻射 輸送シミュレーションを行うことになる.

粒子の速度に比べて光速は遥かに早く,宇宙輻射輸送 シミュレーションでは系を定常的として扱うため,解く べき輻射輸送方程式は,

$$I_{\nu}(\tau_{\nu}) = I_{\nu}(0)e^{-\tau_{\nu}} + \int_{0}^{\tau_{\nu}} e^{-(\tau_{\nu} - \tau_{\nu}')}S_{\nu}(\tau_{\nu}')d\tau_{\nu}' \quad (1)$$

とすることができる.ただし, $\nu$ は光線の振動数, $I_{\nu}$ は エネルギーの強さを表す輻射強度, $S_{\nu}$ は源泉関数と呼 ばれる無次元の物理量である.また, $\tau_{\nu}$ を光学的厚み といい,周波数 $\nu$ の電磁波が物質を透過する際に吸収さ れるエネルギーの程度を示す.この変化量 $d\tau_{\nu}$ は, $\rho$ を 物質密度として電磁波が距離dsだけ進んだとすると,  $(d\tau_{\nu} \propto \rho ds)$ のように表すことができる (参考 [6]).

# 2.2.ARGOT プログラム

ARGOT プログラムは, ray tracing を用いた宇宙輻射 輸送シミュレーションプログラムであり, 星などの点光 源付近の輻射輸送を扱う ARGOT スキームと星間媒質 などの空間的に広がった輻射輸送を扱う ART スキーム によって成り立つ.

ARGOT スキームでは、3 次元メッシュを利用して無

<sup>\*</sup> 筑波大学大学院システム情報工学研究群, Graduate School of Science and Technology, University of Tsukuba

<sup>†</sup> 筑波大学大学院システム情報工学研究科(現:日本電信電話株式会社ソフトウェアイノベーションセンタ), Graduate School of Systems and Information Engineering, University of Tsukuba (Presently with NTT Software Innovation Center, Nippon Telegraph and Telopehone Corporation)

<sup>&</sup>lt;sup>‡</sup> 筑波大学システム情報系, Faculty of Engineering, Information and Systems, University of Tsukuba

<sup>&</sup>lt;sup>§</sup> 筑波大学計算科学研究センター, Center for Computational Sciences, University of Tsukuba



図 1: ART スキームの Ray tracing のイメージ (2D)

数にある点光源を集約する近似アルゴリズムを提案して おり,輻射輸送を式(2)を利用して計算する.

$$I_{\nu}(\tau_{\nu}) = I_{\nu}(0)e^{-\tau_{\nu}}$$
(2)

これは、点光源付近であるため電磁波の吸収を考慮 しない形となっている.集約された点光源の中心か ら、ターゲットメッシュまで至る光線が通る軌跡でエ ネルギーが吸収されるため、最後までに残っているエ ネルギーを計算する.無数にある光源がスーパーメッ シュに集約されることで、アルゴリズムによる計算コ ストはメッシュの数を $N_{\rm m}$ 、光源の数を $N_{\rm s}$ とすると、  $N_{\rm m}^{4/3}\log(N_{\rm s})$ まで抑えられる.

# 2.3.ART スキーム

ART スキームは、ARGOT と同様に空間を 3 次元メッ シュに分割することによって並列演算を行う.宇宙空間 に漂う星間媒質である中性ガスは、紫外線以上のエネル ギーを受け取った際に電離した後、電子と再結合し電磁 波を放射する.この電磁波のエネルギーは再結合光子と 呼ばれ、宇宙輻射輸送シミュレーションを行う上で重要 な要素となる.ART スキームはこのような空間的に広 がった輻射を考慮したアルゴリズムとなっている.

空間的に広がった光源 (星間媒質) に対しては,吸収だ けでなく散乱を考慮する必要があるため,式(1)を利用 してシミュレーションする.ただし源泉関数は, $\varepsilon_{\nu}$  と  $\kappa_{\nu}$  をそれぞれ散乱係数と吸収係数として, $S_{\nu} = \varepsilon_{\nu}/\kappa_{\nu}$ を利用する.すると, $S_{\nu}$  は $\tau_{\nu}$  に依存せず,光線上では 一定であると近似できるため,ベクトル  $\hat{n}$  上を進む光線 が距離  $\Delta L$  を進んだ時の光学的厚みを  $\Delta \tau$  として,

$$I_{\nu}^{out}(\hat{\boldsymbol{n}}) = I_{\nu}^{in}(\hat{\boldsymbol{n}})e^{-\Delta\tau} + S_{\nu}(1 - e^{-\Delta\tau}) \qquad (3)$$

のように表すことができ,これが ART スキームで解く べき近似式となる.プログラムでは空間の終端面にある 格子数と同じ数だけ光線を束ねた"レイ"を仮定し,レイ の進行方向に向かって逐次的に演算を行う必要がある.



図 2: ART スキームにおける処理フロー

#### 2.4.ART スキームの性質

ART では光線を束ねたレイ同士は,互いに干渉せず独 立していると近似して演算を行うため,GPU で並列処 理を行うのに適した演算スキームとすることが目指され た.独立したレイを計算する際には,レイが平行に直進 するとみなすことで各レイを演算単位として並列処理を 行うことができるということが特徴である.これによっ てすべての計算量は O(N<sup>5</sup>) となる。さらに,レイベク トルの成分は HEALPix アルゴリズム [7] によって決定 され,生成される典型的なレイの角度は 768 通りあると される.アルゴリズムは図 2 のようになり,一番内側の ループがメッシュごとの計算を表す.

#### 2.5.FPGA を利用する理由

元々 ART スキームは GPU によるシミュレーション コードとして開発されたが,ART スキームはメッシュ のデータをメモリより入出力する際に,3次元空間を演 算対象としている事に起因してランダムアクセスが発生 する.図1のようにART スキームではレイの方向に演 算を進める.したがって,一見規則的なメモリアクセス ではあるが,3次元空間を進むベクトルの方向にメモリ アドレスが線形的に並んでいるわけではないため,ラン ダムアクセスが発生することになる.

各メッシュはエネルギー等の物理現象に関する情報を 保持し, 演算を行う際にはその情報を取り出す必要があ る. GPUの場合は, 高バンド幅の共有メモリを利用する 事になるが, 隣のメッシュを跨ぐ場合に発生するランダ ムアクセスにおいてはキャッシュミスを多数誘発し, こ れがボトルネックになってしまう. そこで, 低レイテン シかつ高バンド幅の BRAM を有した FPGA を利用し, メモリアクセスの処理を工夫した回路を作る事によって 解決することが期待されている.

# 3. ハードウェア

3.1.AXI インターフェース

AXI (Advanced eXtensible Interface) [17] は, ARM 社 が 1996 年に公開した, マイクロコントローラ・バス・ ファミリである ARM AMBA の一部である. AXI には read/write 合わせて合計 5 チャネルを有している. 各 チャネルには, READY 信号と VALID 信号によりハン ドシェイクを行う. AXI ではバースト転送がサポートさ れており,より高速なデータ転送を行うためには積極的 に利用する必要がある. ハンドシェイクが成立したとき に AXBURST 信号によってバースト方式, AXLEN 信 号によってバースト長を指定する.

Xilinx 社の提供する IP で今日一般的に採用されてい るインターフェースは AXI Gen4(AXI4) であるが, HBM IP で利用可能なインターフェースは AXI Gen3(AXI3) であり, AXI3 は AXI4 に比べて制限されているものが ある.特に AXI3 の AXLEN 信号は AXI4 が 8bit に対 して 4bit であり, バースト長が短い.

表 1: AXI におけるアドレスチャネルの信号 (一部)

| 信号名             | 説明          |
|-----------------|-------------|
| ARLEN/AWLEN     | バースト転送の回数   |
| ARBURST/AWBURST | バースト転送の方式   |
| ARSIZE/AWSIZE   | 転送するデータのサイズ |
| ARADDR/AWADDR   | アドレス        |

# 3.2.HBM

Xilinx 社が提供する Virtex UltraScale+ HBM FPGA シリーズから利用できる HBM2 は,帯域幅の理論値が 最大 460GB/s の転送を可能にする. この FPGA シリー ズに搭載されているのは,Samsung Semiconductor 社が Xilinx 社に提供している高帯域幅メモリであり,積層さ れた DRAM のダイとチップが接続された基盤を高帯域 幅で接続することで,低消費電力かつ低製造コストで高 帯域幅のアクセスを可能にしたものである.現在主流の 外部メモリ DDR4 SDRAM に比べ高価であるが,従来 存在したの高帯域幅のメモリ群に比べ安価に入手するこ とを可能にしており,FPGA の高集積化,高速化に対し てボトルネックとなってきたメモリアクセスのスルー プット向上に大きく貢献することが予想され,実際に HPC 分野では NEC SX-Aurora TSUBASA [8] や Fujitsu A64FX [9] などにも利用され始めている.

本研究で利用した Xilinx Alveo U280 Datacenter Accelerater Card [11] は 4GB の HBM スタックを 2 つ搭 載しており,各スタックには 8 つの独立したメモリチャ ンネル (MC) が存在する.各 MC からは 2 つの 64bit 疑 似チャンネルがつながり,それぞれが 2Gb のメモリ領 域にアクセスすることができる (図 3).また,FPGA 側 より利用可能なデータ幅は 256bit で固定されている.

この機構により,各 MC からアクセスできるメモリ領 域は限られているため,Alveo U280 では 32x32 のクロ スバースイッチがハードウェア化されて搭載され,ユー ザが利用可能なポートから直接接続している MC だけ でなく,全 MC にアクセスすることができる.



図 3: HBM

表 2: FPGA ボードの概要 ([11][15] を参考に作成)

|            | 本研究              | 関連研究 [ <b>5</b> ] |
|------------|------------------|-------------------|
| FPGA Board | Alveo U280       | KCU1500           |
| Chip       | Virtex XCU280    | Kintex XCKU115    |
| Registers  | 2,607K           | 1,327K(FFs)       |
| LUTs       | 1,204K           | 663K              |
| BRAM (MB)  | 43.0             | 9.5(75.9Mb)       |
| HBM        | 4GB HBM stack x2 | -                 |

# 3.3.HBM に対する既知の特性

HBM は DRAM を用いて構成されているため, ラン ダムアクセスを行う場合 ACT コマンドと PRE コマン ドによって BANK と ROW アドレスを頻繁に指定しな ければならず, この操作がボトルネックになる.また, Xilinx 社は各 AXI3 ポートから直接接続された MC に アクセスする場合,最も速度を出すことができるとして おり,逆に MC を 2 つずつ束ねるインターコネクトをま たぐようなアクセスがあった場合に,スループットが大 きく下がるとしている [12]. これに加えて,より細かい データブロックを扱う場合にスループットが下がること になるため, HBM を利用する際には大きなデータサイ ズを扱うことが高速に運用するために不可欠となってく るということが言える.

実際に Shuhai ベンチマーク [13] においては 1 ポート からの転送は検証が行われており,バースト転送の回数 が少なくなるほどスループットが低くなる傾向がある. さらに,アドレスの範囲を 0x1000000, 0x1000000 で固 定して計測している.しかし,より広いアドレス範囲や ポート数を限らずに利用した際にどのようにスループッ トを確保することができるのかどうかは,実際に FPGA をアクセラレータとして用いる場合に非常に重要な要素 になる.

# 4. ベンチマーク回路の設計

# 4.1. 設計環境

Vivado Design Suite 2019.2 は Xilinx 社が提供する FPGA 設計の統合ソフトウェアであり,本研究ではこの ソフトウェアを利用して Verilog HDL のコンパイルから 論理回路の配置配線まですべてを行った.表2は,本研 究にて用いた Alveo U280 FPGA ボードと先行研究で利 用した KCU1500 FPGA ボードの計算資源を比較したも のである.本研究で利用した FPGA ボードが関連研究 よりも多くの LUT や BRAM を利用可能であり,理論的 にはより多くの演算モジュールを並列に配置することで シミュレーションの演算加速を行うことができる.



図 4: 擬似乱数の  $\chi^2$  値の検定結果

# 4.2. ベンチマークの目的

本研究では、Xilinx Virtex UltraScale+ HBM FPGA が 搭載する高帯域幅メモリ (HBM2) を利用した ART ス キームの演算回路実装を想定し、ベンチマークテストを 実施した. ART スキームではメモリに対するランダム アクセスが頻繁に発生するため、使用したベンチマーク では、そのランダムアクセスが HBM 搭載の FPGA 上に おいてどの程度ボトルネックになりうるのかを検証する 目的で行っている.また、ART スキームでは read が特 に多いため、本実験では read に対して実験を行い、その 性能に対して考察した.

# 4.3. ランダムアドレスの生成

HBM が備える AXI3 ポートのアドレスは、転送され るデータの最小ブロックサイズが 256bit であることか ら下位 5bit は all zero となる.したがって、本研究で生 成すべき乱数は 33bit のうち最大長が上位 28bit となり、 これを C 言語の random()を利用して生成した.また、 生成した 10243 個の整数を一様分布に対するその  $\chi^2$  値 を演算することによってそのランダム性を評価した.生 成する乱数の個数を N とし、長さ  $M_{\rm hist}$  のヒストグラ ムとして配列 H を用意し、乱数のばらつき度合につい ての評価式は以下のようになる (参考:[14]).

$$\chi^{2} = \sum_{i=1}^{M_{\text{hist}}} \frac{(H[i] - N/M_{\text{hist}})^{2}}{N/M_{\text{hist}}}$$
(4)

上記の式によって、生成した疑似乱数の $\chi^2$ 値が示す 上側確率を計算した結果が図4であり、全体として0.8 前後の上側確率があるので、この擬似乱数列のランダム 性は十分であるとし、これをランダムアドレス生成に利 用する.

#### 4.4. 設計回路

ベンチマークでは、32Byte のデータをランダムアドレスに対して read を行うことによって評価する. 32Byte は、HBM IP が一度に転送するブロックサイズであるためにその最大値として採用した.

C 言語の random() により疑似乱数を素数の 10243 個 生成し, coe ファイルに入力する. この coe ファイルを FPGA の BRAM に初期値として入力することによって, 乱数を BRAM より取り出し, ここからランダムアドレ スを生成する. また, 前述の通り AXI3 インターフェー スを利用してデータを入出力することになるため, AXI インターフェースに対するマスターモジュールを作成し た (図 5).

また, Xilinx 社は RAMA(Random Access Master



図 5: 設計図の概要

表 3: ランダムアドレス領域とアクセス対象ポート数の 関係

| Address bit     | 1Port     | 2Port     | 4Port     | 8Port     | 16Port    | 32Port    |
|-----------------|-----------|-----------|-----------|-----------|-----------|-----------|
| AXI:Memory Port | 1:1       | 1:2       | 1:4       | 1:8       | 1:16      | 1:32      |
| 4H/4GB 領域       | [28:10-6] | [29:10-6] | [30:10-6] | [31:10-6] | [32:10-6] | -         |
| 8H/8GB 領域       | [28:10-6] | [29:10-6] | [30:10-6] | [31:10-6] | [32:10-6] | [33:10-6] |

Attachment) IP[19] というランダムアクセスをリオー ダリングすることができるライブラリを提供している. これを利用した際のパフォーマンスに関しても計測を 行った.

## 4.5. 実験条件

ベンチマークを行うにあたって、ランダムアクセスを 行った際のアクセス対象のポート数とアドレスの中でラ ンダム数として割り振ったビット範囲を以下の表3に 示す. この表に示されたように HBM stack を1つ使っ た場合と2つ使った場合でそれぞれランダムアクセス を行い, 検証を行った. 文献 [2] のように HBM は最小 ブロックサイズが 256bit(32Byte) であるため,アドレ スの下位 5bit[4:0] は不使用となり、バーストサイズに よって不使用となるアドレスの範囲が変動する.アドレ ス幅は 8H では 34bit, 4H では 33bit となり, 使用する AXI ポート数は 8H で 32,4H で 16 となる.また,バー スト長 (AXLEN) はそれぞれ 1,2,4,8,16 を試した,ただ し、全ての実験において HBM IP におけるグローバル アドレッシングを選択した.スループットの計測には HBM IP に付属する Hardware Debug Core を利用した. また, RAMA IP を利用した場合の読み込み速度に関し ても計測することで,RAMA IP の有用性も検証を行う. RAMA IP で設定したリオーダーキューは, 深さ 512 と した.

#### 5. ベンチマーク結果

前述の設計を実装し動作させ、デバッグコアを利用 して結果を確認した結果、読み込みの際の速度は図 6, RAMA IP を利用した場合には図 7 のようになった. 各 図の左側 5 つのデータ群は HBM の stack を 2 つ利用し て 8GB のメモリ空間 (8H),右側 4 つは stack を 1 つ利 用して 4GB のメモリ空間 (4H) のグローバルアドレッ シングを行った場合の結果を表している.また、1 つの データ群は各ポートからアクセスを行うポートの範囲を 示している. 例えば "8H 16Ports" は、2stack(8H)を用い た場合に AXI 32 Port に 32 個のマスターを接続し、各 AXI Port からは 16 Ports 分の MC に対するアドレス領 域にランダムアクセスするということ表している 3.

ただし, グラフ上において 16 Burst において誤差範囲 が大きくなっている値は, スループットが不安定になり 正しくメモリアクセスが行われていない可能性が高い. 原因は調査中であるが, 文献 [13] においてもバーストサ



図 6: ベンチマーク結果 (GB/s) : read



図 7: ベンチマーク結果 (GB/s): read with RAMA IP

| Resource | Utilisation | Without RAMA IP |            | With RAMA IP |            |  |
|----------|-------------|-----------------|------------|--------------|------------|--|
| Resource | Available   | #               | %          | #            | %          |  |
| LUT      | 1303680     | 19320           | 1.4819587  | 52500        | 4.027062   |  |
| LUTRAM   | 600960      | 49              | 0.01       | 8420         | 1.4010916  |  |
| FF       | 2607360     | 11199           | 0.42951488 | 59763        | 2.2920885  |  |
| BRAM     | 2016        | 356             | 17.65873   | 387          | 19.196428  |  |
| IO       | 624         | 2               | 0.32051283 | 2            | 0.32051283 |  |
| BUFG     | 1008        | 4               | 0.39682543 | 4            | 0.39682543 |  |
| MMCM     | 12          | 1               | 8.333334   | 1            | 8.333334   |  |

表 4: リソース使用率 (HBM stack x2)

イズが 512Byte の時はベンチマークが行われていない.

結果を見ると、ランダムアクセスを行った場合読み込みはバーストサイズを上げるほどスループットが高くなっているのに対して、書き込み時にはバーストサイズはスループットに大きく関与していない.本研究では、 U280においては最大 426GB/sを出すことができることが確認されており、これとベンチマーク結果を比較するとスループットは著しく低いことがわかる.ただし、 RAMA IP を利用するとランダムアクセス時には HBM IP のクロスバースイッチへの負荷が減るため、スルー プットは改善している.

さらに,今回の実験での設計におけるリソース使用率 を表4で示す.乱数生成のために BRAM を比較的多く 利用しているが,全体としてはアドレスを制御するのみ であるため非常に小さな回路となった.

# 6. 結果を踏まえた評価

ART スキームでは、シミュレーション空間の1メッ シュあたり48Byteのデータを有しており、このアク セラレータを FPGA に実装した場合、1 モジュール 19flops/clkの演算能力があるため(表 5)、1 モジュール あたり0.50GB/flopのデータ入力(read 時)が必要とな

# 表 5: 関連研究 [5] で実装された ART スキームにおける Floating-Point Operator IP の性能概要

| Operator           | Mult | Add/Sub | Div | Comp | Exp | Total/mesh |
|--------------------|------|---------|-----|------|-----|------------|
| Latency(clk)       | 4    | 4       | 9   | 1    | 6   | 36         |
| Output(Byte) / clk | 4    | 4       | 4   | 4    | 4   | 48         |
| # of Op / mesh     | 8    | 5       | 1   | 4    | 1   | 19         |

る. ただし, Xilinx 社提供の Floating-Point Operator IP を用いて演算すると,毎クロック結果が出力されるため,表5に示したようなレイテンシをほとんど無視することができる. したがって, FPGA を 200Mhz で動作させた場合,以下の計算を行うことで1モジュールあたり最大約9.6GB/s のメモリアクセスが発生する事が分かる.

 $48[Byte/clk \cdot module] \times 0.2[Ghz] = 9.6[GB/s \cdot module]$ 

メモリアクセスの工夫をせずに ART スキームをその まま FPGA に実装した場合の実効性能を検証するため に,4GB のメモリ空間に対してバースト転送なしのラ ンダムアクセスによる読み込みが発生すると仮定してみ る.その際の HBM のスループットは RAMA IP を利用 して約 53.7GB/s,利用しないと約 4.7GB/s であるため, 単純計算を行うと RAMA IP を利用しないと高々 1/2 並 列,RAMA IP を利用しても 5 並列分の実効性能しか出 すことができない事になってしまう.

もしも関連研究で実装されたのと同じ 32 並列を実装 させるとすると、単純計算で1 モジュールに必要なデー タ入力速度の 32 倍の約 307GB/s のデータ入力が発生す るため、HBM に対するメモリアクセスを工夫してもラ ンダムアクセスである場合はスループットが不足する 可能性がある. 関連研究よりもさらに回路規模が大きな Alveo U280 などの FPGA を利用し並列度を上げて実装 する場合には、たとえ HBM の最大スループットである 425GB/s を実現することができたとしても、メモリアク セスがボトルネックになる可能性が十分に考えられる.

# 7. 結論

本稿では、宇宙輻射輸送シミュレーションコード ARGOT で用いられる ART スキームを Alveo U280 に 実装した場合に、シミュレーション空間を HBM を利用 して保存すると仮定し、HBM に対して発生するメモリ アクセスボトルネックの程度について評価する目的で ベンチマークを行った.ベンチマークでは、様々なアド レス範囲とバーストサイズに対してランダムアクセス を行うことで、HBM の特性を探った.その結果、アド レス範囲が広くバーストサイズが小さい場合には HBM の内部のスイッチに大きな負荷がかかるためにスルー プットは著しく低下し、最大 426GB/s に対して read で 約 4.7GB/s の最小速度となることが確かめられた.ただ し、RAMA IP を利用すると約 20.6GB/s までスループッ トは改善されることも分かった.

この結果から, FPGA に実装された ART スキームの 演算部において 1 モジュールあたりのデータ入力が約 307GB/s 必要であることから, HBM によるシミュレー ション空間の保存にはスループットが不足する可能性が ある.そのため,実際に HBM を利用して演算加速を行 う際には,できる限りメモリ空間を小さく区切ったメモ リアライメントにより HBM を利用することで,その性能を最大限引き出す必要があることが分かった.

# 謝辞

本研究の一部は、科学研究費補助金 JP17H01707, JP18H03246, 文科省「次世代領域研究開発(高性能汎用 計算機高度利用事業)」における「次世代演算通信融合型 スーパーコンピュータの開発」, TIA 連携プログラム探 索事業「かけはし」2019, 2020 年度の助成を受けたもの である.また Xilinx 社より「Xilinx University Program」 を通じて開発ソフトウェアの支援を受けておりここに謝 意を表する.

#### 参考文献

- [1] Takashi Okamoto, Kohji Yoshikawa and Masayuki Umemura. ARGOT: accelerated radiative transfer on grids using oct-tree. Monthly Notices of the Royal Astronomical Society, Vol. 419, No. 4, pp. 2855–2866, 2012.
- [2] Samsung Semiconductor. High bandwidth memory is catching on for data-intensive computing. January 8, 2018. https://www.samsungsemiblog.com/ memoryandssd/high-bandwidthmemory-is-catching-ond-for-dataintensive-computing/
- [3] Satoshi TANAKA, Kohji YOSHIKAWA, Takashi OKAMOTO and Kenji HASEGAWA. A new ray-tracing scheme for 3D diffuse radiation transfer on highly parallel architectures. Publications of the Astronomical Society of Japan, Vol. 67, No. 4, pp. 62(1–16), 2015.
- [4] 藤田 典久,小林 諒平,山口 佳樹,朴 泰祐,吉川 耕司, 安部 牧人,梅村 雅之.宇宙輻射輸送コードにおけ る OpenCL による FPGA 演算加速最適化.情報処 理学会論文誌 コンピューティングシステム(ACS) Vol.12 No.3 64-75 (2019 年 3 月)
- [5] 横野 智也. FPGA を用いた宇宙輻射輸送シミュレー ションの高速化. 筑波大学大学院博士課程 システム 情報工学研究科修士論文. (2019 年 3 月)
- [6] 梅村雅之,福江純,野村英子.『輻射輸送と輻射流 体力学』.日本評論社. 2016 年
- [7] Krzysztof M Gorski, Eric Hivon, AJ Banday, Benjamin D Wandelt, Frode K Hansen, Mstvos Reinecke, and Matthia Bartelmann. Healpix: a framework for high-resolution discretization and fast analysis of data distributed on the sphere. The Astrophysical Journal, Vol. 622, No. 2, p. 759, 2005.
- [8] NEC. NEC SX Aurora TSUBASA Architecture. NEC Vector Engine Processor. https://www.hpc.nec/documents/ guide/pdfs/Aurora\_ISA\_guide.pdf
- [9] Fujitsu. Press releases. Fujitsu Presents Post-K CPU Specifications. August 22, 2018. https://www.fujitsu.com/global/ about/resources/news/pressreleases/2018/0822-02.html
- [10] Xilinx. UltraScale Architecture Memory Resources User Guide, UG573 (v1.10) February 4, 2019. https://www.xilinx.com/support/ documentation/user\_guides/ug573ultrascale-memory-resources.pdf
- [11] Xilinx. Alveo Data Center Accelerator Card

Platforms User Guide UG1120 (v1.1). April 22, 2020 https://www.xilinx.com/support/

documentation/boards\_and\_kits/ accelerator-cards/ug1120-alveoplatforms.pdf

- [12] Chris Riley. Basic Tutorial for Maximizing Memory Bandwidth with Vitis and Xilinx UltraScale+ HBM Devices. Nov 11, 2019 https://developer. xilinx.com/en/articles/maximizingmemory-bandwidth-with-vitis-andxilinx-ultrascale-hbm-devices.html
- [13] Zeke Wang, Hongjing Huang, Jie Zhang, Gustavo Alonso. Shuhai: Benchmarking High Bandwidth Memory on FPGAs. 2020 IEEE 28th Annual International Symposium on Field-Programmable Custom Computing Machines (FCCM), p.111-119, 9 May 2020.
- [14] 東京大学教養学部統計学教室編.『統計学入門』. 東京大学出版会. 1991 年
- [15] Xilinx. UltraScale Architecture and Product Data Sheet: Overview. May 20, 2020. https://www.xilinx.com/support/ documentation/data\_sheets/ds890ultrascale-overview.pdf
- [16] Xilinx, AXI High Bandwidth Memory Controller v1.0, PG276 (v1.0) October 30, 2019. https://www.xilinx.com/support/ documentation/ip\_documentation/hbm/ v1\_0/pg276-axi-hbm.pdf
- [17] ARM. AMBA AXI and ACE: Protocol Specification. https://static.docs.arm.com/ ihi0022/g/IHI0022G\_amba\_axi\_ protocol\_spec.pdf
- [18] Xilinx. Vivado Design Suite User Guide Creating and Packaging Custom IP,UG1118 (v2019.1) June 12, 2019. https://www.xilinx.com/support/ documentation/sw\_manuals/ xilinx2019\_2/ug1118-vivadocreating-packaging-custom-ip.pdf
- [19] Xilinx. RAMA 1.1 LogiCORE IP Product Guide Vivado Design Suite. PG310 (v1.1) November 14, 2018. https://japan.xilinx.com/support/ documentation/ip\_documentation/ rama/v1\_1/pg310-rama.pdf