RC-011

# 差分法専用計算機における FPGA 間時分割通信機構の遅延評価

Evaluating Inter-FPGA communication of Custom Computing Machines for Finite Difference Methods

| 王 陸洲        | 佐野 健太郎       | 初田 義明            | 飯塚 尊則           | 山本 悟            |
|-------------|--------------|------------------|-----------------|-----------------|
| WANG Luzhou | Kentaro SANO | Yoshiaki HATSUDA | Takanori IIZUKA | Satoru YAMAMOTO |

## 1 緒言

近年、熱力学、流体力学、電磁気学など多くの分野において、 莫大な時間やコストを必要とし、また危険を伴う実験に代わり、 安価で実験では不可能な情報を得ることのできる数値シミュレー ションが広く用いられている。しかしながら、大規模化・複雑化 する数値シミュレーションにさらなる計算性能が求められる一方 で、計算に用いられるスーパーコンピュータや PC クラスタなど の汎用マイクロプロセッサに基づく計算機システムでは、その汎 用性のためにシステムが大規模になるにつれ効率良く性能向上を 得ることが困難となりつつある。その理由として、メモリ帯域不 足や命令レベル並列性不足によるプロセッサ単体の稼働率の低下 や、プロセッサ間通信のオーバーヘッドによる並列処理効率の低 下が挙げられる。

このような背景の下、計算問題に特化した専用構造を持つ専 用計算機により、高い計算性能を効率良く実現する試みが多数 行われている[1-7]。現在、専用計算機を実現する主な手段とし て、ASIC(Application Specific Integrated Circuit)や FPGA (Field-Programmable Gate Array)による実装が挙げられる。 このうち、ASIC はハードウェア資源を有効に利用して高速、小 面積かつ低消費電力の高性能な専用回路を実現可能ではあるも のの、半導体プロセスに掛かる初期コストが高く、用途の限られ る専用計算機では量産になり難いため、高価な計算機になりが ちである。これに対し、FPGA は回路を再構成することにより 様々な計算機を実現する汎用のプログラマブルデバイスであるた め、ASIC に特有の初期コストがほぼ無いに等しい。また、近年 の FPGA では高性能化が進み、大規模化、高集積化に加え、乗 算器である DSP(Digital Signal Processing)ブロックのような 専用ユニットを大量に搭載するようになり、数値シミュレーショ ンに必要な浮動小数点演算性能において汎用マイクロプロセッ サを超えつつあると報告されており[8,9] 性能の面においても ASIC との差が縮まっている。

このような FPGA 技術の進展を受け、2004 年に James らは 3 次元電磁場解析を行う専用計算機[1]、Ronald らは分子動力学 計算のための専用計算機[3]、そして、2008 年に Alexander ら は金融シミュレーションを行う専用計算機[4]を提案しており、 それぞれの計算問題に対して有効な専用構造を明らかにすると共 に、その有用性を評価している。しかしながら、これらの計算機 ではメモリ帯域の不足を根本的には解消できず、システムの大規 模化に対する計算性能の向上ついての議論がまだ不十分である。

これに対して本研究室では、流体力学、熱力学、電磁気学など の多くの分野において支配方程式となる偏微分方程式を解くため の差分法に着目し、特定の計算問題ではなく、解法自体が持つ普 遍的な性質を利用した差分法専用計算機の実現を目指して研究を 行っている。将来的には回路を再構成することにより性質の異な る差分法に適応できる柔軟な専用計算機を考えているが、現時点 ではまず差分法の一例として、様々な数値シミュレーションにお いて利用されている、線形偏微分方程式に対し直交格子を用いた 差分法に特化した専用計算機を提案している[10,11]。

本計算機は、多数の計算要素(Processing Element, PE)から なるアレイ構造を持ち、並列計算により高性能を実現する。その 結果、原理的に PE 数に比例した計算性能とメモリ帯域を持つ。 多数の FPGA に分割実装することにより、大規模 PE アレイを 実現できる。分割実装では、FPGA の入出力帯域不足により性 能向上が妨げられる恐れがあるが、これまでの研究では、2次元 メッシュネットワークにより接続された FPGA アレイに PE ア レイを割り当てることにより、FPGA 間のデータ通信が計算サ イクルの数パーセント程度で済み、時分割通信を行うことにより 通信帯域を低く抑えることが可能であることを示している[12] しかしながら、時分割通信は通信帯域の低下と引き替えに計算性 能の制約と成りうる通信遅延を増加させてしまう。そこで、本論 文では FPGA 間通信のために時分割通信機構の設計を行い、通 信帯域と通信遅延を評価し、これらが現実の計算問題に対し計算 性能の制約とならないことを明らかにする。

# 2 差分法のための専用計算機 2.1 差分法

差分法は、流体力学、熱力学、電磁気学などの多くの分野にお ける支配方程式である線形偏微分方程式を解く主な手法の一つ であり、格子生成に莫大なコストの掛かる非構造格子を用いた 有限体積法や有限要素法と異なり、単純な直交格子を用いるた めにアルゴリズムが単純になることが特徴である。例えば、近 年、数値流体力学の分野では差分法の一種である境界埋め込み法 (Immersed Boundary Method, IB 法 ] 13–15]が非構造格子の 生成が困難な複雑形状周りの解析を容易に行えるように改良さ れ、注目されている。

IB 法のような線形偏微分方程式に対し直交格子を用いた差分 法では、場の変数を離散化し、偏微分方程式を近似した差分式、 もしくは差分式を更に変形した式を計算することにより近似解を 得る。単純な例として、ここでは次の2次元のラプラス方程式に ついて考える。

$$\frac{\partial^2 f}{\partial x^2} + \frac{\partial^2 f}{\partial y^2} = 0 \tag{1}$$

まず、間隔が  $\Delta x \ge \Delta y$  の 2 次元直交計算格子において、2 次元 のスカラ関数 f(x,y) に対して離散化を行う。離散化された f を x 方向の添字  $i \ge y$  方向の添字 j を用い、 $f_{i,j} \equiv f(i\Delta x, j\Delta y) \ge$ 定義すると、微分に 2 次精度中心差分を適用して  $f_{i,j}$  について解 くことにより次の差分式が得られる。

$$f_{i,j} = c_1 f_{i-1,j} + c_2 f_{i+1,j} + c_3 f_{i,j-1} + c_4 f_{i,j+1} \tag{2}$$

ただし、 $c_1, c_2, \ldots, c_4$ は $\Delta x \ge \Delta y$ を含む定数である。



図1 アレイ型専用計算機の構造と計算格子の関係

次に、 $f_{i,j}$ に対して任意の初期値を与え、式(2)を右辺の計算結 果をもって左辺を更新する漸化式として繰り返し計算を行うと、 ある条件の下では $f_{i,j}$ の値が原方程式(1)の解に収束する。これ は連立方程式の解を数値的に得る反復法の一つである Jacobi 法 である。

式(2)は2次元問題に対する漸化式であるが、3次元の場合に おいても、 $\Delta z$ 方向の差分を表す項が増えるのみで、累算に帰着 できる。また、ベクトル変数や多変数問題の場合においても、変 数の数に応じて累算式が増えるが、式自体は累算の形になる。他 の高次差分スキームも同様に、同じ格子点において f の偏微分 を定義された別の変数と見なすことにより、多変数問題となり、 最終的に累算に帰着できる。

一般的に、このような数項からなる累算は、複数の格子点について同時に計算できる並列性、複数の格子点について同種の演算 を行う規則性、そして、計算には対象格子点の近傍の数点の値の みを使う局所性、という3つの性質を持つ。本研究では、偏微分 方程式を高速に解くため、これらの性質を利用する差分法計算機 を提案している[10,11]

#### 2.2 差分法専用計算機のアーキテクチャ

高い計算性能を実現するためには、複数の計算要素(Processing Element, PE)による、並列性を活かした並列計算が有効である と考えられるが、各PEへの計算の割り当てとPE間のデータ通信が問題となる。

まず、差分法の持つ3つの性質を活かす点において、図1に示 すような独立した演算回路を持つ多数の PE のアレイにより大規 模な並列計算を行うシストリックアーキテクチャが適しており、 PE アレイの均一構造が並列性と規則性に、PE 間の局所通信が 局所性にそれぞれ有効であると考えられる。しかしながら、通常 のシストリックアーキテクチャでは PE を通して外部からデータ を流すことに主眼を置いており、再利用するデータも一旦外部メ モリに送り出してから再度取り込むことを行う。このため、限ら れたメモリ帯域を有効に利用できず、外部との入出力と PE 間の データ通信がボトルネックとなる。これに対し、外部との入出力 を回避するため、メモリ素子の近傍に演算回路を分散配置する計 算メモリアーキテクチャ[16-19]を導入することにより、全ての データを PE アレイに格納し、計算中における外部メモリとの通 信を無くし、PE 間の通信を削減可能である。このため、シスト リックアーキテクチャと計算メモリアーキテクチャを融合したシ ストリック計算メモリアーキテクチが差分法計算に適していると 考えられる。



シストリック計算メモリアーキテクチャに基づき設計したアレ イ型計算機は、図1に示すように、ローカルメモリと演算回路を 持つ多数のPEを2次元メッシュネットワークにより接続した2 次元のアレイ構造を持つ。2次元計算の場合、計算格子を部分計 算格子に分割して個々のPEに割り当て、アレイ全体において並 列計算を行う。3次元計算の場合には、*x*,*y*,*z*空間に広がる計算 格子の*x*方向と*y*方向のみに対して分割することにより、2次元 のFPGAアレイによる並列計算が可能である。一方、差分法の 持つ局所性のため、通信は隣接するPE間の局所通信に限られる と同時に、各PEは自分の持つローカルメモリに対して計算を行 う。以上より、アレイ型計算機はPE数に比例した演算性能とメ モリ帯域を持つ。

本研究では、差分法計算に特化した PE を実現するにあたり、 式(2)の累算の各項を計算する浮動小数点積和演算器(MAC)を 持つデータパスを設計する。このデータパスはマイクロプログラ ムにより制御され、複数サイクルかけて累算を計算する。専用の データパスとして累算全体を計算する長い演算パイプラインも考 えられるが、このようなプログラマブルな構成の方が境界条件な ど例外的な累算に対する柔軟性に優れ、効率良く演算器を稼働で きる。データパスは5段を含めた8段のパイプラインであり、複 数サイクルにかけて累算を計算する。MAC はサイクル毎に2つ の入力を受け、その積を計算をし、0または前の計算結果と加算 する。入力にはローカルメモリまたは隣接 PE から送られるデー タを格納する FIFO(First-In, First-Out)から選択可能である。 計算結果はローカルメモリへ書き込むと同時に、東(E)西(W)南 (S)北(N)にある隣接 PE に送信可能である。送信したデータは 数サイクル経ってから隣接 PE に届き、隣接 PE では受け取った データを FIFO に溜め、必要に応じて FIFO から取り出す。こ のため、PE 間の通信にはある程度の遅延が許容される。また、 FIFO はデータを入力した順に出力するため、。このため、PE間 においてデータを送信する順番と使用する順番が一致するように マイクロプログラムを作成する必要がある。

#### 2.3 差分法専用計算機のマイクロ命令セット

PE を制御するためのマイクロ命令セットを表1に示す。ここ で、out は MAC の出力レジスタ、M[a] はアドレスが a のロー カルメモリ参照であり、LoopC、JumpC と PC はそれぞれループ カウンタ、アドレスカウンタとプログラムカウンタである。

算術命令には、乗算の後に累加算を行う accp 命令、乗算のみ

表1 マイクロ命令セット

| Opecode | Dst1, | Dst2 | Src1, | Src2, | 動作                                                        |
|---------|-------|------|-------|-------|-----------------------------------------------------------|
| accp    | - ,   | - ,  | a1,   | a2,   | PC++, out $+ M$ [a1] $\times M$ [a2] out;                 |
| accp    | - ,   | - ,  | a1,   | W,    | PC++, out $+ M$ a1 ] $	imes$ W-FIFO out;                  |
| accp    | a3,   | - ,  | a1,   | a2,   | PC++, out $+$ M[ a1 ] $	imes$ M[ a2 ] out, M[ a3 ];       |
| accp    | - ,   | SW,  | a1,   | a2,   | PC++, out + M[ a1 ]× M[ a2 ] out, S-FIFO, W-FIFO;         |
| lset    |       |      | N,    | A,    | PC++, N LoopC, A JumpC;                                   |
| bnz     |       |      |       |       | <pre>if(LoopC == 0) {PC++;} else {LoopC, JumpC PC;}</pre> |
| accpbnz | - ,   | SW,  | a1,   | a2,   | accp と bnz を同時に実行                                         |

| 1:  | mulp | -      | , | -  | , | c1, | W      |
|-----|------|--------|---|----|---|-----|--------|
| 2:  | nop  |        |   |    |   |     |        |
| 3:  | nop  |        |   |    |   |     |        |
| 4:  | accp | -      | , | -  | , | c2, | f[1,0] |
| 5:  | nop  |        |   |    |   |     |        |
| 6:  | nop  |        |   |    |   |     |        |
| 7:  | accp | -      | , | -  | , | c3, | S      |
| 8:  | nop  |        |   |    |   |     |        |
| 9:  | nop  |        |   |    |   |     |        |
| 10: | accp | f[0,0] | , | SW | , | c4, | f[0,1] |

図 3 累算式を計算するマイクロプログラム



図4 部分計算格子における格子点の添字

を行う mulp 命令、およびこれらの乗算結果に対して符号反転を 行う accm と mulm 命令がある。これらの命令のオペランドには、 accp を例に示したような組み合わせが可能である。

一方、制御命令にはループ制御命令である 1set と bnz があ り、ある範囲の命令列に対して定数回の繰り返し実行を可能とす る。1set はループの先頭に配置し、ループ回数 N を即値として 指定する。これに対して bnz はループ末尾に配置し、分岐処理 を行う。さらに、1set と bnz は階層化されており、多重ループ に対応している。また、bnz は任意の算術命令と同時に実行する ことが可能である。

例として、 $f_{[0,0]} = c_1 f_{[-1,0]} + c_2 f_{[1,0]} + c_3 f_{[0,-1]} + c_3 f_{[0,1]}$ を計 算するマイクロプログラムを図3に示す。ただし、nop命令はタ イミングを調節するためにある何もしない疑似命令である。

図 4 は図 3 のプログラムにおいて想定している、部分計算格 子における格子点の添字と PE の関係を表した図である。ここ で、[i', j']は PE が担当する部分計算格子における格子点の相対 的な添字を表す。この例では、4 項の累算を 4 命令に分けて計算 し、西(W)と南(S)の PE のデータを 1 つずつ使用し、計算結果 を西(W)と南(S)に送り出している。一般的に、i 項からなる累 算は i 命令に分けて計算することになる。 また、現在の実装では、MAC の計算結果を3 段前のパイプラ インステージにフォワーディングすることにより累算を実現して いるため、累算は3 サイクル毎の入力に対して連続に行なわれ る。このため、積和演算器の稼働率を高めるためには、実際のプ ログラムでは3 つの累算式の各項を交互に入力するようにスケ ジューリングを行い、nop を無くす必要がある。

このように、各 PE では担当する部分計算格子の各格子点に対して逐次計算を行い、PE アレイ全体で並列計算を行う。

# 2.4 差分法専用計算機の性能

各 PE が持つ積和演算器はサイクル当たり 1 つの乗算と 1 つ の加算を計算可能である。そのため、PE の動作周波数を F[Hz] とすると、PE のピーク性能は 2F[Flops]になる。今、 $n \times n$  個 の PE アレイがあるとすると、 $n^2$  の PE により並列処理を行う ため、全体のピーク性能 P[Flops]は次式により与えられる。

$$P = 2 F n^2 \tag{3}$$

これに対し、演算器の稼働率を *E* とすると、実効性能 *P<sub>e</sub>* [Flops]は次式により与えられる。

$$P_e = EP = 2 EF n^2 \tag{4}$$

各 PE において行われる計算は PE 数に依存しないため、計算 のみに依存する E は PE 数に依存しない。一方、動作周波数 Fは PE の内部構造のみに依存するため PE 数に依存しない。以上 より、アレイ型計算機の計算性能は PE 数に比例する。

#### 2.5 FPGA アレイによる差分法専用計算機

単一の FPGA に実装できる PE 数は限られるため、より高性 能な計算を実現するためには、複数の FPGA を用いた大規模 PE アレイの実装が不可欠である。複数の FPGA を用いる場合、 FPGA 間の通信帯域がボトルネックとなりやすいため、FPGA 間の通信を小さく抑えた設計が必要である。

これに対し、PEの内部にはローカルメモリと演算器間の通信 に加え、多数の制御信号があり、広い帯域を必要とするため、PE 内のデータパスを分断した非均質な分割をすべきではない。一 方、計算メモリアーキテクチャを導入することにより、PE 間の 通信を抑えているため、PE を最小単位とした分割が FPGA 間 の通信を小さくできると考えられる。

次に、PE 間には局所通信のみが行われるため、FPGA への PE の割り当ては、PE をノード、隣接 PE をエッジで結んだグ ラフについて考える場合において、切断するエッジを少なくする ように各 FPGA に割り当てるノードを括る問題に等しい。PE は2次元メッシュネットワークにより接続されているため、PE



図 5 複数 FPGA への PE アレイの均等分割

アレイを正方形領域の部分 PE アレイに分割することが望ましい と考えられる。

さらに、回路設計と動作検証の容易性の観点から、全ての FPGAに対し共通した設計を行うことが望ましい。今、PEアレ イ自体は均質であるため、各 FPGAに同じ大きさの部分 PEア レイを割り当てることにより設計の共通化が可能である。

以上により、図5に示すように、2次元メッシュネットワーク により接続される FPGA のアレイに PE アレイを分割実装する ことにより FPAG 間の通信帯域を低減できると期待できる。ま た、FPGA 間に十分な入出力帯域が利用可能であれば、FPGA アレイに実装される PE の総数は使用する FPGA 数に比例する ため、FPGA 数に比例した計算性能が期待できる。

一方、図3に示したマイクロプログラムのように、各PEでは 累算を複数のサイクルに分けて計算するが、途中の計算結果は隣 接PEに送る必要はないため、通信は最後の1サイクルに限られ る。また、図4から分かるように、差分法の持つ局所性のため、 隣接PEへ送るデータは、さらに部分計算格子のある方向の境界 に位置する数格子点に限られる。この2つの理由によりPE間 の通信では連続して行われず、計算サイクルに対し数パーセント 程度になっている。これより、FPGA間において時分割通信を 行うことにより、FPGA間帯域を低減できると考えられる。

#### 3 時分割通信機構

### 3.1 FPGA 間における実際の通信

PE間における実際の通信の模式図を図6に示す。図の横軸は クロックサイクルであり、棒は各サイクルにおいて送信される データを表す。棒の面積は送信データ量、高さは通信に必要な帯 域を表す。図に示すように、実際の計算問題では、断続的なデー タ送信が行われる。このため、図7に示すように、データ送信の ないサイクルを用いて、通信を複数のサイクルをかけて小分けに 行う時分割通信が要求帯域を低減するのに有効であると考えら れる。

また、本論文では隣接する 2 つの FPGA 間の接続をリンクと 呼ぶが、FPAG 内部では十分に広い帯域が利用できるため、時分 割通信機構が必要とされるのはリンクを跨る PE 間に限られる。 さらに、差分法が持つ規則性のため、同一リンクにおいて各 PE からの送信は一斉に行われる。このため、リンクにおける通信も 図 6 と同様である。



図8 FPGAを跨ぐPE間に導入される時分割通信機構



#### 3.2 時分割通信機構の構成

本研究では、図 8 に示すように時分割通信機構として、送信側 の PE と FPGA の I/O ユニットの間に FIFO とシリアライザ、 受信側の FPGA の I/O ユニットと PE の間にデシリライザを設 ける。

送信部の模式図を図9に示す。模式図では、便宜的にシリアラ イザの時分割数 Jを4とする。受信部は各サイクル毎に PEか らデータを受け取り、受信 FIFO に書き込むことが可能である。 これに対し、FIFO 読み出しは FIFO にデータが溜まっており、 かつシリアライザにデータが無いときに行われる。FIFO から読 み出されたデータはシリアライザのレジスタに格納され、J分割 され、Jサイクルかけて FPGA の I/O に送り出される。また、 シリアライザされたデータの先頭を示す制御信号を別経路により 送信する。

受信部の模式図を図 10 に示す。受信部では、シリアライザか ら送信される制御信号によりデータの先頭を検出し、J サイクル かけて受信したデータをレジスタに組み立てる。組み立てたデー タは PE に渡し、受信 FIFO に格納する。



図 11 PE 中の部分計算格子および漸化式

#### **3.3**時分割通信における要求帯域 w<sub>TDM</sub>

ー般に、数値計算は繰り返し計算するカーネル部と、その前後 にある初期化と終了処理から成る。初期化と終了処理は1回し か実行されないのに対し、一般的な科学計算においてカーネル 部は繰り返し実行され、計算時間の大部分を占める。このため、 カーネル部のみについて考える。また、差分計算に関してはPE 間の通信において入力と出力は対称であるため、本論文では片方 向の通信帯域について考え、送信の視点から定式化を行う。

ここで、カーネル部における1回の繰り返しを反復と呼ぶ。各 反復では全く同じ計算を行うため、それぞれの反復において、あ るリンクに対して送信するデータ量 S と一反復の計算時間 T を 用いて、要求されるリンク当たり時分割通信要求帯域 w<sub>TDM</sub> を 以下のように定義する。

$$w_{\rm TDM} \equiv \frac{S}{T} \tag{5}$$

このように定義される WTDM は時分割通信が理想的に行えた場合に得られる要求帯域の下限値である。このため、リンク当たりに実装する帯域を w とすると、WTDM w となる。一方、wの上限値は FPGA の総入出力帯域 WFPGA をリンク数 l により割ったリンク当たりの利用可能帯域により与えられる。このため、w の範囲は次式の通りとなる。

$$w_{\text{TDM}} \quad w \quad \frac{W_{\text{FPGA}}}{l} \tag{6}$$

ここで、 $W_{\rm FPGA}$  は実装により実測値を得る他にないが、 $w_{\rm TDM}$ は理論的に導くことが可能である。

問題を簡単にするため、各 FPGA は  $n \times n$  の PE からなる部 分 PE アレイを持ち、各 PE は図 11 のように  $g \times g$  の格子点か らなる部分格子を計算すると仮定する。また、各格子点に対し、 i項からなる累算を行うとする。

まず、PE がサイクル当たり送信する単位データサイズをsとすると、毎サイクル連続してデータ送信が行われる場合、動作 周波数 Fを掛けたsFが PE 間に必要な片方向の帯域である。 FPGA 間の各リンクでは、部分 PE アレイの 1 辺に並ぶ n 個の PE がデータ送信を行うため、時分割通信機構を導入しない場合 に必要とされる最大の帯域 $w_{max}$ は次式により与えられる。

$$w_{\max} = nsF \tag{7}$$

次に、反復当たりの命令数を  $I_{\text{iter}}$  命令とし、そのうち  $I_{\text{com}}$  命 令が該当するリンクに対して送信を行うとすると、式(5)中の Sは  $nsI_{\text{com}}$  と、T は  $T = \frac{I_{\text{iter}}}{F}$  と表せる。これらを式(5)に代入 し、式(7)を適用すると、次式が得られる。

$$w_{\rm TDM} = \frac{nsI_{\rm com}F}{I_{\rm iter}} = \frac{I_{\rm com}}{I_{\rm iter}}w_{\rm max}$$
(8)

ここで、PE アレイ全体では並列に計算が行われるため、1 反 復の間、各 PE は担当する  $g \times g$ 格子点に対し、それぞれ i 項か らなる累算を i 命令により計算する。したがって、 $I_{\text{iter}} = ig^2$  で ある。また、差分法が持つ局所性のため、ある隣接 PE に計算結 果を送る必要があるのは部分格子点の 1 辺に位置する g格子点 のそれぞれの最終結果のみであり、 $I_{\text{com}} = g$ 命令である。

以上より、 $w_{ ext{TDM}}$  は次のように求まる。

$$w_{\rm TDM} = \frac{w_{\rm max}}{ig} \tag{9}$$

このため、各 PE に割り当てる格子点が多いほど、また累算の項 数が多いほど、より大きな要求帯域の削減が期待できる。

一方、シリアライザの入力帯域は PE の出力帯域 *w*<sub>max</sub> であ り、出力帯域はリンクの通信帯域 *w* であるため、次式の関係が 成り立つ。

$$J = \frac{w_{\max}}{w} \tag{10}$$

式(6)の  $w_{\text{TDM}}$  wの関係を式(10)に代入し、式(9)の関係を 利用すると、次式のように帯域による Jの最大値  $J_w$  が求まる。

$$J \quad J_w = ig \tag{11}$$

実際に時分割通信機構を実装する場合、一般的にシリアライザの 分割数は整数に限られる。このため、FPGA 間通信の仕様設計 では、 $J_w$ を決めた後、適切なJを利用可能な整数から選択し、 wを調整する必要がある。

#### 3.4 時分割通信における通信遅延

時分割通信機構はシリアル変換を用いるため、帯域の低下と引き換えに遅延が増加する。送信したデータは隣接 PE の計算に間に合わなければならないため、通信遅延も通信帯域に並ぶもう一つの重要なパラメータである。通信を伴う命令が実行されてから、送信するデータが相手 PE に届くまでにかかるサイクル数を通信遅延 D と定義すると、プログラムにおいてデータを送信してから参照するのに D サイクル後でなくてはならない。この制限を遅延制約と呼ぶことにする。プログラムにおいて、通信命令を実行してから、送信するデータが最初に参照される命令間隔が許容される最大の遅延であるため、これを  $D_{\rm max}$ とすると、遅延制約は次式により表せる。

$$D = D_{\max}$$
 (12)

ここで、Dを次式のように3つの項に分け考える。

$$D = D_{\rm PE} + D_{\rm FPGA} + D_{\rm TDM} \tag{13}$$

ここで、 $D_{PE}$  は FPGA 内部の PE 間通信にも発生するパイプ ラインや FIFO の書き込みのために遅延である。これに対して、  $D_{FPGA}$  はリンクを跨った通信で発生する FPGA の I/O 間の通 信のために生じる遅延である。 $D_{TDM}$  は時分割通信機構のハー ドウェアによる遅延である。 $D_{PE}$  は PE の設計に依存し、図 2 に示す設計では  $D_{PE} = 7$  である。 $D_{FPGA}$  は FPGA の I/O や 物理的な配線などに依るパラメータであり、 $D_{TDM}$  はハードウェ アとソフトウェアの両方に依存するパラメータであり、実測値を 用いる必要がある。



図 12 時分割通信の時空間図

図 12 は時分割通信の時空間図である。横軸はクロックサイク ル、縦軸はデータを保持するユニットである。なお、 $D_{\rm PE}$ を省略し、 $D_{\rm FPGA} = 3$ とした。

送信 A は先行する送信と十分に離れた場合である。3.2節で述 べたように、送信側では FIFO 書き込みに 1 サイクル、シリアラ イザに *J* サイクルかかる。一方、受信側ではデシリアライザに おいても *J* サイクルかかるが、パイプライン処理のために隠蔽 され、全体で  $D_{\text{TDM}} = J + 1$  サイクルで済む。

対し、送信 B は先行する送信と十分に離れていない場合であ る。送信側の FIFO に溜まっている先行命令の通信データの処 理待ちが発生するため、遅延が送信 A の場合よりも長くなる。 送信時に対象データも含め、送信 FIFO に溜まるデータの数を R と定義すると、最大値として  $D_{\text{TDM}} = (R+1)J$  サイクルに なる。ただし、R = 1 は送信 A のような通信に該当する。

以上より、*D* は次のように表せる。

$$D = 8 + D_{\rm FPGA} + (R+1)J$$
(14)

これを、式(12)に代入すると、遅延による *J* の最大値 *J*<sub>D</sub> は次 式の通りになる。

$$J \qquad J_D = \frac{D_{\max} - 8 - D_{\text{FPGA}}}{R+1} \tag{15}$$

ここで、 $D_{\text{max}}$  はプログラムに依存し、 $D_{\text{FPGA}}$  はFPGA の仕様 やFPGA 間の物理的な配線に依存する。一方、R はプログラム と J に複雑に依存する。このため、 $J_D$  を陽に与えることは難し い。これに対して、仮の J を決めることにより、プログラム毎に R と  $D_{\text{max}}$  を求め、後に仮決めした J が J  $J_D$  を満たすかを 確かめることは可能である。

# 4 実装と評価

# 4.1 PE アレイの実装

2次元の FPGA アレイに実装される大規模 PE アレイの性能 向上を評価するため、2 つのベンチマーク計算問題を解析し、帯



図 13 2 つの FPGA を用いた実装

表2 実装の諸元

| <b>全</b> PE 数                                | $192$ ( $=8\times12\times2$ ) |
|----------------------------------------------|-------------------------------|
| リンク当たりの片方向境界 $\operatorname{PE}$ 数 $n$       | 8                             |
| シーケンサ数                                       | 9                             |
| PE の動作周波数 <i>F</i>                           | 106 MHz                       |
| ${ m FPGA}$ の片方向 ${ m I/O}$ 帯域 $W_{ m FPGA}$ | $79.7 \mathrm{~Gbit/s}$       |
| 通信遅延 D                                       | (R+1)J+13 cycle               |
| $D_{\rm PE}$                                 | 7 cycle                       |
| $D_{\rm FPGA}$                               | 6 cycle                       |

域制約と遅延制約に基づき時分割通信機構を設計した。また、2 次元 FPGA アレイの一部として、時分割通信により結ばれる 2 つの FPGA に分割される PE アレイを実装した。実装には ALTERA 社の StartixII FPGA(EP2S180-5)を2つ搭載した評 価基板 DN7000k10PCI を用いた。StartixII はハイエンド向け のシリーズであり、EP2S180 は同シリーズの中でも最大規模の FPGA である。

本実装の概略を図 13 に示す。2つの FPGA には合計 8×12× 2 = 192 個の PE からなる PE アレイを実装できた。これらの PE は 106 MHz で動作する。FPGA の I/O 帯域は、LVDS( Low Voltage Differential Signaling)により、片方向  $W_{\rm FPGA}$  = 79.7 Gbit/s 利用可能である。これは、結果的に本実装において時分 割通信機構を導入する必要のない十分な帯域であるが、FPGA 当たり 4 つのリンクを必要とする 2 次元 FPGA アレイの実装、 さらに I/O 帯域がより狭い安価な FPGA を用いた場合を想定 し、利用する I/O 帯域を限定して実装した。性能が少し劣って も安価であれば、より多くの FPGA を利用して巨大な FPGA ア レイを構築することにより、高い性能が得ることが可能である考 えられる。以上より、実装の諸元を表 2 に示す。

#### 4.2 ベンチマーク問題

ベンチマーク問題として、Red-Black Successive Over-Relaxation 法(RB-SOR ] 20 ]による 2 次元熱伝導問題の計算、 および Finite-Difference Time-Domain 法(FDTD ] 21, 22 ]に よる 2 次元電磁波伝播問題の計算を用いた。

2次元熱伝導問題は図 14 に示すように、均質な長方形領域の 左辺に高温熱源として  $\phi = 1$ 、他の辺には低温熱源として  $\phi = 0$ を与えたときの温度分布を求める問題とした。定常状態になるた め、支配方程式である熱伝導方程式は式(1)のラプラス方程式に なる。RB-SOR 法は Jacobi と同様、反復法の一つではあるが、 Jacobi 法よりも収束性が良く、かつ並列性が失われないように 改良した手法である。RB-SOR 法の累算は式(2)の右辺に  $\phi_{i,j}$ 



を含む項を加えた 5 項の累算からなる。また、格子点数を 192 × 192 点とし、PE 当たり 8 × 24 点を割り当てた。反復数は 15 万 回とした。

2次元電磁波伝播問題は図 15 に示すように、空間の左下方に 周期的な磁場を印加したとき、発生する電磁波の伝播を計算す る問題とした。また、空間は無限に広がるとし、周囲の境界には Mur の吸収境界条件を課した。FDTD 法は、ベクトル微分に適 した直交格子である Yee 格子[21,22]に基づき、電磁場の支配方 程式であるマクスウェル方程式を時空間領域で直接解く時間進行 法の一つである。2次元の電磁波は、電場と磁場のいずれを2次 元にするかにより2種類の表現があるが、ここでは電場を2次 元、磁場を1次元とした表現を用いた。このため、累算式は、電 場を計算する3項からなる累算が2つ、磁場を計算する5項から なる累算が1つ、計3つの式になる。また、格子点数は144 × 72点とし、PE 当たり6 × 9点を割り当てた。反復数を4000回 とした。

#### 4.3 時分割通信機構の実装および性能評価

これまでに示した実装とベンチマークの諸元から、式(11)と (15)を用いて求めた、帯域によるシリアライザの時分割数 Jの 最大値  $J_w$  および遅延による Jの最大値  $J_D$  を表3に示す。 $J_w$ の算出には、式(11)を用い、累算の項数 i と境界格子点数 g に おいて異なる値が該当する場合、条件の厳しい、小さい値を用い た。一方、 $J_D$ の算出には、ソフトウェアシミュレーションによ り Jを幾つか仮決めして、式(15)を用いて Rの最大値を求めた。 分割数は実装に良く用いられる2の指数に設定した。このうち、 FDTD における J = 32 は J  $J_D$  を満たしていない。なお、 遅延の許容値  $D_{\text{max}}$  はプログラムを解析して得た実測値である。

表3に示すように、FDTDのJ<sub>w</sub>は18と、RB-SORの40よ り小さい値となっている。このため、FDTDの方が帯域に関す る制約が厳しいと言える。これは、FDTD法では累算の項数と PE当たりの格子点数が少ないためである。科学計算において一 般的に用いられる2次精度以上の差分法において、累算は少なく とも3つの項を持つことから、項数に関してはFDTD以上に小 さくはならない。一方、PE当たりの格子点数は、PEのローカ ルメモリ容量と場の変数の数に依存する。このため、変数の数が 多い計算問題においては、通信帯域が計算性能の制約になる恐れ がある。

また、 $J_D$  においても FDTD の方が小さい値となっている。 これは、RB-SOR の送信 FIFO 内のデータ数 R の最大値は 1 と なり、データが溜まらないのに対し、FDTD の送信 FIFO 内の 最大データ数は 3 と 6 となり、データが溜まるためである。こ

# 表3 帯域制約および遅延制約に関わる諸元

| ベンチマーク問題               | 2 次元熱      | 伝導問題       | 2次元電磁波伝播問題 |            |  |
|------------------------|------------|------------|------------|------------|--|
| 数值手法                   | RB-        | SOR        | FDTD       |            |  |
| <b>累算の</b> 項数 <i>i</i> |            | 5          | 3, 3, 5    |            |  |
| 境界格子点数 $g$             | 8,         | 24         | 6, 9       |            |  |
| 帯域による $J$ の最大値 $J_w$   | 4          | 40         | 18         |            |  |
| 遅延の許容値 $D_{ m max}$    | 116        | cycle      | 82 cycle   |            |  |
| $D_{\rm FPGA}$         | 6 c        | ycle       | 6 cycle    |            |  |
| 分割数 J                  | $16 = 2^4$ | $32 = 2^5$ | $16 = 2^4$ | $32 = 2^5$ |  |
| FIFO 内の最大データ数          | 1          | 1          | 3          | 6          |  |
| 遅延による $J$ の最大値 $J_D$   | 102        | 102        | 22.7       | 11.3       |  |
| $J = J_D$              | 可          | 可          | 可          | 不可         |  |

れに関して、RB-SOR 法は *D*<sub>max</sub> が大きくなるように命令スケ ジューリングを行っているのに対し、FDTD はまだスケジュー リングが不十分であり、改善の余地があると考えられる。命令ス ケジューリングは遅延制約を大きく左右するため、スケジューリ ング手法を確立することが計算性能を引き出すために必要不可欠 である。

実装において、両方のプログラムが共通に実行できるように、 *J*=16 として時分割通信機構を実装した。また、送信 FIFO は 32 個のデータまで溜められるように設定した。実装の結果、リ ンク当たりに必要な帯域は 1.75 Gbit/s であった。これは使用し ている FPGA の I/O 帯域(79.7 Gbit/s )の約 50 分の 1 であり、 FPGA 当たりに 4 リンク必要とする 2 次元 FPGA アレイを実 装する場合においても 10 倍ほどの余裕がある結果が得られた。 これは、より安価な FPGA を用いることができる可能性、そし て制約のより厳しい計算問題にも対応できる可能性があることを 意味する。

また、時分割通信機構の合成に使用したのは LUT Look Up Table )と容量の最も小さい 512bit のメモリブロック(M512)の みであった。各 FPGA において、LUT と M512 の使用率がそ れぞれ 68.8% と 77.4% であるのに対し、時分割通信機構が占め ているのはそれぞれの内の 2.9% と 1.7% であった。これは時分 割通信機構の実装にはハードウェア資源は十分であると言える。

# 5 結言

本論文では、原理的に PE 数に比例する計算性能を持つ差分法 専用計算機の大規模実装を目指して、計算機を複数の FPGA に 分割実装する際、時分割により FPGA 間に要求される帯域を低 減させる通信機構を提案し、通信帯域と通信遅延による制約を明 らかにした。また、差分法専用計算機を 2 つの FPGA に分割し て試作し、実際の計算問題を解析した結果、帯域制約と遅延制約 が共に余裕があり、十分に大きい 16 という分割数をもって実装 することができた。そのため、FPGA 間の実装に必要な帯域は、 実装に用いた FPGA の I/O 帯域に比べて十分に低く、より制約 の厳しい計算問題にも対応できると考えられる。余裕を利用し、 試作に用いた FPGA よりも安価な FPGA を用いて安価な高性 能計算機を実現することも期待できる。さらに、時分割通信機構 は PCI インタフェース等を含めた専用計算機全体に必要なハー ドウェア資源の数パーセント程度のみを消費しており、回路規模 の点において問題にはならないと考えられる。 一方、通信遅延はプログラムに対する命令スケジューリングに より大きく左右されることが明かとなった。このため、スケジュ リーングの最適化手法を確立すること、および、2次元 FPGA アレイを用いた実装が今後の課題である。さらに、3次元計算 問題を2次元 PE アレイを用いて計算することも可能ではある ものの、より高い拡張性を得るためには3次元 FPGA アレイを 用いた3次元の PE アレイに対する評価も検討している。また、 FPGA は日々性能向上しているため、異なる世代の FPGA に対 して評価を行い、差分法専用計算機の性能向上の傾向を予測する ことも検討している。

## 参考文献

- James P. Durbano and Fernando E. Ortiz, "Fpgabased acceleration of the 3d finite-difference time-domain method", Proceedings of the 12th Annual IEEE Symposium on Field-Programmable Custom Computing Machines (FCCM2004), pp. 156–163, April 2004.
- [2] Gerald R. Morris, Viktor K. Prasanna, and Richard D. Anderson, "A hybrid approach for mapping conjugate gradient onto an FPGA-augmented reconfigurable supercomputer", Proceedings of the 14th Annual IEEE Symposium on Field-Programmable Custom Computing Machines, pp. 30–12, April 2006.
- [3] Ronald Scrofano, Maya B. Gokhale, Frans Trouw, and Viktor K. Prasanna, "A hardware/software approach to molecular dynamics on reconfigurable computers", Proceedings of the 14th Annual IEEE Symposium on Field-Programmable Custom Computing Machines, pp. 23–34, April 2006.
- [4] Alexander Kaganov, Paul Chow, and Asif Lakhany, "FPGA acceleration of monte-carlo based credit derivative pricing", Proceedings of the International Conference on Field Programmable Logic and Applications, pp. 329–334, September 2008.
- [5] Tsutomu Hoshino, Toshio Kawai, Tomonori Shirakawa, Junichi Higashino, Akira Yamaoka, Hachidai Ito, Takashi Sato, and Kazuo Sawada, "Pacs: A parallel microprocessor array for scientific calculations", ACM Transactions on Computer Systems, vol. 1, no. 3, pp. 195–221, 1983.
- [6] 岩崎洋一,"専用並列計算機による「場の物理」の研究",平 成4年度~8年度研究費補助金研究成果報告書,1997.
- [7] Y. Iwasaki, "Computers for lattice field theories", Nucl.Phys.Proc.Suppl., vol. 34, pp. 78–92, January 1994.
- [8] Keith D. Underwood and K. Scott Hemmert, "Closing the gap: Cpu and fpga trends in sustainable floatingpoint blas performance", Proceedings of the 12th Annual IEEE Symposium on Field-Programmable Custom Computing Machines, pp. 219–228, 2004.
- [9] K. Underwood, "Fpga vs. cpus: Trends in peak floatingpoint performance", Proceedings of the International Symposium on Field-Programmable Gate Arrays, pp. 171–180, February 2004.
- [10] Kentaro Sano, Takanori Iizuka, and Satoru Yamamoto, "Systolic architecture for computational fluid dynamics on fpgas", Proceedings of the 15th Annual IEEE Sym-

posium on Field-Programmable Custom Computing Machines (FCCM2007), pp. 107–116, April 2007.

- [11] Kentaro Sano, WANG Luzhou, Yoshiaki Hatsuda, and Satoru Yamamoto, "Scalable fpga-array for highperformance and power-efficient computation based on difference schemes", Proceedings of the International Workshop on High-Performance Reconfigurable Computing Technology and Applications (HPRCTA'08), pp. digital library (DOI: 10.1109/HPRCTA.2008.4745679, 9 pages), November 2008.
- [12] "複数 FPGA によるアレイ型差分法専用計算機のための FPGA 間通信帯域評価",第7回情報科学技術フォーラム (FIT) 論文集, pp. 25-28, September 2008.
- [13] C.S.Peskin, "The fluid dynamics of heart valves: Experimental, theoretical and computational methods", Annual Review of Fluid Mechanics, vol. 14, pp. 235–259, 1981.
- [14] H. Nishida and K. Sasao, "Incompressible flow simulations using virtual boundary method with new direct forcing terms estimation", Proceedings of the 4th Internationial Conference of Computational Fluid Dynamics, pp. 185–186, 2006.
- [15] Satoru Yamamoto and Koichiro Mizutani, "A very simple immersed boundary method applied to three-dimensional incompressile navier-stokes solvers using staggered grid", Proceedings of 5th Joint ASME-JSME Fluids Engineering Conference, vol. FEDSM2007-37153, 2007.
- [16] J. E. Vuillemin, P. Bertin, D. Roncin, M. Shand, H. H. Touati, and P. Boucard, "Programmable active memories: reconfigurable systems come of age", IEEE Transactions on Very Large Scale Integration (VLSI) Systems, vol. 4, no. 1, pp. 56–69, Mar 1996.
- [17] David Patterson, Krste Asanovic, Aaron Brown, Richard Fromm, Jason Golbus, Benjamin Gribstad, Kimberly Keeton, Christoforos Kozyrakis, David Martin, Stylianos Perissakis, Randi Thomas, Noah Treuhaft, and Katherine Yelick, "Intelligent ram(iram): the industrial setting, applications, and architectures", Proceedings of the International Conference on Computer Design, pp. 2–9, October 1997.
- [18] David Patterson, Thomas Anderson, Neal Cardwell, Richard Fromm, Kimberly Keeton, Christoforos Kozyrakis, Randi Thomas, and Katherine Yelick, "A case for intelligent ram: Iram", IEEE Micro, vol. 17, no. 2, pp. 34–44, March/April 1997.
- [19] Duncan G. Elliott, Michael Stumm, W.Martin Snelgrove, Christian Cojocaru, and Robert Mckenzie, "Computational ram: Implementing processors in memory", Design & Test of Computers, vol. 16, no. 1, pp. 32–41, January-March 1999.
- [20] Louis A. Hageman and David M. Young, Applied Iterative Methods, Academic Press, 1981.
- [21] J. Kim and P. Moin, "Application of a fractional-step method to incompressible navier-stokes", Journal of Computational Physics, vol. 59, pp. 308–323, June 1985.
- [22] John C. Strikwerda and Young S. Lee, "The accuracy of the fractional step method", SIAM Journal on Numerical Analysis, vol. 37, no. 1, pp. 37–47, November 1999.