# C-027

# NoC ルータのためのリンク間共有法におけるパイプライン・ステージの検討

Examination of Pipeline Stage in Link-Sharing Method for NoC Router

| 深瀬 尚久†         | 三浦 康之†         | 渡辺 重佳†            |
|----------------|----------------|-------------------|
| Naohisa Fukase | Yasuyuki Miura | Sigeyosi Watanabe |

## 1. まえがき

チップ内におけるコア間の接続方法として,接続にネ ットワークを使用する「ネットワークオンチップ(NoC)」 という技術がある. NoC で使用されるルータには,フリ ットを一時的に格納するバッファが取り付けられており, このバッファの容量が大きいほど NoC 全体の性能は向上 する.しかし NoC では,使用できるハードウェアコスト に限りがあるため,少量のバッファを有効に利用するこ とが重要である.

ルータ内のバッファを効率的に使用するため,各物理 リンク内の仮想チャネル間[1][2][3]や物理リンク間でバッ ファを共有する手法などが提案されてきた.しかし,後 者は理想状態として評価に使用されることはあったが[3], 実装向きでないためこれまで用いられることはあまりな かった.

そこで以前我々は、物理リンク間でバッファを共有す る手法の実装法を提案した[4]-[7]. この手法では、共有メ モリをブロックという単位に分割し、ブロック単位で各 チャネルに割り振ることで、ハードウェアコストの増加 を抑えている.その結果、提案手法は少ないハードウェ アコストで実装でき、高い通信性能を持つことを確認し た.

本稿では、この手法のパイプライン・ステージの検討 を行い、ステージ数増化による遅延の増加などについて の考察を行う.

# 2. 従来法

ここでは、提案手法について説明する前に一般的に使 用されるルータと本手法と類似した手法である各リンク 内の仮想チャネル間でバッファを共有するルータについ て説明する.

## 2.1 従来法1:未共有

直接結合網を用いた NoC では、プロセッサコアとルー タの組によって1つの PE が構成される.ルータ回路には、 通信経路となる物理リンク同士を接続するためのクロス バスイッチが配置されている.そしてクロスバスイッチ の入力側には通信の平滑化のために、バッファとして FIFO が取り付けられている.

ー般的に使用されるルータは、各チャネルに個別のバ ッファを持つ構造をしている[8][9][10][11]. しかしこのよ うな構造の場合、未使用のチャネルに割り当てられてい るバッファが有効に活用できない可能性があった.

†湘南工科大学, Shonan Institute of Technology

#### 2.2 従来法2:チャネル間共有

各物理リンクには、デッドロックの回避やヘッドオブ ラインブロッキングによる影響の軽減を目的に複数の仮 想チャネルが設けられる場合がある[12].

仮想チャネルは、物理的に1本の物理リンクを共有する ため、同時に複数の仮想チャネルに対するパケットの入 出力が生じない構造になっている。そのため、メモリを 効率的に使用するため、1本の物理リンクにおける複数の 仮想チャネルで1個のメモリを共有して使用する方法が用 いられることがある[1][2][3]. 従来法 2 の構成を図 1 に示 す.図1のようにこの手法のルータは、各物理リンクに1 個の Flit Payload Buffer という共有バッファを持ち, Buffer Management Unit  $\oplus \mathcal{O}$  Free Pool  $\Leftrightarrow$  Header Control Block  $\mathcal{O}$ Block Info でバッファを管理する. この手法では、フリッ トが入力されると, Flit Payload Buffer から1フリット分の メモリを動的に割り当る.その際,割り当てられたメモ リの制御を行うため, Free Pool と Block Info が使用される. Free Pool は、どのチャネルにも取得されていないメモリ のポインタを格納する. Block Info は、チャネルが取得し ているメモリのポインタを格納する.



### 3. 提案手法:リンク間共有法

物理リンクをまたぐバッファの共有法がこれまで使用 されてこなかった主な理由としては、ハードウェアコス トの大幅な増加がある.リンク間の共有では複数の物理 リンクからの同時アクセスに対応するため、共有メモリ にマルチポートメモリを使用する必要がある.しかし、 一般的なマルチポートメモリでは、ハードウェアコスト が大幅に増大するという問題がある.

提案手法と使用するバンク型マルチポートメモリの構 造をそれぞれ図2,3に示す.図2のように提案手法のル ータでは、各チャネルが専用のバッファである専有部を 持ち,入力ポートと専有部の間に全ての物理リンクで1個 の共有メモリを持つ構造となっている.提案手法ではハ ードウェアコストの問題を解決するため、共有メモリに バンク型マルチポートメモリ[13]-[17]を使用する. 図 3 の ように、バンク型マルチポートメモリはバンクと呼ばれ る少数のポートを持つメモリをクロスバスイッチなどの スイッチによって入出力ポートと接続することで構成さ れる.この構造は通常のマルチポートメモリのように, 各メモリセルのマルチポート化を行う必要がないため, ハードウェアコストの増加を抑えることができるという 利点がある.しかしこのマルチポートメモリでは、同バ ンク内のメモリ領域に対して同時にアクセスすることが できないため、従来法のようなフリットサイズのメモリ 領域を一つずつ割り当てる手法では、同時アクセスの間 題が発生する.

バンク型マルチポートメモリの問題を解決するため, 提案手法ではブロック単位共有を提案している.この手 法は,バンク型マルチポートメモリのバンクーつをブロ ックという単位とし,メモリの割り当てと解放をこの単 位で行う手法である.こうすることにより,各バンクへ の入出力がそのバンク(ブロック)を取得したチャネルから のみ行われるようになり,同時アクセスの問題が解決さ れる.また,これにより管理対象がフリットサイズのメ モリ数からブロック数になるため,制御用回路のハード ウェアコストも大幅に削減できる.

また,リンク間の共有ではバッファの共有により,メ モリを取得することができない仮想チャネルや物理リン クが発生する可能性があり,デッドロックを防ぐことが



図 2. 提案手法のルータ構造



図 3. バンク型マルチポートメモリの構成

できなくなるという問題もある.この問題を解決するため、本提案手法では各チャネルに通信を続けることが可能な最低限の容量の専有部というバッファを設けている. こうすることにより、各チャネルはメモリの取得が不可能な場合であっても通信を続けることができ,デッドロックを回避することができる.

# 4. パイプライン

## 4.1 一般的ルータのパイプライン

ー般的に使用されているルータのパイプラインを図4に 示す[18].図4のように一般的なパイプラインは次の4つ の処理を3段のパイプラインにより実行する.

1) Routing Computation(RC)

ヘッダフリットの情報から出力リンクを決定する.

- 2) Virtual Channel Allocation(VA)
- 出力する仮想チャネルを割り当てる.
- 3) Switch Allocation(SA)
- クロスバスイッチのアービトレーションと設定を行う.
- 4) Switch Traversal(ST)
- フリットがクロスバスイッチを通過する.



図 4. 一般的なルータのパイプライン

## 4.2 提案手法のパイプライン

一般的なルータと異なり,提案手法に入力されたフリットは状況に応じて2種類の経路を通る.

一つは、入力ポート到着後すぐに専有部に送られる経路である.この経路は、通信のブロックが発生せず、専 有部のみで通信が可能である場合に使用される.以後この経路を「経路1」とする.

二つ目は、入力ポートに入力後、一度共有メモリに入 力され、その後で専有部に入力される経路である.この 経路は、混雑により通信のブロックが発生し、専有部の みでは後続のフリットを受け入れられない場合に使用される.以後この経路を「経路2」とする.

経路1のパイプラインを図5に示す.図5のように経路 1は、一般的なルータと同様に3ステージのパイプライン から構成される.ただし、図5にあるように1ステージ目 でIn-jugde(IJ)ステップを行う.IJは、「共有メモリを使用 するか否か」と「新たにブロックを取得するか否か」の 判定を行うステップである.パケットの出力リンクは、 共有メモリを使用するか否かとは無関係に決まるので、 RCとIJは並列に処理できる.



経路2のパイプラインを図6に示す.提案手法において

共有メモリを使用する場合に、必要になるステップは次 のようになる.

#### 1) IJ(In-Judge)

入力フリットが共有メモリを使用する必要があるか を判定する.同時に,共有メモリを使用する場合,当 該チャネルが新たにブロックを取得する必要があるか 否かの判定を行う.

#### 2) SiA(Switch-i Allocation)

制御情報の更新を行うと同時に,バンク型マルチポ ートメモリの入力用クロスバスイッチの設定を行う.

#### 3) SiT(Switch-i Traversal)

SiA ステップに成功した場合,フリットをバンク型 マルチポートメモリの入力用クロスバスイッチを通過 させて,共有メモリに格納する.

#### 4) SoA(Switch-o Allocation)

バンク型マルチポートメモリの出力用クロスバスイ ッチの設定,およびブロック解放処理を同時に行う.

#### 5) SoT(Switch-o Traversal)

SoA ステップに成功した場合,バンク型マルチポー トメモリの出力用クロスバスイッチにフリットを通過 させ,専有部に格納する.

|    |          | Cycle |     |          |
|----|----------|-------|-----|----------|
| 1  | <b>2</b> | 3     | 4   | <b>5</b> |
|    | <i></i>  | SiT   | SA  | ~~~      |
| 10 | SiA      | SoA   | SoT | ST       |

図 6. 経路 2 のパイプライン

図 6 のように,経路 2 は経路 1 に比べてパイプライン が 2 ステージ増加する.しかし,以下の理由により,経路 2 のパイプラインによる遅延は隠ぺいされる.

・ネットワークが混雑しておらず、専有部に空きがある場合、3段パイプラインに従って処理されるため、従来法と同じ量の遅延となる.

・ネットワークが混雑するに従って、専有部に空きが 少なくなると共有部が使用される.専有部からクロスバ スイッチに送られるパケットがブロッキングされること により、専有部中のフリットが増えることになるが、そ のようなブロッキングを1回まで許容できるように専有部 を設計すれば(専有部のフリット数を2以上にすれば)、共 有部を使用したフリットのパイプラインがスムーズに動 作する.

提案するパイプラインの動作例を図7に示す.図7では, 先頭のフリットがブロックされたことにより,3つ目に入 力されたフリットが経路2を使用する場合である.



図 7. パイプラインの動作例

#### 5. 性能評価

提案手法の動的通信性能をソフトウェアシミュレータ によって評価する.シミュレータでは、各 PE で1サイク ルごとに指定された確率でパケットを生成し、ランダム に選択した他の PE に送信する.これらの処理をパケット の発生確率を変化させて実行し、グラフを作成する.

平均スループットに対する、共有メモリの利用率を図8 に示す.図8の横軸は、PE数が64、合計バッファ容量が 64, パケット長が 64 の場合の平均スループットである. 縦軸は、それぞれの条件において、ルータに滞在中のパ ケットが共有メモリを使用する比率を示している. 平均 スループットが低い場合(ネットワークが混雑していな い場合),専有部のみを使用した転送が多いため,一般 的な手法と提案手法のふるまいに大きな差が見られない. 平均スループットが高くなる(ネットワークが混雑す る)に従って、共有部を用いた転送の割合がゆるやかに 増加し、スループットが 0.2 flit/Cycle・PEを超えて従来法 と提案手法の違いが現われるあたりで、共有部の割合の 増加が激しくなる.ただしその場合も、4.2節において述 べたように、共有部の通過に伴う遅延はほぼ隠蔽される (前方のフリットのブロッキングによって隠される) た め,遅延時間の増加による通信性能のロスは目立たない.

図 9 に PE 数が 64, 合計バッファ容量が 64, パケット 長が 64 の場合の各実装法のシミュレーション結果を示す. この図 9 のグラフは, 横軸が平均スループット, 縦軸が平 均転送時間となっている. またグラフには, 提案手法の 性能向上幅を確認するために, 従来法 1(no-sharing)と従来 法 2(By-flit and channel sharing)を, ブロック単位共有によ る性能の低下幅を確認するために, リンク間共有でフリ ットサイズのメモリ割り当てを行う手法(By-flit and Linksharing)の結果も同時に載せている.結果より,提案手法 のようなリンク間の共有は,そのほかの手法と比較して 十分に性能が向上することが確認できる.また,フリッ トサイズでメモリの割り当てを行う手法と比較した結果, ブロック単位共有よる性能低下はほとんどないことが確 認出来る.



sharing By-block and Linksharing

average throughput (flit/Cycle•PE) 図 9.動的通信性能の評価結果

0.1

(PE 数:64, 合計バッファ:64, パケット長:64)

0.2

## 6. まとめ

average

500

0

0

本稿では、以前我々が提案した NoC ルータにおけるバ ッファのリンク間共有法のパイプラインについて検討を 行った. その結果共有メモリを使用する場合、パイプラ インが一般的なルータのパイプラインよりも2ステージ増 化することが分かった. ただしこのパイプラインの増加 による遅延は、専有部の容量を確保しておけば防げる.

今後は、制御部の論理回路を実装に伴うパイプライン ステージの見直しと、詳しいハードウェアコストの見積 もりを行う.

#### 参考文献

[1] A.Kumary, P.Kunduz, A.P.Singhx, L.-S.Pehy, N.K.Jhay, A 4.6Tbits/s 3.6GHz single-cycle NoC router with a novel switch allocator in 65nm CMOS, 25th International Conference on Computer Design(ICCD 2007), pp.63-70, Oct. 2007.

[2] Gregory L. Frazier, Yuval Tamir, The design and implementation of a multiqueue buffer for VLSI communication switches, Proceedings of the International Conference on Computer Design Cambridge, Massachusetts, pp.466-471, Oct.1989. [3] Yuval Tamir, Gregory L. Frazier, Dynamically-Allocated Multi-Queue Buffers for VLSI Communication Switches, IEEE Trans. Computers, Vol.41, No.6, pp.725-737, 1992.

[4] 深瀬尚久,三浦康之,直接結合ネットワークのルータ 回路におけるバッファの有効利用,情報処理学会創立 50 周年記念(第72回)全国大会,2M-2,2010.03.

[5] 深瀬尚久,三浦康之,渡辺重佳,直接結合ネットワークにおけるバッファのリンク単位共有法,情報処理学会第73回全国大会,6H-1,2011.03.

[6]Naohisa Fukase, Yasuyuki Miura, Shigeyoshi Watanabe, Link-Sharing Method of Buffer in Direct-Connection Network, The 2011 IEEE Pacific Rim Conference on Communications, Computers and Signal Processing, pp.208-213, 2011.08.

[7] 深瀬尚久, 三浦康之, 渡辺重佳, NoC ルータにおける リンク間共有法の通信性能の評価, 情報処理学会第 74 回 全国大会, 5K-6, 2012. 03.

[8] M. Ni and P. K. McKinley, A Survey of Wormhole Routing Techniques in Direct Networks, Proc of the IEEE, Vol. 81, No. 2, pp. 62-76, 1993.

[9] Yasuyuki Miura , Masahiro Kaneko , Shigeyoshi Watanabe, Adaptive Routing Algorithms and Implementation for Interconnection Network TESH for Parallel Processing,

The 35th IEEE Conference on Local Computer Networks (LCN), 2010.

[10] T.C.So, S.Oyanagi, K.Yamazeki, Speculative Selection in Adaptive Routing on Interconnection Networks,

情報処理学会論文誌.コンピューティングシステム, Vol.44, pp.147-156, 2003.

[11] M.Koibuchi, K.Anjo, Y.Yamada, A.Jouraku and H.Amano, "A Simple Data Transfer Technique Using Local Address for Networks-on-Chips", IEEE Transaction on Parallel and Distributed Systems, vol.17, No.12, pp.1425-1437, 2006.

[12] W.J.Dally, Virtual-Channel Flow Control, IEEE Trans on Parallel and Destributed Systems, vol.3, No.2, pp.194-205, 1992.

[13] Y.Tatsumi et al., "Fast quadratic increase of multiportstrage-cell area with port number," Electronics Letters, Vol.35, No.25, pp.2185-2187, 1999.

[14] Michael Golden et al., "A 500MHz write-bypassed,
88-entry, 90bit register file," Proc. of Symposium on VLSI Technology, Session C11-1, 1999.

[15] H.J Mattausch, K.Kishi and T.Gyohten, "Area-efficient multi-port SRAMs for on-chip data-storage with high random-access bandwidth and large storage capacity," IEICE Trans. Electron., Vol.E84-C, No.3, p410, 2001.

[16] 井上他, K出力可能な閉そく網と非閉そく網を階層 的に用いたバンク型マルチポートメモリの構成と評価,

電子情報通信学会論文誌 A, Vol.J89-A, No.10, pp.774-789, 2006.

[17] 佐々木他, オンチップマルチプロセッサ用共有キャッシュの実現方式の検討とその性能面積評価, 電子情報 通信学会論文誌 D-I, Vol.J87-D-I, No.3, pp.350-363, 2004.

[18] W. J. Dally and B. Towles. Principles and Practices of InterconnectionNetworks. Morgan Kaufmann Publishers, 2004