講演抄録/キーワード |
講演名 |
2015-06-13 15:10
文字列ラベルを用いたダブル配列表現 ○神田峻介・泓田正雄・森田和宏・青江順一(徳島大) COMP2015-15 |
抄録 |
(和) |
トライは枝に文字を付随した順序木であり,情報検索や自然言語処理等において効率的なキー集合の管理を実現する.このトライを表現するデータ構造として,高速性に秀でたダブル配列が提案されている.ダブル配列の記憶量はトライのノード数に依存するため,ノード数を削減することで記憶効率は向上する.少ないノード数でトライを実現するため,MPトライ(Minimal-Prefix Trie)やDAWG(Directed Acyclic Word Graph)が提案されており,ダブル配列はこれらデータ構造も効率的に表現することができる,一方,MPトライやDAWGにも,枝に文字列ラベルを付随することができれば削減できるノードが数多く存在する.しかし,ダブル配列により文字列ラベルを表現する手法は提案されていない.本稿では,ラベルのサイズに応じた複数の配列を導入することにより,文字列ラベルを表現する新しいダブル配列構造を提案する.また,実験により提案手法の有効性を示す. |
(英) |
A trie is an ordered tree structure with a character on each edge. The trie provides an efficient management of a keyword set in natural language processing, information retrieval systems and so on. The double-array with a high-speed performance has been proposed to represent the trie efficiently. As its space usage depends on the number of trie nodes, the space usage decreases by reducing nodes. To reduce the number of trie nodes, a Minimal-Prefix (MP) trie and a Directed Acyclic Word Graph (DAWG) have been proposed, and the double-array can represent the data structures efficiently. On the other hand, the data structures include many nodes that can be reduced by giving a string label to each edge. However, the double-array with the string labels have not been proposed. This paper proposes a new double-array structure with the string labels by using multiple arrays depending on label sizes. Moreover, we show its effectiveness by experiments. |
キーワード |
(和) |
トライ / DAWG / ダブル配列 / 文字列ラベル / / / / |
(英) |
Trie / DAWG / Double-array / String label / / / / |
文献情報 |
信学技報, vol. 115, no. 84, COMP2015-15, pp. 141-148, 2015年6月. |
資料番号 |
COMP2015-15 |
発行日 |
2015-06-05 (COMP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
COMP2015-15 |