講演抄録/キーワード |
講演名 |
2010-11-19 13:30
文のつながりからみた日本語文章の特徴 ○古橋 翔・早川美徳(東北大) NLP2010-99 |
抄録 |
(和) |
文が統辞論の規則に従って単語を並べて構成されるように,文章中の文の並びにも何かしらの特徴があるのだろうか.本研究は,青空文庫から著者を特定せずに大量に集めた文章から,文をノードとして,出現順に方向つきリンクで結んだネットワークを作成しその構造を調べた.但し,文は品詞分解をして,品詞の並びのパターン(文型)として分類した.その結果,ほとんどの文型は一度きりしか現れないものの,次数分布や文型間の遷移回数分布にべき乗則が表れることを示した.また,文型の品詞数を文の長さと定義すると,連続する文型間には長さについて正の相関があり,また,多用される文型は短いものであった. |
(英) |
Syntax is an important rule of constructing sentences. When we write a sentence, words are ordered under this rule. We have a question that whether there is a rule or not when we construct a text by writing sentences. In this study, we analyzed a text structure in terms of Complex Networks. A text structure was regarded as a network. A sentence was defined as a node and two nodes representing two consecutive sentences were connected by an arrow indicating reading order. By analyzing the structure of this network, we found that the degree distribution and the distribution of translation count on a link follows power-law. |
キーワード |
(和) |
文章 / 複雑ネットワーク / スケールフリー / 言語ネットワーク / / / / |
(英) |
Text / Complex Networks / Scale-free / Language Networks / / / / |
文献情報 |
信学技報, vol. 110, no. 299, NLP2010-99, pp. 1-6, 2010年11月. |
資料番号 |
NLP2010-99 |
発行日 |
2010-11-12 (NLP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NLP2010-99 |