講演名 2010-11-19
文のつながりからみた日本語文章の特徴
古橋 翔, 早川 美徳,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 文が統辞論の規則に従って単語を並べて構成されるように,文章中の文の並びにも何かしらの特徴があるのだろうか.本研究は,青空文庫から著者を特定せずに大量に集めた文章から,文をノードとして,出現順に方向つきリンクで結んだネットワークを作成しその構造を調べた.但し,文は品詞分解をして,品詞の並びのパターン(文型)として分類した.その結果,ほとんどの文型は一度きりしか現れないものの,次数分布や文型間の遷移回数分布にべき乗則が表れることを示した.また,文型の品詞数を文の長さと定義すると,連続する文型間には長さについて正の相関があり,また,多用される文型は短いものであった.
抄録(英) Syntax is an important rule of constructing sentences. When we write a sentence, words are ordered under this rule. We have a question that whether there is a rule or not when we construct a text by writing sentences. In this study, we analyzed a text structure in terms of Complex Networks. A text structure was regarded as a network. A sentence was defined as a node and two nodes representing two consecutive sentences were connected by an arrow indicating reading order. By analyzing the structure of this network, we found that the degree distribution and the distribution of translation count on a link follows power-law.
キーワード(和) 文章 / 複雑ネットワーク / スケールフリー / 言語ネットワーク
キーワード(英) Text / Complex Networks / Scale-free / Language Networks
資料番号 NLP2010-99
発行日

研究会情報
研究会 NLP
開催期間 2010/11/12(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Nonlinear Problems (NLP)
本文の言語 JPN
タイトル(和) 文のつながりからみた日本語文章の特徴
サブタイトル(和)
タイトル(英) Investigation of the properties of Japanese texts by being focused on the sequence of sentences
サブタイトル(和)
キーワード(1)(和/英) 文章 / Text
キーワード(2)(和/英) 複雑ネットワーク / Complex Networks
キーワード(3)(和/英) スケールフリー / Scale-free
キーワード(4)(和/英) 言語ネットワーク / Language Networks
第 1 著者 氏名(和/英) 古橋 翔 / Sho FURUHASHI
第 1 著者 所属(和/英) 東北大学大学院理学研究科
Faculty of Science, Tohoku University
第 2 著者 氏名(和/英) 早川 美徳 / Yoshinori HAYAKAWA
第 2 著者 所属(和/英) 東北大学教育情報基盤センター
Center for Information technology in Education, Tohoku University
発表年月日 2010-11-19
資料番号 NLP2010-99
巻番号(vol) vol.110
号番号(no) 299
ページ範囲 pp.-
ページ数 6
発行日