大会名称
2015年 情報科学技術フォーラム(FIT)
大会コ-ド
F
開催年
2015
発行日
2015/08/25
セッション番号
6D
セッション名
自然言語処理とWeb
講演日
2015/09/17
講演場所(会議室等)
共通教育講義棟3階 講32
講演番号
E-017
タイトル
子供向けWebサイト収集のためのクローリング手法の検討
著者名
泉川洸一郎安藤一秋
キーワード
子供向けWebサイト, 小学生, クローリング, 自動収集
抄録
新聞記事に出現する語句は小学生にとって難しいものが多く,新聞に出現する難しい語句を平易な表現に言い換える研究が進められている.新聞記事を言い換えるためには言い換え知識が必要である.小学生を対象とした言い換え知識の一つに小学国語辞典があるが,語彙数が少ない問題がある.本研究では,Web上の子供向けサイトに存在する平易な文を大量に収集することで「子供Webコーパス」を構築し,コーパスから言い換え知識を自動抽出する手法の実現を目的とする.本稿では,子供向けサイトをシードとしてクローリングを行い,大量の子供向けサイトを効率良く収集する手法について検討する.
本文pdf
PDF download (372.1KB)