講演名 2015-09-11
条件付き確率場を用いた新聞報道からの未来予測情報抽出
島岡 聖世(東北大), 佐藤 祥多(東北大), 佐々木 彬(東北大), 稲田 和明(東北大), 関根 聡(ランゲージ・クラフト), 乾 健太郎(東北大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 「国連によれば、2025年段階で、世界の水使用量は00年比で30%以上増えることが確実と言われている。」– このような調査会社や行政機関などが発表する未来予測は、多くの人々にとって価値ある情報であり、新聞記事などから人手で収集・整理されてきた。しかし、膨大なテキスト情報から人手で未来情報を抽出することは、多大なコストがかかる。そこで、本研究では機械学習を用いて未来予測を自動的に抽出する方法を提案する。まず、機械学習に用いる訓練データとして、92本の新聞記事の各文に対して未来予測であるか否かのラベルを付与し、さらに未来予測の発表者名、発表日付なども同定したコーパスを作成した。そして、作成 したコーパスを用いて学習を行い、10分割交差検定を実施したところ、文単位での未来予測の抽出の精度は 0.836、再現率は 0.770 となった。
抄録(英)
キーワード(和) 情報抽出 / テキストマイニング / 条件付き確率場 / 自然言語処理
キーワード(英) Information Extraction / Conditional Random Field
資料番号 NLC2015-29
発行日 2015-09-03 (NLC)

研究会情報
研究会 NLC
開催期間 2015/9/10(から2日開催)
開催地(和) コンベンションルーム AP渋谷道玄坂
開催地(英) Convention Room AP Shibuya-Dogenzaka (Tokyo)
テーマ(和) 第7回 テキストマイニング・シンポジウム
テーマ(英) The Seventh Text Mining Symposium
委員長氏名(和) 竹内 孔一(岡山大)
委員長氏名(英) Koichi Takeuchi(Okayama Univ.)
副委員長氏名(和) 金山 博(日本IBM) / 市瀬 眞(NTTドコモ)
副委員長氏名(英) Hiroshi Kanayama(IBM) / Makoto Ichise(NTT DoCoMo)
幹事氏名(和) 榊 剛史(東大/ホットリンク) / 渡辺 靖彦(龍谷大)
幹事氏名(英) Takeshi Sakaki(Univ. of Tokyo/Hottolink) / Yasuhiko Watanabe(Ryukoku Univ.)
幹事補佐氏名(和) 嶋田 和孝(九工大) / 東中 竜一郎(NTT)
幹事補佐氏名(英) Kazutaka Shimada(Kyushu Inst. of Tech.) / Ryuichiro Higashinaka(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Natural Language Understanding and Models of Communication
本文の言語 JPN
タイトル(和) 条件付き確率場を用いた新聞報道からの未来予測情報抽出
サブタイトル(和)
タイトル(英) Information Extraction of Future Predictions from News Reports using Conditional Random Fields
サブタイトル(和)
キーワード(1)(和/英) 情報抽出 / Information Extraction
キーワード(2)(和/英) テキストマイニング / Conditional Random Field
キーワード(3)(和/英) 条件付き確率場
キーワード(4)(和/英) 自然言語処理
第 1 著者 氏名(和/英) 島岡 聖世 / Sonse Shimaoka
第 1 著者 所属(和/英) 東北大学(略称:東北大)
Tohoku University(略称:Tohoku Univ.)
第 2 著者 氏名(和/英) 佐藤 祥多 / Shota Sato
第 2 著者 所属(和/英) 東北大学(略称:東北大)
Tohoku University(略称:Tohoku Univ.)
第 3 著者 氏名(和/英) 佐々木 彬 / Akira Sasaki
第 3 著者 所属(和/英) 東北大学(略称:東北大)
Tohoku University(略称:Tohoku Univ.)
第 4 著者 氏名(和/英) 稲田 和明 / Kazuaki Inada
第 4 著者 所属(和/英) 東北大学(略称:東北大)
Tohoku University(略称:Tohoku Univ.)
第 5 著者 氏名(和/英) 関根 聡 / Satoshi Sekine
第 5 著者 所属(和/英) ランゲージ・クラフト(略称:ランゲージ・クラフト)
LanguageCraft(略称:LanguageCraft)
第 6 著者 氏名(和/英) 乾 健太郎 / Kentaro Inui
第 6 著者 所属(和/英) 東北大学(略称:東北大)
Tohoku University(略称:Tohoku Univ.)
発表年月日 2015-09-11
資料番号 NLC2015-29
巻番号(vol) vol.115
号番号(no) NLC-222
ページ範囲 pp.57-62(NLC),
ページ数 6
発行日 2015-09-03 (NLC)