講演名 2014/12/9
仮名漢字変換ログを用いた単語分割・読み推定の精度向上(応用処理,第6回集合知シンポジウム)
高橋 文彦, 森 信介,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 単語分割・読み推定の課題として,未知語の多いテキストを頑健に解析できないという問題がある.本研究ではこのような問題に対処するために,文章を作成するときに用いる仮名漢字変換のログを参照する方法を提案する.仮名漢字変換ログとは,インプットメソッドで文章を作成するときの履歴であり,単語境界や入力記号列の情報を含んでいるため,アノテーションデータと見なすことができる.一方で変換ログは,誤った確定結果などを含むためノイズありのアノテーションデータだといえる.本論文では,ノイズを含んだアノテーションデータを学習データに利用する3つの方法を提案する.実験では,Twitterを題材として提案手法を評価し,単語分割・読み推定ともに精度が向上することを確認し,提案手法の有効性を示した.
抄録(英)
キーワード(和)
キーワード(英)
資料番号 Vol.2014-NL219 No.15
発行日

研究会情報
研究会 NLC
開催期間 2014/12/9(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 仮名漢字変換ログを用いた単語分割・読み推定の精度向上(応用処理,第6回集合知シンポジウム)
サブタイトル(和)
タイトル(英)
サブタイトル(和)
キーワード(1)(和/英)
第 1 著者 氏名(和/英) 高橋 文彦
第 1 著者 所属(和/英) 京都大学情報学研究科
第 2 著者 氏名(和/英) 森 信介
第 2 著者 所属(和/英) 京都大学学術情報メディアセンター
発表年月日 2014/12/9
資料番号 Vol.2014-NL219 No.15
巻番号(vol) vol.114
号番号(no) 366
ページ範囲 pp.-
ページ数 10
発行日