仮名漢字変換ログを用いた単語分割・読み推定の精度向上(応用処理,第6回集合知シンポジウム)

講演名	2014/12/9 仮名漢字変換ログを用いた単語分割・読み推定の精度向上(応用処理,第6回集合知シンポジウム) 高橋文彦, 森信介,
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	単語分割・読み推定の課題として,未知語の多いテキストを頑健に解析できないという問題がある.本研究ではこのような問題に対処するために,文章を作成するときに用いる仮名漢字変換のログを参照する方法を提案する.仮名漢字変換ログとは,インプットメソッドで文章を作成するときの履歴であり,単語境界や入力記号列の情報を含んでいるため,アノテーションデータと見なすことができる.一方で変換ログは,誤った確定結果などを含むためノイズありのアノテーションデータだといえる.本論文では,ノイズを含んだアノテーションデータを学習データに利用する3つの方法を提案する.実験では,Twitterを題材として提案手法を評価し,単語分割・読み推定ともに精度が向上することを確認し,提案手法の有効性を示した.
抄録(英)
キーワード(和)
キーワード(英)
資料番号	Vol.2014-NL219 No.15
発行日

講演論文情報詳細
申込み研究会	Natural Language Understanding and Models of Communication (NLC)
本文の言語	JPN
タイトル（和）	仮名漢字変換ログを用いた単語分割・読み推定の精度向上(応用処理,第6回集合知シンポジウム)
サブタイトル（和）
タイトル（英）
サブタイトル（和）
キーワード(1)（和/英）
第 1 著者氏名（和/英）	高橋文彦
第 1 著者所属（和/英）	京都大学情報学研究科
第 2 著者氏名（和/英）	森信介
第 2 著者所属（和/英）	京都大学学術情報メディアセンター
発表年月日	2014/12/9
資料番号	Vol.2014-NL219 No.15
巻番号（vol）	vol.114
号番号（no）	366
ページ範囲	pp.-
ページ数	10
発行日