大会名称
2009年 情報科学技術フォーラム(FIT)
大会コ-ド
F
開催年
2009
発行日
2009/8/20
セッション番号
7E
セッション名
語彙・辞書
講演日
2009/09/04
講演場所(会議室等)
E会場(9号館1F 915教室)
講演番号
RE-001
タイトル
くだけた表現を修正するための教師なし学習方式の提案と評価
著者名
池田 和史柳原 正松本 一則滝嶋 康弘
キーワード
自然言語処理, 形態素解析, データベース, 機械学習, ブログ解析, くだけた表現
抄録
インターネット上の文書には口語的な表現や特有の表記などのくだけた表現が多数含まれ、形態素解析精度を低下させる要因となる。くだけた表現は一般的に人手により辞書登録されるが、人的コストの大きさなどが課題となる。
本稿ではくだけた表現を文語的な表現に修正するための教師なし学習手法を提案する。くだけた表現の修正候補をくだけた表現の少ない文書から自動的に検索し、修正ルールを生成する。生成した多数の修正ルールを修正候補の出現頻度、修正の編集距離、修正前後の文の形態素解析結果の比較、によってスコアリングする手法を合わせて提案する。
提案手法を実装し、未知語の減少数や文節区切りの正確さ、修正前後の意味の変化を定量的に評価し、従来手法と比較した。提案手法では従来手法と同程度の文節区切りの正確さを維持しながら、従来手法とくらべ2倍以上未知語を減少させることに成功した。
本文pdf
PDF download (119.9KB)