大会名称
2010年 情報科学技術フォーラム(FIT)
大会コ-ド
F
開催年
2010
発行日
2010/8/20
セッション番号
3N
セッション名
知識処理・自然言語処理
講演日
2010/09/07
講演場所(会議室等)
N会場(ウエスト2号館3F 大講義室)
講演番号
F-018
タイトル
造語に特化した固有表現抽出
著者名
荒井 徹大和田 勇人
キーワード
固有表現抽出, 形態素解析, 造語
抄録
固有表現抽出は、文書中の人名、地名などの固有名詞や金額、割合といった数量表現を抽出、タグ付けを行う情報抽出技術である。現在、SVMや最大エントロピー法を用いた手法や複数の抽出モデルを混合した手法などが提案され、高精度のものとなってきている。しかし、固有表現の中の造語という部分を高精度で抽出できるものは少ない。そこで本研究では造語に特出した固有表現抽出の提案をする。まず、文を形態素の列に分割する。そしてWeb上で検索し、その結果から造語か否かを判断する。造語を抽出した後、すでに精度が高い既存の手法を行うことで固有表現全体の抽出精度を向上できる。
本文pdf
PDF download (259.6KB)