講演名 1999/7/23
全文検索のための字面解析による単語分割
飯塚 泰樹,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本論文では、辞書を用いない字面解析による単語分割手法を提案する。本手法ではまず、対象文書からルールにより単語抽出を行う。単語抽出は、字種パターンとその前後を抜き出したnグラムを作成して行う。この際、ルールを精細化して高精度化を図ると共に複数の方式を併用することにより抽出単語数を確保した。このように得られた単語と分割用ルールを相補的に用い、形態素解析に似たアルゴリズムを採用することで、字種変化点にとらわれない精度の高い分割に成功した。本手法はクローズドデータの処理方式での実験の結果として、新聞データに対して適合率90.2%, 再現率85.8%を得ることができた。
抄録(英) This paper presents a word segmentation method based on a textual analysis. This method does not require any dictionary. The proposed method consists of two steps. The first step is building list of words by filtering string clusters devided by heuristic rules. These heuristic rules mainly utilyzes character types. The second step is segmenting texts based on the extracted word list and the other heuristic rules. The score of evaluation experiment is 90.2% precision and 85.5% recall.
キーワード(和) 単語抽出 / 単語分割 / コーパス / ルール
キーワード(英) word extraction / word segmentation / corpus / heuristic rule
資料番号 NLC99-14
発行日

研究会情報
研究会 NLC
開催期間 1999/7/23(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 全文検索のための字面解析による単語分割
サブタイトル(和)
タイトル(英) Japanese Word Segmentation Using Textual Analysis for Full Text Search
サブタイトル(和)
キーワード(1)(和/英) 単語抽出 / word extraction
キーワード(2)(和/英) 単語分割 / word segmentation
キーワード(3)(和/英) コーパス / corpus
キーワード(4)(和/英) ルール / heuristic rule
第 1 著者 氏名(和/英) 飯塚 泰樹 / Yasuki IIZUKA
第 1 著者 所属(和/英) 松下電器産業株式会社 マルチメディアシステム研究所
Multimedia Systems Research Laboratory Matsushita Electric Industrial Co., Ltd.
発表年月日 1999/7/23
資料番号 NLC99-14
巻番号(vol) vol.99
号番号(no) 228
ページ範囲 pp.-
ページ数 8
発行日