講演名 2006-01-12
遺伝的プログラミングによる分類関数近似を用いた文書分類とその応用
高木 昇, 時永 祥三,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 多量のデータ蓄積に対してクラスタ分類や検索を自動的・効率的に実施し, 意思決定に用いることが求められている。報告では, 遺伝的プログラミング(Genetic Programming : GP)手法を用いて, 文書クラスタ分類の手法を提案し, その応用について述べる。これまでのテキスト分類手法ではキーワード出現頻度などの特徴ベクトルを用いてサンプル間の距離を求めていたが, 精密な解析には適当ではない。報告では特徴ベクトルによる非線形の分類関数近似を行うことにより柔軟なシステム構成法を提案すると同時に, キーワード出現順序などの条件をGP手法で改善したルールとして記述し, これによるテキスト分類を実施する方法を提案する。報告では学習データとして分類が判明している文書と特徴ベクトルを与え分類されるクラスタごとに, 分類のための分類関数をGPにより構成していく。次に, クラスタ分類が未知である文書を入力し, これらの個体の中で適合度が最高となるクラスタに所属すると判断する。応用例として, 最初に人工的に生成した文書による分類シミュレーションを取り上げ, 次に実際の経済記事のクラスタリング評価問題を示す。
抄録(英) This paper deals with the realization of text classification systems by using sequence estimation of words and approximation of classification functions based on the Genetic Programming (GP) and its Applications. Conventional text classification methods utilize the feature vector corresponding to frequecy of appearance of key-words, but the method can not provide us sufficient results. In the paper, we apply the GP procedure to approximate nonlinear classification functions in which the elements of feature vector are used for the input variables. The method of the paper is applied to simulation studies for artificially generated text, and also to theclassification of real article in the field of economics.
キーワード(和) 文書分類 / 分類関数近似 / 遺伝的プログラミング / クラスタ
キーワード(英) Rule estimation / Genetic Programming / categorization
資料番号 CAS2005-77
発行日

研究会情報
研究会 CAS
開催期間 2006/1/5(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Circuits and Systems (CAS)
本文の言語 JPN
タイトル(和) 遺伝的プログラミングによる分類関数近似を用いた文書分類とその応用
サブタイトル(和)
タイトル(英) Realization of Text Classification Systems by Approximation of Classification Functions based on the Genetic Programming and its Applications
サブタイトル(和)
キーワード(1)(和/英) 文書分類 / Rule estimation
キーワード(2)(和/英) 分類関数近似 / Genetic Programming
キーワード(3)(和/英) 遺伝的プログラミング / categorization
キーワード(4)(和/英) クラスタ
第 1 著者 氏名(和/英) 高木 昇 / Noboru TAKAGI
第 1 著者 所属(和/英) 長崎総合科学大学情報学部経営情報学科
Dept. of Management and Infomation Science, Nagasaki Institute of Applied Science First University
第 2 著者 氏名(和/英) 時永 祥三 / Shozo TOKINAGA
第 2 著者 所属(和/英) 九州大学大学院経済学研究院
Graduate School of Economics, Kyushu Univ.
発表年月日 2006-01-12
資料番号 CAS2005-77
巻番号(vol) vol.105
号番号(no) 503
ページ範囲 pp.-
ページ数 5
発行日