講演抄録/キーワード |
講演名 |
2006-02-02 15:45
SVMを用いたコンピュータウイルス情報の抽出 ○鈴木雄策・山村 毅(愛知県立大) |
抄録 |
(和) |
本稿では,ニュース記事から,文節をまたがった名詞句や文を抽出することで(コンピュータウイルスに関する)事典を作成する手法を提案する.抽出は手掛かり語などを利用したテンプレート型ではなく,前後の形態素や文に含まれる単語などといった情報を素性として使用し,SVM(Support Vector Machine)を用いて抽出を行った.実験の結果,平均で適合率86.2%,再現率77.5%という結果を得た.現在の情報抽出は特定の分野に依存する手法が多いが,Webを対象とした場合,必ずしも利用したい記事のみを選択できるとは限らない.そこで本稿では抽出対象としていない分野の記事に対しても抽出実験を行い評価した.その結果,本来の抽出対象の記事と酷似した記述があった場合には,局所的な情報のみを利用した手法では無駄な抽出を避けることが難しく,記事全体の情報を利用した手法を考案する必要があるという知見を得た. |
(英) |
This paper proposes the method of information extraction of noun phrase and sentence to create the dictionary concerning computer virus by using SVM (Support Vector Machine). We extract the information of virus by using features of surrounding morphemes and words in the sentence, not template matching. As a result of the experiment, our method attained 86.2% precision and 77.5% recall on the average. Most of extraction methods have depended on a certain domain. However, web sites have lots of category and articles. So it isn't necessarily articles as we wish. And so this paper estimates extraction effect for other articles we didn't use. As a result, we got the findings that our simple method using local informations is difficult to avoid useless extractions. And we must invent applications which use informations of the whole article. |
キーワード |
(和) |
情報抽出 / Support Vector Machine / / / / / / |
(英) |
Information Extraction / Support Vector Machine / / / / / / |
文献情報 |
信学技報, vol. 105, no. 594, NLC2005-111, pp. 31-36, 2006年2月. |
資料番号 |
NLC2005-111 |
発行日 |
2006-01-26 (NLC) |
ISSN |
Print edition: ISSN 0913-5685 |
PDFダウンロード |
|