講演名 | 2006-03-07 専門検索エンジンの半自動生成を目的とした類似度に基づくWEB学習データの精製(一般,コミュニケーションとAI及び一般) 宮川 礼子, 岩沼 宏治, 鍋島 英知, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 専門検索エンジンを構築する手法として小久保らが提案した"検索隠し味"は,高い適合率と再現率を示す優れた手法である.しかし検索隠し味を抽出するために,2000件のWebページを収集し,人手により正例と負例に分類しなければならず,非常に手間と時間を要する.この問題を解決するために我々は,人手で抽出した極少数のページと収集したページとの類似度を測定し,学習データを生成することで,半自動的に検索隠し味を構築する手法を提案する.評価実験により本手法が手動生成法に近い精度をもつことを実証する. |
抄録(英) | spice proposed by Kokubo et al. is an approach for building a domain-specific web search engine which shows high precision and recall: However, the approach requires manually classifying 2,000 Web pagas into positive and negative examples which are training data for learning a keyword spice. Since the classification is done by human, it consumes a great deal of time. For solving this problem, we propose a new refinement technique to create training data semi-automatically. Our approach requires only a few positive examples which are used for classifying Web pages by a similarity measure. The experimental results show that a keyword spice learned from semi-automatically generated training-data has comparatively high precision and recall close to the original approach. |
キーワード(和) | 訓練集合の精錬 / 専門検索エンジン / 検索隠し味 |
キーワード(英) | refinement of training examples / special purpose search engine / keyword spices |
資料番号 | AI2005-52 |
発行日 |
研究会情報 | |
研究会 | AI |
---|---|
開催期間 | 2006/2/28(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Artificial Intelligence and Knowledge-Based Processing (AI) |
---|---|
本文の言語 | JPN |
タイトル(和) | 専門検索エンジンの半自動生成を目的とした類似度に基づくWEB学習データの精製(一般,コミュニケーションとAI及び一般) |
サブタイトル(和) | |
タイトル(英) | Refining Training Data Based on Document Similarity for Semi-automatic Building Domain-Specific Web Search Engines |
サブタイトル(和) | |
キーワード(1)(和/英) | 訓練集合の精錬 / refinement of training examples |
キーワード(2)(和/英) | 専門検索エンジン / special purpose search engine |
キーワード(3)(和/英) | 検索隠し味 / keyword spices |
第 1 著者 氏名(和/英) | 宮川 礼子 / Reiko MIYAGAWA |
第 1 著者 所属(和/英) | 山梨大学工学部コンピュータメディア工学科 Department of Computer Science and Media Enfineering, Faculty of Engineering, University of Yamanashi |
第 2 著者 氏名(和/英) | 岩沼 宏治 / Koji IWANUMA |
第 2 著者 所属(和/英) | 山梨大学大学院医学工学総合研究部 Graduate School of Medical and Engineering Science Department of Research, University of Yamanashi |
第 3 著者 氏名(和/英) | 鍋島 英知 / Hidetomo HIDETOMO |
第 3 著者 所属(和/英) | 山梨大学大学院医学工学総合研究部 Graduate School of Medical and Engineering Science Department of Research, University of Yamanashi |
発表年月日 | 2006-03-07 |
資料番号 | AI2005-52 |
巻番号(vol) | vol.105 |
号番号(no) | 640 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |