講演名 2003/9/9
共通性のあるインターネット上の文書からの情報クリッピング(<特集>「アクティブマイニング」及び一般)
村上 英治, 寺野 隆雄,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 最近はフォーラムなどに代表されるようにある程度話題の共通性が保障されるような文章がインターネット上に多く存在するようになってきた。また、社会科学的な視点でこのようなインターネット上の文章を分析することでインターネットの中の社会、ひいては現実の社会のさまざまな現象を説明したり近い将来発生する可能性のある現象を予測したりする研究も行われている。2002年4月には世界最大の検索サイトであるGoogleは彼らの検索エンジンヘのAPIを公開しインターネット上のコンテンツを誰でも簡単に入手できるようになった。本論文ではある程度共通性のある文章集合を入手したあとの課題として情報量を減らしながら重要な内容だけを残す情報クリッピングが重要であると考え、そのための手法を提案する。
抄録(英) There are so many documents available in the Internet. Some of them implicitly share common contexts. The examples of contexts covers pre-determined tasks, i.e., sales reports, categories, i.e., concept hierarchies, and forums, i.e., special interest groups. By clipping, we mean (1) to define the importance measures of documents in the same context, and (2) to acquire the important statement(s) from the documents based on the measure. This paper describes a new method of information clipping suitable for the group of documents gathered from a certain context retrieved in the Internet. The basic steps of the method is (1) to get key words using KeyGraph from a given set of documents, (2) to cluster the documents by applying Dulmage Mendelsohn decomposition algorithm for bipartite graphs, which consist of the nodes of the important words and the documents and the edges to represent their inclusion relationship, and (3) to acquire the corresponding important sentences. The paper shows some experimental results to reveal the effectiveness of the proposed method using a prototype system applied to the practical internet documents.
キーワード(和) 情報クリッピング / クラスタリング / 要約
キーワード(英) Information clipping / clustering / summarization
資料番号 AI2003-60
発行日

研究会情報
研究会 AI
開催期間 2003/9/9(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Artificial Intelligence and Knowledge-Based Processing (AI)
本文の言語 ENG
タイトル(和) 共通性のあるインターネット上の文書からの情報クリッピング(<特集>「アクティブマイニング」及び一般)
サブタイトル(和)
タイトル(英) Information Clipping from Internet Documents with Similar Contexts
サブタイトル(和)
キーワード(1)(和/英) 情報クリッピング / Information clipping
キーワード(2)(和/英) クラスタリング / clustering
キーワード(3)(和/英) 要約 / summarization
第 1 著者 氏名(和/英) 村上 英治 / Eiji MURAKAMI
第 1 著者 所属(和/英) 筑波大学大学院ビジネス科学研究科
Graduate School of Business Sciences, University of Tsukuba
第 2 著者 氏名(和/英) 寺野 隆雄 / Takao TERANO
第 2 著者 所属(和/英) 筑波大学大学院ビジネス科学研究科
Graduate School of Business Sciences, University of Tsukuba
発表年月日 2003/9/9
資料番号 AI2003-60
巻番号(vol) vol.103
号番号(no) 306
ページ範囲 pp.-
ページ数 6
発行日