講演名 2017-09-07
菰田 文男(埼玉学園大), 中山 厚穂(首都大東京),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) テキストマイニングには出現頻度の多い語に着目しテキスト全体の捉える鳥瞰図描画型と,出現頻度は少ないが特定の文脈で重要な意味を持つ語・文を発見し深い意味を獲得するピンポイントフォーカス型がある。本稿ではテキストを前後の5文ごとにテキストブロックと加工することによって求める解が書かれている箇所をピンポイントで発見しアクセスすることを可能とするとともに,これを基本句・文として精密な意味を持つように変える作業を容易にする手法を提起する。 具体的には、まず求める解を含んでいる可能性の大きいテキストブロックから係り受け関係を持つ基本句を作成する。次に、このテキストブロックと類似性の大きいテキストブロックをクラスター分析によって発見し、基本句を進化させる。このようにして、多義性と曖昧さを含み、膨大な量から成るテキストデータから、必要な部分のみを抽出し、精緻な知識を得ることが出来る。
抄録(英) Text mining technique is classified into “birds-eye type”, in which words with much frequency of appearance are payed attention and “pinpoint focus type”, in which words with important meaning in a particular context in spite of little frequency of appearance are payed attention. In this article, authors propose the technique that users for text mining discover at pinpoint the text block every five sentences where solution is written, and express its meanings as “basic phrase”. To put it concretely, first, basic phrase with dependency relation is created from text block which is more likely to contain solutions. Next, a few of text blocks similar to this text block are discovered based on cluster analysis, and basic phrase is evolved, refering to these text blocks. In this way, only necessary parts are extracted from enormous text data including ambiguity, and deep and rich knowledge can be acquired.
キーワード(和) テキストマイニング / ピンポイントフォーカス型 / テキストブロック / 基本句 / BOP
キーワード(英) text mining / pinpoint focus type / text block / basic phrase / base of the pyramid
資料番号 NLC2017-13
発行日 2017-08-31 (NLC)

研究会 NLC
開催期間 2017/9/7(から2日開催)
開催地(和) 成蹊大学
開催地(英) Seikei University
テーマ(和) 第11回 テキストアナリティクス・シンポジウム
テーマ(英) The Eleventh Text Analytics Symposium
委員長氏名(和) 金山 博(日本IBM)
委員長氏名(英) Hiroshi Kanayama(IBM)
副委員長氏名(和) 榊 剛史(ホットリンク) / 嶋田 和孝(九工大)
副委員長氏名(英) Takeshi Sakaki(Hottolink) / Kazutaka Shimada(Kyushu Inst. of Tech.)
幹事氏名(和) 渡辺 靖彦(龍谷大) / 東中 竜一郎(NTT)
幹事氏名(英) Yasuhiko Watanabe(Ryukoku Univ.) / Ryuichiro Higashinaka(NTT)
幹事補佐氏名(和) 吉田 光男(豊橋技科大) / 小早川 健(NICT)
幹事補佐氏名(英) Mitsuo Yoshida(Toyohashi Univ. of Tech.) / Takeshi Kobayakawa(NICT)

申込み研究会 Technical Committee on Natural Language Understanding and Models of Communication
本文の言語 JPN
タイトル(和) ピンポイントフォーカス型テキストマイニング手法の研究
タイトル(英) Study on Pinpoint Focus Type of Text Mining Technique
キーワード(1)(和/英) テキストマイニング / text mining
キーワード(2)(和/英) ピンポイントフォーカス型 / pinpoint focus type
キーワード(3)(和/英) テキストブロック / text block
キーワード(4)(和/英) 基本句 / basic phrase
キーワード(5)(和/英) BOP / base of the pyramid
第 1 著者 氏名(和/英) 菰田 文男 / Fumio Komoda
第 1 著者 所属(和/英) 埼玉学園大学(略称:埼玉学園大)
Saitama Gakuen University(略称:Saigaku Univ.)
第 2 著者 氏名(和/英) 中山 厚穂 / Atsuho Nakayama
第 2 著者 所属(和/英) 首都大学東京(略称:首都大東京)
Tokyo Metropolitan University(略称:Tokyo Metro Univ.)
発表年月日 2017-09-07
資料番号 NLC2017-13
巻番号(vol) vol.117
号番号(no) NLC-207
ページ範囲 pp.1-6(NLC),
ページ数 6
発行日 2017-08-31 (NLC)