講演名 | 2013-03-07 Twitterにおける極大部分文字列の反復度および時系列相関を用いた類似単語判定(ソフトコンピューティング,一般) 久野 雄一郎, 澤勢 一史, 延原 肇, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | Twitterは近年注目されているマイクロブログの1つであり,検索エンジンによる情報検索では得られないような,即時性や多様性のある情報が得られる.その一方で,固有名詞の類似単語である俗語や略語等が多数登場するため,情報検索において検索エンジンよりも適切なキーワード選択が難しい.そこでTwitter検索支援を目的とした類似単語を考慮したキーワード推薦のために,極大部分文字列による固有名詞の抽出と時系列データの相関および単語の共起確率に基づき固有名詞の類似度判定を行い,類似単語辞書を構成する.また,固有名詞抽出において,反復度を用いた極大部分文字列からノイズとなる部分文字列の除去を行う.2011年末,2012年末のテレビ番組である紅白歌合戦のハッシュタグが付与されたデータに提案手法を用い,形態素解析を用いる手法よりも効果的に類似度判定ができることを示す. |
抄録(英) | In order to merge various onomastic expressions for valuable tweet topic retrieval/clustering, a construe- tion method of twitter dictionaries based on lexical extraction and their time-correlation is proposed. In this paper, we propose Maximal substrings to extract efficient lexical set and adaptation to remove superfluous substrings. Moreover, similarities between keywords are calculated by the time-correlation of each word and co-occurrence probability. Through experiments with 101,714/354,706 tweets with the hashtags related to "NHK Kohaku-Uta- gassen "in 2011/2012, the effectiveness of the proposed method compared with the method used morphological analysis is shown. |
キーワード(和) | マイクロブログ / 検索支援 / 時系列相関 / 極大部分文字列 / 反復度 |
キーワード(英) | Microblog / Retrieval support / Time-correlation / Maximal substring / Adaptation |
資料番号 | SIS2012-49 |
発行日 |
研究会情報 | |
研究会 | SIS |
---|---|
開催期間 | 2013/2/28(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Smart Info-Media Systems (SIS) |
---|---|
本文の言語 | JPN |
タイトル(和) | Twitterにおける極大部分文字列の反復度および時系列相関を用いた類似単語判定(ソフトコンピューティング,一般) |
サブタイトル(和) | |
タイトル(英) | Extraction of Similar Words Based on Adaptation and Time-correlation of Maximal Substrings from Tweets of The Same Topic |
サブタイトル(和) | |
キーワード(1)(和/英) | マイクロブログ / Microblog |
キーワード(2)(和/英) | 検索支援 / Retrieval support |
キーワード(3)(和/英) | 時系列相関 / Time-correlation |
キーワード(4)(和/英) | 極大部分文字列 / Maximal substring |
キーワード(5)(和/英) | 反復度 / Adaptation |
第 1 著者 氏名(和/英) | 久野 雄一郎 / Yuichiro HISANO |
第 1 著者 所属(和/英) | 筑波大学 University of Tsukuba |
第 2 著者 氏名(和/英) | 澤勢 一史 / Kazuhito SAWASE |
第 2 著者 所属(和/英) | 筑波大学 University of Tsukuba |
第 3 著者 氏名(和/英) | 延原 肇 / Hajime NOBUHARA |
第 3 著者 所属(和/英) | 筑波大学 University of Tsukuba |
発表年月日 | 2013-03-07 |
資料番号 | SIS2012-49 |
巻番号(vol) | vol.112 |
号番号(no) | 465 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |