講演抄録/キーワード |
講演名 |
2013-03-07 11:15
Twitterにおける極大部分文字列の反復度および時系列相関を用いた類似単語判定 ○久野雄一郎・澤勢一史・延原 肇(筑波大) SIS2012-49 |
抄録 |
(和) |
Twitterは近年注目されているマイクロブログの1つであり,検索エンジンによる情報検索では得られないような,即時性や多様性のある情報が得られる.その一方で,固有名詞の類似単語である俗語や略語等が多数登場するため,情報検索において検索エンジンよりも適切なキーワード選択が難しい.そこでTwitter検索支援を目的とした類似単語を考慮したキーワード推薦のために,極大部分文字列による固有名詞の抽出と時系列データの相関および単語の共起確率に基づき固有名詞の類似度判定を行い,類似単語辞書を構成する.また,固有名詞抽出において,反復度を用いた極大部分文字列からノイズとなる部分文字列の除去を行う.2011年末,2012年末のテレビ番組である紅白歌合戦のハッシュタグが付与されたデータに提案手法を用い,形態素解析を用いる手法よりも効果的に類似度判定ができることを示す. |
(英) |
In order to merge various onomastic expressions for valuable tweet topic retrieval/clustering, a construction method of twitter dictionaries based on lexical extraction and their time-correlation is proposed. In this paper, we propose Maximal substrings to extract efficient lexical set and adaptation to remove superfluous substrings. Moreover, similarities between keywords are calculated by the time-correlation of each word and co-occurrence probability. Through experiments with 101,714/354,706 tweets with the hashtags related to “NHK Kohaku-Utagassen” in 2011/2012, the effectiveness of the proposed method compared with the method used morphological analysis is shown. |
キーワード |
(和) |
マイクロブログ / 検索支援 / 時系列相関 / 極大部分文字列 / 反復度 / / / |
(英) |
Microblog / Retrieval support / Time-correlation / Maximal substring / Adaptation / / / |
文献情報 |
信学技報, vol. 112, no. 465, SIS2012-49, pp. 21-26, 2013年3月. |
資料番号 |
SIS2012-49 |
発行日 |
2013-02-28 (SIS) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SIS2012-49 |