講演名 2016-06-04
図書に言及するツイートの抽出
矢田 竣太郎(東大), 影浦 峡(東大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本発表論文では、日本語図書の書名と同一の文字列を含むツイートから、実際に図書に言及するツイートを抽出する分類器を開発する取り組みについて報告する。筆者らはこれまでに、Bag of Words をベースとした複数の素性の組み合わせの下、対数線形モデルを用いた分類器でF値約0.7の性能を達成しているが、さらなる性能の向上を目指している。本研究では、読書に関するキーワードを用いた簡易な方法で増補した学習データ、及びLSAを用いた次元圧縮が分類性能に与える影響の分析を行った。また次元圧縮に関連して、活性化関数にシグモイド関数を用いた多層パーセプトロンと試験的に性能を比較した。
抄録(英) We report performances of a classifier that identify Tweets that Mention Books (TMB) from tweets that contain the same strings as book titles in Japanese. The classifier we developped performed reasonably good in terms of F1-measure (about 0.7) with the combination of Maximum Entropy Modelling and a Bag-of-Words based feature set. In this paper, in order to improve our classifier, we analyse effects to classification performance, of (1) training data augmentation using a simple search based method with book/reading related keywords, and of (2) feature dimension reduction via Latent Semantic Analysis (LSA). In addition, we compare our classifier to Maltilayer Perceptron activated by Sigmoid function in terms of feature dimension reduction on a trial basis.
キーワード(和) Twitter / 固有表現抽出 / 分類 / 対数線形モデル / 多層パーセプトロン
キーワード(英) Twitter / Named Entity Recognition / Classification / Logistic Regression / Maximum Entropy Modelling / Multilayer Perceptron
資料番号 TL2016-7,NLC2016-7
発行日 2016-05-28 (TL, NLC)

研究会情報
研究会 NLC / TL
開催期間 2016/6/4(から2日開催)
開催地(和) 小樽商科大学
開催地(英) Otaru University of Commerce
テーマ(和) 言語処理・言語分析の社会応用,および一般
テーマ(英) Application of natural language proessing and linguistic analysis, and general topic of NLP
委員長氏名(和) 金山 博(日本IBM) / 鈴木 雅実(KDDI研)
委員長氏名(英) Hiroshi Kanayama(IBM) / Masami Suzuki(KDDI R&D Labs.)
副委員長氏名(和) 市瀬 眞(NTTドコモ) / 榊 剛史(東大/ホットリンク) / 久保村 千明(山野美容芸術短大)
副委員長氏名(英) Makoto Ichise(NTT DoCoMo) / Takeshi Sakaki(Univ. of Tokyo/Hottolink) / Chiaki Kubomura(Yamano College of Aesthetics)
幹事氏名(和) 渡辺 靖彦(龍谷大) / 嶋田 和孝(九工大) / 富田 英司(愛媛大) / 森下 美和(神戸学院大)
幹事氏名(英) Yasuhiko Watanabe(Ryukoku Univ.) / Kazutaka Shimada(Kyushu Inst. of Tech.) / Eiji Tomida(Ehime Univ.) / Miwa Morishita(Kobe Gakuin Univ.)
幹事補佐氏名(和) 東中 竜一郎(NTT) / 吉田 光男(豊橋技科大) / 坪田 康(京大) / 神長 伸幸(早大)
幹事補佐氏名(英) Ryuichiro Higashinaka(NTT) / Mitsuo Yoshida(Toyohashi Univ. of Tech.) / Yasushi Tsubota(Kyoto Univ.) / Nobuyuki Jincho(Waseda Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Natural Language Understanding and Models of Communication / Technical Committee on Thought and Language
本文の言語 JPN
タイトル(和) 図書に言及するツイートの抽出
サブタイトル(和) 素性・データ量・手法の効果に関する考察
タイトル(英) Identification of Tweets that Mention Books
サブタイトル(和) Effects of Features, Data Size, and ML Algorithms
キーワード(1)(和/英) Twitter / Twitter
キーワード(2)(和/英) 固有表現抽出 / Named Entity Recognition
キーワード(3)(和/英) 分類 / Classification
キーワード(4)(和/英) 対数線形モデル / Logistic Regression
キーワード(5)(和/英) 多層パーセプトロン / Maximum Entropy Modelling
キーワード(6)(和/英) / Multilayer Perceptron
第 1 著者 氏名(和/英) 矢田 竣太郎 / Shuntaro Yada
第 1 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:UTokyo)
第 2 著者 氏名(和/英) 影浦 峡 / Kyo Kageura
第 2 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:UTokyo)
発表年月日 2016-06-04
資料番号 TL2016-7,NLC2016-7
巻番号(vol) vol.116
号番号(no) TL-77,NLC-78
ページ範囲 pp.29-34(TL), pp.29-34(NLC),
ページ数 6
発行日 2016-05-28 (TL, NLC)