講演名 2018-12-12
罹患者への定型的応答を利用したツイート罹患判定のデータ拡張
浅川 玲音(豊橋技科大), 秋葉 友良(豊橋技科大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本研究は,Twitterを用いた疾病サーベイランスのためのツイートの罹患判定に取り組む.これは伝染病流行検出システム等に応用される.罹患判定の先行研究の多くは教師あり機械学習による手法を用いていており,教師あり学習を行うためにはラベル付きコーパスが必要となる.しかし,そのためのラベル付きコーパスの準備には非常に高いコストがかかる.我々は,罹患者への定型的応答を利用して自動的に学習コーパスを獲得する方法を提案した.本論文では,この自動獲得したコーパスを用いてRNNベースの罹患判定器の学習データをデータ拡張するアプローチを提案する.この手法では,まず自動獲得した大量の自動獲得コーパスを用いて罹患判定器の各パラメータを学習しておく.次に人手でラベル付けされた少量のコーパスを用いて,前段階で学習したパラメータを初期値として学習を進める.このように学習を二段階に分けることで,互いの性質を補完し合う形で二種類のコーパスを効果的に組み合わせることができる.提案手法の評価実験として,RNNベースの罹患判定器の学習に提案するデータ拡張手法を適用し,その分類精度を拡張を行わなかったモデルと比較評価した結果,提案するデータ拡張を行ったモデルが拡張を行わなかったモデルの精度を上回ったことを確認した.
抄録(英) In this study, we try to identify patients' tweets for symptom surveillance using Twitter. This functionality is indispensable for developing a system Identifying disease epidemic. Most previous work employed a supervised machine learning methods. In general, they need a large amount of labeled corpus, which are very expensive to be created. In order to cope with this problem, we proposed a method to automatically acquire training corpus from Twitter by using a typical response to a patient. In this paper, we propose a data augmentation approach that extends a training data for RNN-based patient identifier with those automatically acquired corpus. The method consists of two steps. As the first step, initial parameters of identifier are trained by the automatically required large corpus. As the Second step, they are continuously trained by using a small amount of training corpus annotated manually. By this method, it is possible to effectively combine two kinds of corpus in a manner complementing each other. We experimented to apply the proposed data augmentation method for the training of RNN-based patient identifiers. The result showed the proposed model successfully improved the identification performance over the model without data augmentation.
キーワード(和) RNN / Twitter / DataAugmentation / Fine-tuning
キーワード(英) RNN / Twitter / DataAugmentation / Fine-tuning
資料番号 NLC2018-31
発行日 2018-12-04 (NLC)

研究会情報
研究会 NLC / IPSJ-NL / SP / IPSJ-SLP
開催期間 2018/12/10(から3日開催)
開催地(和) 早稲田大学西早稲田キャンパス
開催地(英) Waseda Univ. Nishiwaseda Campus
テーマ(和) 第5回自然言語処理シンポジウム & 第20回音声言語シンポジウム
テーマ(英) The 5th Natural Language Processing Symposium & The 20th Spoken Language Symposium
委員長氏名(和) 榊 剛史(ホットリンク) / / 山下 洋一(立命館大)
委員長氏名(英) Takeshi Sakaki(Hottolink) / / Yoichi Yamashita(Ritsumeikan Univ.)
副委員長氏名(和) 吉田 光男(豊橋技科大) / 嶋田 和孝(九工大) / / 李 晃伸(名工大)
副委員長氏名(英) Mitsuo Yoshida(Toyohashi Univ. of Tech.) / Kazutaka Shimada(Kyushu Inst. of Tech.) / / Akinobu Ri(Nagoya Inst. of Tech.)
幹事氏名(和) 渡辺 靖彦(龍谷大) / 東中 竜一郎(NTT) / / 南條 浩輝(京大) / 坂野 秀樹(名城大)
幹事氏名(英) Yasuhiko Watanabe(Ryukoku Univ.) / Ryuichiro Higashinaka(NTT) / / Hiroaki Nanjo(Kyoto Univ.) / Hideki Banno(Meijo Univ.)
幹事補佐氏名(和) 小早川 健(NHK) / 坂地 泰紀(東大) / / 郡山 知樹(東工大) / 小橋川 哲(NTT)
幹事補佐氏名(英) Takeshi Kobayakawa(NHK) / Hiroki Sakaji(Univ. of Tokyo) / / Tomoki Koriyama(Tokyo Inst. of Tech.) / Satoshi Kobashikawa(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Natural Language Understanding and Models of Communication / Special Interest Group on Natural Language / Technical Committee on Speech / Special Interest Group on Spoken Language Processing
本文の言語 JPN
タイトル(和) 罹患者への定型的応答を利用したツイート罹患判定のデータ拡張
サブタイトル(和)
タイトル(英) Data augmentation using stereotypical reply for patients' tweet identification
サブタイトル(和)
キーワード(1)(和/英) RNN / RNN
キーワード(2)(和/英) Twitter / Twitter
キーワード(3)(和/英) DataAugmentation / DataAugmentation
キーワード(4)(和/英) Fine-tuning / Fine-tuning
第 1 著者 氏名(和/英) 浅川 玲音 / Reine Asakawa
第 1 著者 所属(和/英) 豊橋技術科学大学(略称:豊橋技科大)
Toyohashi University of Technology(略称:TUT)
第 2 著者 氏名(和/英) 秋葉 友良 / Tomoyosi Akiba
第 2 著者 所属(和/英) 豊橋技術科学大学(略称:豊橋技科大)
Toyohashi University of Technology(略称:TUT)
発表年月日 2018-12-12
資料番号 NLC2018-31
巻番号(vol) vol.118
号番号(no) NLC-355
ページ範囲 pp.55-60(NLC),
ページ数 6
発行日 2018-12-04 (NLC)