講演名 2020-12-02
音声特徴とテキスト特徴の協調利用によるマルチモーダル感情認識
永瀬 亮太郎(立命館大), 福森 隆寛(立命館大), 山下 洋一(立命館大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 感情音声認識では,ニューラルネットワークを応用した研究が盛んに取り組まれており,音声合成や音声認識と同様に年々認識率の向上がみられる.また,音声だけでなく画像情報や言語情報などを統合的に用いたマルチモーダルな感情認識も盛んに研究されている.本研究では,発話単位の音声とテキストを入力として,音響特徴量と埋め込みベクトルによる言語特徴量を協調的に利用した感情音声認識を行う.事前に感情音声認識と感情テキスト認識を学習し,各認識器から得られる特徴量を融合する early-fusion と認識結果を融合する late-fusion を適用することで,単体の感情認識器よりも高い認識率を目指す.
抄録(英) In recent years, the advanced techique of deep learning has improved the performance of Speech Emotional Recognition as well as speech synthesis or speech recognition. Moreover, multi-mordal emotion recognition which integrates linguistic or facial image features with acoustic features has outperformed conventional methods as well. In this paper, we propose a method of SER by using acoustic and linguistic features at the utterance level. Firstly, speech and text emotion recognition are trained with Japanese emotional speech corpus. Then, we aim to improve accuracy by using early-fusion which fuses linguistic and acoustic features and late-fusion which fuses predicted values by each model.
キーワード(和) 感情音声認識 / 感情テキスト認識 / マルチモーダル / early-fusion / late-fusion
キーワード(英) Speech Emotion Recognition / Text Emotion Recognition / Multi-Modal / early-fusion / late-fusion
資料番号 NLC2020-14,SP2020-17
発行日 2020-11-25 (NLC, SP)

研究会情報
研究会 NLC / IPSJ-NL / SP / IPSJ-SLP
開催期間 2020/12/2(から2日開催)
開催地(和) オンライン開催
開催地(英) Online
テーマ(和) 音声言語および自然言語処理シンポジウム
テーマ(英)
委員長氏名(和) 嶋田 和孝(九工大) / 関根 聡(理研) / 河井 恒(NICT) / 北岡 教英(豊技大)
委員長氏名(英) Kazutaka Shimada(Kyushu Inst. of Tech.) / 関根 聡(理研) / Hisashi Kawai(NICT) / 北岡 教英(豊技大)
副委員長氏名(和) 吉田 光男(豊橋技科大) / 小早川 健(NHK)
副委員長氏名(英) Mitsuo Yoshida(Toyohashi Univ. of Tech.) / Takeshi Kobayakawa(NHK)
幹事氏名(和) 坂地 泰紀(東大) / 石野 亜耶(広島経済大) / 内海 慶(デンソーITラボ) / 木村 泰知(小樽商科大) / 古宮 嘉那子(茨城大) / 笹野 遼平(名大) / 進藤 裕之(奈良先端大) / 横野 光(富士通) / 高道 慎之介(東大) / 小川 哲司(早大) / 秋田 祐哉(京大) / 太刀岡 勇気(デンソーITラボ) / 高島 遼一(神戸大) / 高道 慎之介(東大)
幹事氏名(英) Hiroki Sakaji(Univ. of Tokyo) / Aya Ishino(Hiroshima Univ. of Economics) / 内海 慶(デンソーITラボ) / 木村 泰知(小樽商科大) / 古宮 嘉那子(茨城大) / 笹野 遼平(名大) / 進藤 裕之(奈良先端大) / 横野 光(富士通) / Shinnosuke Takamichi(Univ. of Tokyo) / Tetsuji Ogawa(Waseda Univ.) / 秋田 祐哉(京大) / 太刀岡 勇気(デンソーITラボ) / 高島 遼一(神戸大) / 高道 慎之介(東大)
幹事補佐氏名(和) 高橋 寛治(Sansan) / 光田 航(NTT) / / 井島 勇祐(NTT)
幹事補佐氏名(英) Kanjin Takahashi(Sansan) / Ko Mitsuda(NTT) / / Yusuke Ijima(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Natural Language Understanding and Models of Communication / Special Interest Group on Natural Language / Technical Committee on Speech / Special Interest Group on Spoken Language Processing
本文の言語 JPN
タイトル(和) 音声特徴とテキスト特徴の協調利用によるマルチモーダル感情認識
サブタイトル(和)
タイトル(英) Multi-Modal Emotion Recognition by Integrating of Acoustic and Linguistic Features
サブタイトル(和)
キーワード(1)(和/英) 感情音声認識 / Speech Emotion Recognition
キーワード(2)(和/英) 感情テキスト認識 / Text Emotion Recognition
キーワード(3)(和/英) マルチモーダル / Multi-Modal
キーワード(4)(和/英) early-fusion / early-fusion
キーワード(5)(和/英) late-fusion / late-fusion
第 1 著者 氏名(和/英) 永瀬 亮太郎 / Ryotaro Nagase
第 1 著者 所属(和/英) 立命館大学(略称:立命館大)
Ritsumeikan University(略称:Ritsumeikan Univ.)
第 2 著者 氏名(和/英) 福森 隆寛 / Takahiro Fukumori
第 2 著者 所属(和/英) 立命館大学(略称:立命館大)
Ritsumeikan University(略称:Ritsumeikan Univ.)
第 3 著者 氏名(和/英) 山下 洋一 / Yoichi Yamashita
第 3 著者 所属(和/英) 立命館大学(略称:立命館大)
Ritsumeikan University(略称:Ritsumeikan Univ.)
発表年月日 2020-12-02
資料番号 NLC2020-14,SP2020-17
巻番号(vol) vol.120
号番号(no) NLC-270,SP-271
ページ範囲 pp.7-12(NLC), pp.7-12(SP),
ページ数 6
発行日 2020-11-25 (NLC, SP)