講演名 2023-05-18
低遅延なジェスチャ生成のための逐次的な生成器の提案
光林 優菜(青学大), 金子 直史(青学大), 鷲見 和彦(青学大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 現在,対話型ロボットなどの会話エージェントの発展が著しく,それらの対話応答だけでなく振る舞いにも注目されているが,それは発話に伴うジェスチャが,対話型ロボットや会話エージェントのコミュニケーション能力向上にとって重要な要素だからである.深層学習を使用した自動的にジェスチャを生成する手法があるが,生成の質を重視して発話の時系列的な過去から未来までを一度に入力するため,生成における遅延は意識されてこなかった.一方で,昨今はメタバース上でオンライン会議などが開かれ,そこでアバターが自然なジェスチャを取れるようになれば会話の理解度が向上するため,低遅延を意識して研究する必要がある.本研究では,それを解決するために,ジェスチャを音声の入力と同時に生成するための手法を提案する.そのために,発話音声の特徴を RNN-Transducer 型のフレームワークで学習し,音声入力から逐次,ジェスチャー動作のシーケンスを生成する.その結果,最初のジェスチャが生成されるまでの時間を従来手法から約1秒ほど短縮することができたが,ジェスチャの質は改善の余地が残る結果となった.
抄録(英) Currently, conversational agents such as interactive robots are developing remarkably, and not only their dialogue responses but also their behaviour is attracting attention, because gestures accompanying speech are an important element for improving the communicative ability of interactive robots and conversational agents. There are methods for automatically generating gestures using deep learning, but they focus on the quality of the generation and input the chronological past and future of the utterance at once, so the delay in the generation has not been considered. On the other hand, nowadays online conferences are held in the metaverse, and if avatars are able to perform natural gestures, the comprehension of conversations will be improved. To solve this problem, we propose a method for generating gestures simultaneously with speech input. For this purpose, features of speech are learnt in an RNN-Transducer type framework, and sequences of gesture actions are generated sequentially from the speech input. As a result, the time until the first gesture is generated was reduced by approximately one second compared to the conventional method, but the quality of the gestures left room for improvement.
キーワード(和) ジェスチャ生成 / RNN-Transducer 型フレームワーク / 深層学習 / 会話エージェント
キーワード(英) Gesture Generation / RNN-Transducer model / Deep learning / Conversational Agents
資料番号 PRMU2023-4
発行日 2023-05-11 (PRMU)

研究会情報
研究会 PRMU / IPSJ-CVIM
開催期間 2023/5/18(から2日開催)
開催地(和) 名古屋工業大学
開催地(英)
テーマ(和) NeRF等のニューラルシーン表現
テーマ(英)
委員長氏名(和) 内田 誠一(九大)
委員長氏名(英) Seiichi Uchida(Kyushu Univ.)
副委員長氏名(和) 舩冨 卓哉(奈良先端大) / 安倍 満(デンソーアイティーラボラトリ)
副委員長氏名(英) Takuya Funatomi(NAIST) / Mitsuru Anpai(Denso IT Lab.)
幹事氏名(和) 山口 光太(サイバーエージェント) / 松井 勇佑(東大)
幹事氏名(英) Kouta Yamaguchi(CyberAgent) / Yusuke Matsui(Univ. of Tokyo)
幹事補佐氏名(和) 井上 中順(東工大) / 川西 康友(理研)
幹事補佐氏名(英) Nakamasa Inoue(Tokyo Inst. of Tech.) / Yasutomo Kawanishi(Riken)

講演論文情報詳細
申込み研究会 Technical Committee on Pattern Recognition and Media Understanding / Special Interest Group on Computer Vision and Image Media
本文の言語 JPN
タイトル(和) 低遅延なジェスチャ生成のための逐次的な生成器の提案
サブタイトル(和)
タイトル(英) Streamable gesture generators for low-latency gesture generation
サブタイトル(和)
キーワード(1)(和/英) ジェスチャ生成 / Gesture Generation
キーワード(2)(和/英) RNN-Transducer 型フレームワーク / RNN-Transducer model
キーワード(3)(和/英) 深層学習 / Deep learning
キーワード(4)(和/英) 会話エージェント / Conversational Agents
第 1 著者 氏名(和/英) 光林 優菜 / Yuna Mitsubayashi
第 1 著者 所属(和/英) 青山学院大学(略称:青学大)
Aoyama Gakuin University(略称:Aoyama Gakuin Univ.)
第 2 著者 氏名(和/英) 金子 直史 / Naoshi Kaneko
第 2 著者 所属(和/英) 青山学院大学(略称:青学大)
Aoyama Gakuin University(略称:Aoyama Gakuin Univ.)
第 3 著者 氏名(和/英) 鷲見 和彦 / Kazuhiko Sumi
第 3 著者 所属(和/英) 青山学院大学(略称:青学大)
Aoyama Gakuin University(略称:Aoyama Gakuin Univ.)
発表年月日 2023-05-18
資料番号 PRMU2023-4
巻番号(vol) vol.123
号番号(no) PRMU-30
ページ範囲 pp.16-21(PRMU),
ページ数 6
発行日 2023-05-11 (PRMU)