マルチモーダル情報に基づくインタビューにおける重要シーンの推定

石原,卓弥; 長澤,史記; 岡田,将吾; 新田,克己

お知らせ 2023年度・2024年度学生員会費割引キャンペーン実施中です
お知らせ技術研究報告と和文論文誌Ｃの同時投稿施策(掲載料1割引き)について
お知らせ電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について

電子情報通信学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
[ログイン]
技報アーカイブ

トップに戻る

前のページに戻る

[Japanese] / [English]

講演抄録／キーワード
講演名		2017-12-13 15:10 マルチモーダル情報に基づくインタビューにおける重要シーンの推定 ○石原卓弥・長澤史記（東工大）・岡田将吾（北陸先端大）・新田克己（東工大）
抄録	（和）	本論文では，マルチモーダル情報に基づいて，人とロボットのインタビュー対話における重要シーンの推定・検出を行う方法を提案する．重要シーンは，(1)他のシーンに比べて積極的に応答を行っているシーン，または(2)質問に適切に回答を行っており，インタビューのアブストラクト作成に有益であると判断されるシーンと定義される．インタビュー実験の結果，多くの場合，被験者の積極的な態度は持続性を持ち，重要シーンは継続的に観察されることが判明した．従って，我々は重要シーン推定モデルの作成に際し，マルチモーダル特徴量に加え，時系列性を反映する特徴量を追加した．重要シーン推定の実験結果より，マルチモーダル特徴量と時系列性を含む特徴量を組み合わせたモデルは68％の認識精度を持ち，ユニモーダルによる結果に比べて11％の認識精度の向上が見られることを確認した．
	（英）	In this paper, we propose a multimodal modeling framework to detect the important utterances in human-robot interview dialogue. The important utterance is defined as (1) the utterance which is spoken more actively and positively than the other utterances, or (2) the utterance which includes key contents to summarize the whole interview. Multimodal features including spoken words, prosody, gesture, and posture are effective to capture the active and positive attitude of participant on the interview.In many case, such important utterances are observed sequentially with a duration, because participants tend to continue the active attitudes to answer the questions about the topic if they are interested in a specific topic. Therefore, time-series feature is also effective to recognize the important utterance. The multimodal and time-series features are fused using a linear SVM. Experimental results show that the recognition accuracy of proposed model with multimodal and time-series features was 68 % and the accuracy is improved from best accuracy: 57 % in unimodal models by 11 %.
キーワード	（和）	マルチモーダルインタラクション / 社会的信号処理 / シーン推定 / インタビュー / / / /
	（英）	Multimodal Interaction / Social Signal Processing / Scene Estimation / Interview / / / /
文献情報		信学技報
資料番号
発行日
ISSN
PDFダウンロード

研究会情報
研究会	HCGSYMPO
開催期間	2017-12-13 - 2017-12-15
開催地（和）	金沢歌劇座（金沢）
開催地（英）	THE KANAZAWA THEATRE
テーマ（和）	HCGシンポジウム2017
テーマ（英）	Human communication, etc.
講演論文情報の詳細
申込み研究会	HCGSYMPO
会議コード	2017-12-HCGSYMPO
本文の言語	日本語
タイトル（和）	マルチモーダル情報に基づくインタビューにおける重要シーンの推定
サブタイトル（和）
タイトル（英）	Estimation of important scenes in interviews using multimodal information
サブタイトル（英）
キーワード(1)（和/英）	マルチモーダルインタラクション / Multimodal Interaction
キーワード(2)（和/英）	社会的信号処理 / Social Signal Processing
キーワード(3)（和/英）	シーン推定 / Scene Estimation
キーワード(4)（和/英）	インタビュー / Interview
キーワード(5)（和/英）	/
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	石原卓弥 / Takuya Ishihara / イシハラタクヤ
第1著者所属（和/英）	東京工業大学 (略称：東工大) Tokyo Institute of Technology (略称： TokyoTech)
第2著者氏名（和/英/ヨミ）	長澤史記 / Fuminori Nagasawa / ナガサワフミノリ
第2著者所属（和/英）	東京工業大学 (略称：東工大) Tokyo Institute of Technology (略称： TokyoTech)
第3著者氏名（和/英/ヨミ）	岡田将吾 / Shogo Okada / オカダショウゴ
第3著者所属（和/英）	北陸先端科学技術大学院大学 (略称：北陸先端大) Japan Advanced Institute of Science and Technology (略称： JAIST)
第4著者氏名（和/英/ヨミ）	新田克己 / Katsumi Nitta / ニッタカツミ
第4著者所属（和/英）	東京工業大学 (略称：東工大) Tokyo Institute of Technology (略称： TokyoTech)
第5著者氏名（和/英/ヨミ）	/ /
第5著者所属（和/英）	(略称： ) (略称： )
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2017-12-13 15:10:00
発表時間	20分
申込先研究会	HCGSYMPO
資料番号
巻番号（vol）	vol.
号番号（no）
ページ範囲
ページ数
発行日

[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]

IEICE / 電子情報通信学会