講演名 2023-03-01
テレビ番組と興味に基づいた発話文生成モデルの基礎検討
萩尾 勇太(NHK), 奥田 誠(NHK), 上村 真利奈(NHK), 金子 豊(NHK), 大亦 寿之(NHK),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では,人と一緒にテレビを視聴するコミュニケーションロボットへの実装を目的とした,テレビ番組と指定した興味ワードに基づく発話文生成モデルに関する検討結果について述べる.テレビ視聴中のロボット発話文を自動生成するため,番組の字幕文に対してロボット発話文約12,000 発話を人手で付与したテレビ番組関連発話データセットを作成した.このデータセットを用い,雑談対話用の大規模汎用言語モデルをファインチューニングすることで発話文生成モデルを新たに構築した.構築した発話文生成モデルは,番組字幕文と発話の話題とする興味ワードを入力することで,字幕文の文脈を考慮しつつ,指定した興味ワードを話題とした発話文を生成する.自動生成された文を評価した結果,約88% が日本語として自然な文であり,約75% が番組の文脈上自然な文となっていることを確認した.また,約83% の発話文は指定した興味ワードが反映された文であり,構築した発話文生成モデルは入力された番組字幕文の文脈上自然で,なおかつ指定した興味ワードへの興味を示唆する文章を生成できることがわかった.
抄録(英) In this paper, we discuss the results of a study of an utterance generation model based on TV programs and specifiedinterest words, with the aim of implementing it in a companion robot that watches TV with humans. In order to automaticallygenerate the robot’s utterances while watching TV, we created a TV program-related utterance dataset by adding about 12,000robot utterances to the program’s captions. Using this dataset, we built an utterance generation model by fine-tuning a large-scalegeneral-purpose language model for chat dialog. Our model can generate utterances with the given specified interest wordas the topic, taking into account the context of the TV program using its captions and the interest word. As a result of evaluationof the sentences generated by our model, we confirmed that about 88% of the sentences are natural Japanese sentences, andabout 75% of the sentences are natural sentences in the context of the program. In addition, about 83% of the utterancesreflected the specified interest words. It was found that our model can generate utterances that are natural in the context of theprogram’s captions and that suggest interest in the specified interest words.
キーワード(和) コミュニケーションロボット / テレビ視聴 / 発話文生成 / 字幕データ / 興味ワード
キーワード(英) Companion robot / TV-viewing / Utterance generation / Caption data / Interest words
資料番号 BioX2022-64,CNR2022-30
発行日 2023-02-22 (BioX, CNR)

研究会情報
研究会 CNR / BioX
開催期間 2023/3/1(から2日開催)
開催地(和) 別府国際コンベンションセンター 小会議室31
開催地(英)
テーマ(和) アイデンティティとコミュニケーション,及び一般
テーマ(英)
委員長氏名(和) 神原 誠之(奈良先端大) / 今岡 仁(NEC)
委員長氏名(英) Masayuki Kanbara(NAIST) / Hitoshi Imaoka(NEC)
副委員長氏名(和) 西川 由理(産総研) / 奥井 宣広(KDDI総合研究所) / 高田 直幸(セコム)
副委員長氏名(英) Yuri Nishikawa(AIST) / Norihiko Okui(KDDI Research) / Naoyuki Takada(SECOM)
幹事氏名(和) 小林 優佳(東芝) / 村川 賀彦(名古屋産業大) / 早坂 昭裕(NEC) / 佐野 恵美子(クボタ)
幹事氏名(英) Yuka Kobayashi(Toshiba) / Yoshihiko Murakawa(Nagoya Sangyo Univ.) / Akihiro Hayasaka(NEC) / Emiko Sano(Kubota)
幹事補佐氏名(和) 星 祐太(NHK) / 大和 淳司(工学院大) / 鈴木 裕之(群馬大) / 白川 真一(横浜国大)
幹事補佐氏名(英) Yuta Hoshi(NHK) / Junji Yamato(Kogakuin Univ.) / Hiroyuki Suzuki(Gunma Univ) / Shinichi Shirakawa(Yokohama National Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Cloud Network Robotics / Technical Committee on Biometrics
本文の言語 JPN
タイトル(和) テレビ番組と興味に基づいた発話文生成モデルの基礎検討
サブタイトル(和)
タイトル(英) A Study of Utterance Generation Models based on TV Programs and Interests
サブタイトル(和)
キーワード(1)(和/英) コミュニケーションロボット / Companion robot
キーワード(2)(和/英) テレビ視聴 / TV-viewing
キーワード(3)(和/英) 発話文生成 / Utterance generation
キーワード(4)(和/英) 字幕データ / Caption data
キーワード(5)(和/英) 興味ワード / Interest words
第 1 著者 氏名(和/英) 萩尾 勇太 / Yuta Hagio
第 1 著者 所属(和/英) 日本放送協会(略称:NHK)
Japan Broadcasting Corporation(略称:NHK)
第 2 著者 氏名(和/英) 奥田 誠 / Makoto Okuda
第 2 著者 所属(和/英) 日本放送協会(略称:NHK)
Japan Broadcasting Corporation(略称:NHK)
第 3 著者 氏名(和/英) 上村 真利奈 / Marina Kamimura
第 3 著者 所属(和/英) 日本放送協会(略称:NHK)
Japan Broadcasting Corporation(略称:NHK)
第 4 著者 氏名(和/英) 金子 豊 / Yutaka Kaneko
第 4 著者 所属(和/英) 日本放送協会(略称:NHK)
Japan Broadcasting Corporation(略称:NHK)
第 5 著者 氏名(和/英) 大亦 寿之 / Hisayuki Ohmata
第 5 著者 所属(和/英) 日本放送協会(略称:NHK)
Japan Broadcasting Corporation(略称:NHK)
発表年月日 2023-03-01
資料番号 BioX2022-64,CNR2022-30
巻番号(vol) vol.122
号番号(no) BioX-394,CNR-395
ページ範囲 pp.13-18(BioX), pp.13-18(CNR),
ページ数 6
発行日 2023-02-22 (BioX, CNR)