GANとPredNetを用いた映像フレーム予測精度向上に関する検討

今井 菜緒子; 関口 俊一; 亀山 渉

講演名	2023-03-17 GANとPredNetを用いた映像フレーム予測精度向上に関する検討今井菜緒子(早大), 関口俊一(早大), 亀山渉(早大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	筆者らは映像符号化における動き補償予測に，脳の予測符号化理論を証明するために提案されたPredNetの適用可能性を検討している．PredNetには多様な動きに対する追従性能と生成される予測フレームのボケの問題があるが，本稿では，PredNetとGenerative Adversarial Network（GAN）を組み合わせたGAN-PredNetにより，ボケに対する予測性能の改善手法を提案する．提案手法では，GANのGeneratorをPredNetで構成し，Discriminatorに偽データとしてGeneratorの生成した予測フレームを，実データとして実際に予測されるべきフレームを入力する．また，GANの学習の不安定さを解決するため，損失関数にWasserstein GAN with gradient penalty（WGAN-gp）lossを利用する．更に，Generatorの損失関数には，実フレームと予測フレームのMean Square Error（MSE）を計算した結果を加算し，PredNetの予測性能を保ちながらGANの学習を進める．KITTIデータセットの車載映像を使用した実験の結果，提案方式により予測フレームのボケが改善されるのを確認した．
抄録(英)	We have been studying to apply PredNet, which is proposed to prove the predictive coding theory of human brain, to motion compensation prediction in video coding. In this paper, we propose a method to improve the prediction performance and blurring against various motions by using GAN-PredNet, a combination of PredNet and Generative Adversarial Network (GAN). In the proposed method, the generator of GAN is composed of PredNet. Then, the predicted frames generated by the generator are input to the discriminator as false data, and the frames that to be predicted are input to it as true data. To solve the instability of GAN training, Wasserstein GAN with gradient penalty (WGAN-gp) loss is used as the loss function. In addition, the loss calculated by mean square error (MSE) between the true and predicted frames is added to the loss function of the generator in order to perform GAN training while maintaining the prediction performance of PredNet. The experimental results using in-vehicle video from KITTI dataset show that the blurriness of predicted frames is improved by the proposal.
キーワード(和)	映像符号化 / 動き予測 / ディープラーニング / PredNet / GAN
キーワード(英)	Video Coding / Motion Prediction / Deep Learning / PredNet / GAN
資料番号	IMQ2022-80,IE2022-157,MVE2022-110
発行日	2023-03-08 (IMQ, IE, MVE)

研究会情報
研究会	IMQ / IE / MVE / CQ
開催期間	2023/3/15(から3日開催)
開催地（和）	沖縄県青年会館（那覇市）
開催地（英）	Okinawaken Seinenkaikan (Naha-shi)
テーマ（和）	五感に訴えるオンラインメディアとその評価，および一般（魅力工学研究会協賛）
テーマ（英）	Media of five senses, Multimedia, Media experience, Picture codinge, Image media quality, Network,quality and reliability, etc（AC）
委員長氏名（和）	魚森謙也(阪大) / 児玉和也(NII) / 清川清(奈良先端大) / 岡本淳(NTT)
委員長氏名（英）	Kenya Uomori(Osaka Univ.) / Kazuya Kodama(NII) / Kiyoshi Kiyokawa(NAIST) / Jun Okamoto(NTT)
副委員長氏名（和）	前田充(キヤノン) / 坂東幸浩(NTT) / 山崎俊彦(東大) / 新井田統(KDDI総合研究所) / 平栗健史(日本工大) / 長谷川剛(東北大)
副委員長氏名（英）	Mitsuru Maeda(Canon) / Hiroyuki Bandoh(NTT) / Toshihiko Yamazaki(Univ. of Tokyo) / Sumaru Niida(KDDI Research) / Takefumi Hiraguri(Nippon Inst. of Tech.) / Gou Hasegawa(Tohoku Univ.)
幹事氏名（和）	工藤博章(名大) / 土田勝(NTT) / 海野恭平(KDDI総合研究所) / 福嶋慶繁(名工大) / 磯山直也(奈良先端大) / 原豪紀(大日本印刷) / 福嶋政期(東大) / 後藤充裕(NTT) / 恵木則次(NTT) / 山本寛(立命館大)
幹事氏名（英）	Hiroaki Kudo(Nagoya Univ.) / Masaru Tsuchida(NTT) / Kyohei Unno(KDDI Research) / Norishige Fukushima(Nagoya Inst. of Tech.) / Naoya Isoyama(NAIST) / Takenori Hara(DNP) / Shogo Fukushima(Univ. of ToKyo) / Mitsuhiro Goto(NTT) / Noritsugu Egi(NTT) / Hiroshi Yamamoto(Ritsumeikan Univ.)
幹事補佐氏名（和）	塚田正人(筑波大) / 山添崇(成蹊大) / 岩村俊輔(NHK) / 工藤忍(NTT) / 宍戸英彦(筑波大) / 中澤篤志(京大) / 東條直也(KDDI総合研究所) / 萩山直紀(NTT) / 川嶋喜美子(NTT) / 中村遼(福岡大) / 中平俊朗(NTT) / 塚常健太(岡山理科大)
幹事補佐氏名（英）	Masato Tsukada(Univ. of Tsukuba) / Takashi Yamazoe(Seikei Univ.) / Shunsuke Iwamura(NHK) / Shinobu Kudo(NTT) / Hidehiko Shishido(Univ. of Tsukuba) / Atsushi Nakazawa(Kyoto Univ.) / Naoya Tojo(KDDI Research) / Naoki Hagiyama(NTT) / Kimiko Kawashima(NTT) / Ryo Nakamura(Fukuoka Univ.) / Toshiro Nakahira(NTT) / Kenta Tsukatsune(Okayama Univ. of Science)

講演論文情報詳細
申込み研究会	Technical Committee on Image Media Quality / Technical Committee on Image Engineering / Technical Committee on Media Experience and Virtual Environment / Technical Committee on Communication Quality
本文の言語	JPN
タイトル（和）	GANとPredNetを用いた映像フレーム予測精度向上に関する検討
サブタイトル（和）
タイトル（英）	A Consideration on Improving Frame Prediction Accuracy Using GAN and PredNet
サブタイトル（和）
キーワード(1)（和/英）	映像符号化 / Video Coding
キーワード(2)（和/英）	動き予測 / Motion Prediction
キーワード(3)（和/英）	ディープラーニング / Deep Learning
キーワード(4)（和/英）	PredNet / PredNet
キーワード(5)（和/英）	GAN / GAN
第 1 著者氏名（和/英）	今井菜緒子 / Naoko Imai
第 1 著者所属（和/英）	早稲田大学(略称：早大) Waseda University(略称：Waseda Univ)
第 2 著者氏名（和/英）	関口俊一 / Shunichi Sekiguchi
第 2 著者所属（和/英）	早稲田大学(略称：早大) Waseda University(略称：Waseda Univ)
第 3 著者氏名（和/英）	亀山渉 / Wataru Kameyama
第 3 著者所属（和/英）	早稲田大学(略称：早大) Waseda University(略称：Waseda Univ)
発表年月日	2023-03-17
資料番号	IMQ2022-80,IE2022-157,MVE2022-110
巻番号（vol）	vol.122
号番号（no）	IMQ-437,IE-439,MVE-440
ページ範囲	pp.309-314(IMQ), pp.309-314(IE), pp.309-314(MVE),
ページ数	6
発行日	2023-03-08 (IMQ, IE, MVE)