講演抄録/キーワード |
講演名 |
2010-11-04 15:00
[ポスター講演]モーダル間の共起関係を考慮した階層的トピック軌跡モデルによる映像認識検索 ○中野拓帆(東大)・木村昭悟・亀岡弘和(NTT)・宮部滋樹・嵯峨山茂樹・小野順貴(東大)・柏野邦夫(NTT)・西本卓也(東大) IBISML2010-73 |
抄録 |
(和) |
本稿では,与えられた映像に適合するメタ情報を提示する映像認識(automatic video annotation) と,与えられたメタ情報に適合する映像を提示する映像検索(video retrieval) とを,統一的な枠組で取り扱う映像認識検索問題を取り上げ,そのための統計モデルである階層的トピック軌跡モデル HTTM を提案する.提案モデルは,各モダリティ及びクロスモーダルの共起関係を考慮したトピックモデルと,その時空間的ダイナミクスを表現する状態空間モデルとによって構成され,映像におけるインスタンス・シーン・コンセプトを階層的に表現する.このモデルに基づき,モデル推定・映像認識・映像検索それぞれを簡易に実現することが可能である.それと共に,音響信号や地理情報など他の要素を新規に導入する拡張も容易である.本稿では,人手によりラベル付けされた映像データセットに対してこのモデルを用いた認識実験を行い,精度向上の結果とともに報告する. |
(英) |
This paper deals with a problem of ``video annotation retrieval'' that achieves automatic video annotaion (providing relevant text labels for a given video clip) and video retrieval (providing relevant video clips for a given text label(s)) within a unified framework. We propose a new statistical model, named Hierarchical Topic Trajectory Model (HTTM), for aquiring a dynamically changing topic model that represents the relationship between video frames and associated text labels. Model parameter estimation, annotaion and retrieval can be easily executed. It is also easy to add new modals such as audio signal and geometrical information. Preliminary experiments on video annotation task with humanly annotated video dataset indicate that our proposed method can improve the annotation accuracy. |
キーワード |
(和) |
映像認識・検索 / トピックモデル / 確率的正準相関分析 / 隠れマルコフモデル / / / / |
(英) |
video annotation retrieval / topic model / canonical correlation analysis / hidden Markov model / / / / |
文献情報 |
信学技報, vol. 110, no. 265, IBISML2010-73, pp. 105-112, 2010年11月. |
資料番号 |
IBISML2010-73 |
発行日 |
2010-10-28 (IBISML) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
IBISML2010-73 |