講演名 2006-07-27
AdaBoostを利用した字幕テキストからの定型表現文章区間抽出(テキストの類似性・文処理モデル)
山田 一郎, 三浦 菊佳, 住吉 英樹, 八木 伸行, 奥村 学, 徳永 健伸,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) テレビ番組のナレーションでは、「場所紹介」や「人物紹介」など特定の事柄を表現するために同じような言い回しが多用される。このような言い回しを含む文章区間が抽出できれば、対応する番組映像区間の場所紹介や人物紹介といったメタデータを付与することができる。そこで本稿では、番組のクローズドキャプションを対象として定型表現を含む文章区間を抽出する手法を提案する。提案手法では、複数文のテキストデータから木構造を生成して、木構造間の類似性を木構造に含まれる部分木の類似度により評価する。この結果を弱学習器としたAdaBoostアルゴリズムにより学習を行い定型表現か否かの判定を行う。紀行番組のクローズドキャプションを対象として、場所を映像とともに説明する定型表現文章区間を抽出する実験を行い、提案手法の有効性を確認した。
抄録(英) In the closed captions, there are a lot of typical expressions to express specific things, for example, first introduction of a guest in a talk show or explanation of a place in travel program. Such information helps us to put metadata to the corresponding scenes. This paper proposes a method to extract a section including typical expressions. The first step generates tree structures from inputted section of sentences and evaluates the similarities between those tree structures. We use these similarities as weak learners of adaboost algorism to judge whether the section of sentences includes typical expressions or not. In the experiment of detecting sections including typical expressions which explain a place with video targeting closed captions of TV programs concerned with travel, we show the effectiveness of our method.
キーワード(和) メタデータ / 特定表現抽出 / クローズドキャプション / 木構造 / アダブースト
キーワード(英) Metadata / Typical expression extraction / Closed-caption / Tree Structure / AdaBoost Algorithm
資料番号 NLC2006-5
発行日

研究会情報
研究会 NLC
開催期間 2006/7/20(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) AdaBoostを利用した字幕テキストからの定型表現文章区間抽出(テキストの類似性・文処理モデル)
サブタイトル(和)
タイトル(英) Detection of Text Sections which contain typical forms from Closed Captions using AdaBoost Algorithm
サブタイトル(和)
キーワード(1)(和/英) メタデータ / Metadata
キーワード(2)(和/英) 特定表現抽出 / Typical expression extraction
キーワード(3)(和/英) クローズドキャプション / Closed-caption
キーワード(4)(和/英) 木構造 / Tree Structure
キーワード(5)(和/英) アダブースト / AdaBoost Algorithm
第 1 著者 氏名(和/英) 山田 一郎 / Ichiro YAMADA
第 1 著者 所属(和/英) NHK放送技術研究所
NHK Science & Technical Research Laboratories
第 2 著者 氏名(和/英) 三浦 菊佳 / Kikuka MIURA
第 2 著者 所属(和/英) NHK放送技術研究所
NHK Science & Technical Research Laboratories
第 3 著者 氏名(和/英) 住吉 英樹 / Hideki SUMIYOSHI
第 3 著者 所属(和/英) NHK放送技術研究所
NHK Science & Technical Research Laboratories
第 4 著者 氏名(和/英) 八木 伸行 / Nobuyuki YAGI
第 4 著者 所属(和/英) NHK放送技術研究所
NHK Science & Technical Research Laboratories
第 5 著者 氏名(和/英) 奥村 学 / Manabu OKUMURA
第 5 著者 所属(和/英) 東京工業大学精密工学研究所
Precision & Intelligence Laboratory, Tokyo Institute of Technology
第 6 著者 氏名(和/英) 徳永 健伸 / Takenobu TOKUNAGA
第 6 著者 所属(和/英) 東京工業大学大学院情報理工科学研究科
Department of Computer Science, Tokyo Institute of Technology
発表年月日 2006-07-27
資料番号 NLC2006-5
巻番号(vol) vol.106
号番号(no) 190
ページ範囲 pp.-
ページ数 6
発行日