講演名 2005/12/15
音声/非音声判別法を用いた時間圧縮音声再生法(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
竹内 伸一, 杉山 雅英,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 近年HDDレコーダやDVDレコーダ等の映像録画機器の普及に伴い, 大量の映像・音声に関するマルチメディアの蓄積が容易になっている.データの蓄積は専用機械によって自動的に行われる一方データの視聴は人間が行わざるを得ないため, 大量のデータを視聴する場合には視聴速度の向上が求められる.本報告では元となるマルチメディアデータの音声データに着目し, データ中の音声区間の再生を主とした時間圧縮音声再生法について提案する.提案手法は我々がこれまで提案してきた特徴量Block Cepstrum Fluxを用いた音声/非音声判別手法を用いて対象となる音声区間を検出した後に定常部削減を行う, 音声/非音声のパターン認識に基づく時間圧縮音声再生法である.元となるデータから非音声区間を取り除くことにより音声区間を残すことになるため, 一律に圧縮した場合よりも話速が遅くなり, より聞き取り易い圧縮音声を生成することが可能となる.圧縮音声を視聴した主観評価実験の結果はデータを一律に圧縮するPICOLA法を単独で用いた場合よりも良好な結果を得ることができ, 提案手法とPICOLA法を併用することも可能であることを示した.
抄録(英) Recently, the effectiveness of audio-visual machine improves and they becomes to be able to storage many multimedia data. Although to storing data is done by machine automatically, to watch data is done by human and it is bottle-neck for improvement of multimedia data processing. This report attentions to sound part of multimedia data and proposes time-compressed speech playing method. The proposed method uses feature parameter Block Cepstrum Flux we have proposed and it can classify voice and non-voice section in sound data. The Proposed method picks out voice section and deletes continuous part. By to remove non-voice section from sound data, it can create compressed data with more slowly voice than the compressed data with constant compress rate. The experimental result for compressed sound listening test shows that the proposed method brings more better impression than constant compress rate.
キーワード(和) 音響特徴量 / 区間検出 / 早聞き / 非線型時間圧縮
キーワード(英) feature parameter / section detection / fast listening / non-linear time compress
資料番号 NLC2005-90,SP2005-123
発行日

研究会情報
研究会 NLC
開催期間 2005/12/15(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 音声/非音声判別法を用いた時間圧縮音声再生法(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
サブタイトル(和)
タイトル(英) Time-compressed speech playing method using voice/non-voice classification
サブタイトル(和)
キーワード(1)(和/英) 音響特徴量 / feature parameter
キーワード(2)(和/英) 区間検出 / section detection
キーワード(3)(和/英) 早聞き / fast listening
キーワード(4)(和/英) 非線型時間圧縮 / non-linear time compress
第 1 著者 氏名(和/英) 竹内 伸一 / Shinichi TAKEUCHI
第 1 著者 所属(和/英) 会津大学大学院コンピュータ理工学研究科
Graduate School of Computer Science and Engineering, The Univ. of Aizu
第 2 著者 氏名(和/英) 杉山 雅英 / Masahide SUGIYAMA
第 2 著者 所属(和/英) 会津大学大学院コンピュータ理工学研究科
Graduate School of Computer Science and Engineering, The Univ. of Aizu
発表年月日 2005/12/15
資料番号 NLC2005-90,SP2005-123
巻番号(vol) vol.105
号番号(no) 494
ページ範囲 pp.-
ページ数 6
発行日