講演名 2003/8/15
波形接続型Speech-to-Speech音声合成のための可変長音声単位による単位選択手法(合成, 韻律, 生成, 一般)
正木 敦之, 柏岡 秀紀 /,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 波形接続型音声合成はその合成音の高い自然性から人気を集めているが,現時点では利用可能な場面は限られており,日常会話への適用にはいくつかの課題が残されている.我々はこれらの課題のうち,ラベリングされた大規模データベースが必要な点,パラ言語情報を考慮したターゲットの作成が困難である点に着目し,Speech-to-Speech合成のための単位選択法を提案する.提案法では,データベース中の音声および入力の音声に対して,波形から抽出できる音響特微量を用いて可変長の音声単位を切り出し,その音声単位をスペクトル情報・韻律情報により特徴付け,その特徴ベクトルの距離計算により単位選択を行う.本稿では大規模音声データベースから音声単位を切り出す技術,そして音響的特徴に基づいた単位選択について提案する.2種類の音声単位切り出し手法を比較し,両手法で切り出されたコーパスを使ったSpeech-to-Speech合成音について,割り当て音素ラベル列によるラベル正解精度,聴覚実験による書き取り正解精度・了解度・自然性を確かめた.
抄録(英) Concatenative speech synthesis is growing in popularity due to the high naturalness of its resulting voice quality, but it is still domain-specific and has not yet been tested with conversational speech. We propose a method of unit selection that will overcome some of the problems that have prevented this development. In particular, we address two problems; one is the need for an extremely large database of labelled speech, the other is the incorporation of paralinguistic information in the speech synthesis. In our proposed 'speech-to-speech' method, we use acoustic criteria to segment the database into variable-sized units, and then use an acoustic waveform as a target for the unit-selection search. In a final stage, prosodic criteria are applied to select the optimal sequence of units for the output waveform generation. In this paper, we describe the techniques for segmenting the large speech database and the acoustic criteria used for unit selection. We present results comparing two methods of speech database segmentation, and further results from accuracy based on phonetic labels and a perceptual test which confirm the intelligibility and naturalness and accuracy of dictation.
キーワード(和) 波形接続型音声合成 / 単位選択 / Speech-to-Speech音声合成 / 可変長音声単位 / 音響的特徴に基づいた選択
キーワード(英) concatenative speech synthesis / unit selection / Speech-to-Speech synthesis / variable-sized speech units / acoustic-based selection
資料番号 SP2003-82
発行日

研究会情報
研究会 SP
開催期間 2003/8/15(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 波形接続型Speech-to-Speech音声合成のための可変長音声単位による単位選択手法(合成, 韻律, 生成, 一般)
サブタイトル(和)
タイトル(英) Using variable-sized speech segments as targets for concatenative Speech-to-Speech synthesis
サブタイトル(和)
キーワード(1)(和/英) 波形接続型音声合成 / concatenative speech synthesis
キーワード(2)(和/英) 単位選択 / unit selection
キーワード(3)(和/英) Speech-to-Speech音声合成 / Speech-to-Speech synthesis
キーワード(4)(和/英) 可変長音声単位 / variable-sized speech units
キーワード(5)(和/英) 音響的特徴に基づいた選択 / acoustic-based selection
第 1 著者 氏名(和/英) 正木 敦之 / Atsushi MASAKI
第 1 著者 所属(和/英) 奈良先端科学技術大学院大学
Nara Institute of Science and Technology
第 2 著者 氏名(和/英) 柏岡 秀紀 / / Hideki KASHIOKA
第 2 著者 所属(和/英) 奈良先端科学技術大学院大学
Nara Institute of Science and Technology
発表年月日 2003/8/15
資料番号 SP2003-82
巻番号(vol) vol.103
号番号(no) 264
ページ範囲 pp.-
ページ数 6
発行日