業績賞 推薦の辞
省メモリに適した高品位音声合成方式の先駆的研究
赤嶺 政巳 ・ 籠嶋 岳彦
 音声合成技術の研究の歴史は長い。内容が聞き取れるという意味で実用的なシステムは以前から開発されており、福祉機器の分野などで利用されてきた。しかし、その音質は、「鼻声」などと言われるような不自然なものであり、応用も限定的であった。任意の音素系列及び韻律パターンを入力として音声波形を生成する音声規則合成の原理は、肉声から切り出した音素や音節などの短い単位の音声波形(音声素片)に、所望の韻律(基本周波数や継続長)となるような信号処理(韻律変形)を行って接続するものである(図1)。この韻律変形処理によって音声の肉声らしさが失われ、音質が劣化することが大きな問題となっていた。
 これに対して、韻律が異なる同一音韻の音声素片を大量に用意し、所望の韻律に近い音声素片を選択することで韻律の変形量を極力抑える方法が開発された。この手法では、音声素片のデータ量が数百MB程度でなり、多くの計算機リソースが必要であり、組み込み機器などリソース制約の厳しい応用には適用できないという問題があった。
  受賞者らは、1MB以下の音声素片データで、安定した高音質な音声を合成することが可能な省メモリに適した音声合成方式を開発した。この結果、組み込み機器での音声合成の利用に道を拓いた。受賞者らが開発した閉ループ学習方式(図2)は、韻律変形による音質劣化を最小化するような音声素片を、統計的に学習することで、少数の音声素片で高品質な合成音声を実現した。閉ループ学習方式では、音声素片を表すベクトルを用いて韻律変形処理を定式化し、韻律変形を経て生成された合成音声のひずみの評価関数を、自然音声との波形の2乗誤差で定義する。このような定式化によって、様々な韻律変形を行って生成される合成音声の平均的なひずみが最小となるような最適な音声素片を解析的に生成することができる。例えば、/a/の音韻の音声素片を学習する場合、話者1名から収録した大量の音声より、様々な韻律の/a/の音声波形を切り出して、自然音声のデータベースとして利用する。これらの個々の自然音声の波形に対して韻律の分析を行い、ひずみが最小化されるパラメータを用いて音声素片に韻律変形を行って合成音声を生成する。適当な音声素片の初期値を用意して、個々の自然音声に対応する合成音声を生成する処理と、それらの合成音声のひずみの評価関数が最小となる音声素片を求めて更新する処理を繰り返すことにより、ひずみが減少して収束し、音声素片を求めることができる。
  受賞者らが、閉ループ学習方式に基づいて開発した音声合成ミドルウェアは、省メモリと高音質を両立するものとなっており、様々な組み込み機器に応用されている。特に、国内のカーナビゲーションシステムに広く用いられており、経路案内や音声認識トークバック、テレマティクスサービスでのメールやニュースの読み上げなどに利用されている。その他にも、福祉機器や電子辞書、ゲームソフトなど、様々な製品に採用されている。
  これらの技術は、全国発明表彰内閣総理大臣賞や市村産業賞功績賞、本会情報システムソサイエティの連作論文賞を始め、様々な賞を受賞するなど、技術的に高く評価されている。その業績は極めて顕著であり、本会業績賞にふさわしいものである。
 
図1 音声規則合成の処理
図2 閉ループ学習による音声素片の生成
 
 
参考文献
[1] T. Kagoshima and M. Akamine, "Automatic Generation of Speech Synthesis units based on Closed Loop Training," Proc. ICASSP97, pp.963-966, Apr. 1997.
[2] 籠嶋 岳彦, 赤嶺 政巳,"閉ループ学習に基づく代表素片選択による音声素片の自動生成," 信学論(D-II), vol. J81-D-II, no.9, pp.1949-1954, Sep. 1998.
[3] M. Akamine and T. Kagoshima, "Analytic Generation of Synthesis Units by Closed Loop Training for Totally Speaker Driven Text to Speech System (TOS Drive TTS)," Proc. ICSLP'98, pp.1927-1930, Dec. 1998.
[4] T. Kagoshima, M. Morita, S. Seto, and M. Akamine, "An F0 Contour Control Model for Totally Speaker Driven Text to Speech System," Proc. ICSLP'98, pp.1975-1978, Dec. 1998.
[5] 籠嶋 岳彦, 赤嶺 政巳, "閉ループ学習に基づく最適な素片選択の解析的生成," 信学論(D-II), vol.J83-D-II, no.6, pp.1405-1411, 2000.
[6] 籠嶋 岳彦, 森田 眞弘, 瀬戸 重宣, 赤嶺 政巳, 志賀 芳則, "代表パターンコードブックを用いた基本周波数制御法," 信学論(D-II), vol.J85-D-II, no.6, pp.976-986, 2002.

    CLOSE