講演名 2014-06-19
統計的音源予測に基づく電気式人工喉頭制御法のシミュレーションによる評価(音声分析・合成,聴覚,福祉,音声一般)
田中 宏, 戸田 智基, ニュービッグ グラム, サクティ サクリアニ, 中村 哲,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 喉頭摘出者のための代用発声法の一つとして,電気式人工喉頭を用いた発声法がある.外部から機械的に生成される音源信号を用いて発声を行う方法であり,習得が容易で,かつ,比較的聞き取りやすい音声(電気音声)を生成できる.一方で,発話内容に応じた自然なF_0パターンの機械的な生成は極めて難しく,電気音声の自然性は著しく劣化する.この問題に対して,統計的音源予測に基づき,電気音声のスペクトル特徴量から通常音声の音源特徴量を予測し,ボコーダを用いて電気音声に付与することで強調処理を行う手法を提案している.発声された電気音声をマイクで収録し,強調音声をスピーカから出力する枠組みであるため,リアルタイム処理時には,発声された電気音声と強調音声が同時に外部に提示される.聞き手が話者から離れており,強調音声のみを提示できる状況(電話など)では有効であるが,聞き手が話者に近く,両方の音声が相手に提示される場合(対面会話など)には不向きである.本研究では,対面会話においても使用可能な電気音声強調法として,統計的音源予測を用いた電気式人工喉頭の直接制御法を提案する.本稿では,提案法を電気式人工喉頭に実装する前段階として,シミュレーション実験による評価を行う.実験結果から,提案法により,自然性が大幅に改善された電気音声の生成が可能となることを示す.
抄録(英) An electrolarynx is a device that artificially generates excitation sounds to enable laryngectomees to produce electrolaryngeal (EL) speech. Although proficient laryngectomees can produce quite intelligible EL speech, it sounds very unnatural due to the mechanical excitation produced by the device. To address this issue, we have proposed several EL speech enhancement methods using statistical excitation prediction, which was essential to significantly improve naturalness by predicting excitation parameters of normal speech. In these methods, the original EL speech is recorded with a microphone and the enhanced EL speech is presented from a loudspeaker in real time. This framework is effective for telecommunication but it is not suitable to face-to-face conversation because both the original EL speech and the enhanced EL speech are presented to listeners. In this paper, we propose direct F_0 control of the electrolarynx based on the statistical excitation prediction also effective for face-to-face conversation. A simulation experiment is conducted to evaluate the effectiveness of the proposed method. The experimental result shows that our proposed system enables laryngectomees to produce more natural EL speech.
キーワード(和) 電気式人工喉頭 / 電気音声 / 統計的音源予測 / F_0制御 / シミュレーション評価
キーワード(英) electrolarynx / electrolaryngeal speech / statistical excitation prediction / Direct F_0 control / evaluation through simulation
資料番号 SP2014-52,WIT2014-7
発行日

研究会情報
研究会 SP
開催期間 2014/6/12(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 統計的音源予測に基づく電気式人工喉頭制御法のシミュレーションによる評価(音声分析・合成,聴覚,福祉,音声一般)
サブタイトル(和)
タイトル(英) An Evaluation through Simulation for Direct F_0 Control of an Electrolarynx based on Statistical Excitation Feature Prediction
サブタイトル(和)
キーワード(1)(和/英) 電気式人工喉頭 / electrolarynx
キーワード(2)(和/英) 電気音声 / electrolaryngeal speech
キーワード(3)(和/英) 統計的音源予測 / statistical excitation prediction
キーワード(4)(和/英) F_0制御 / Direct F_0 control
キーワード(5)(和/英) シミュレーション評価 / evaluation through simulation
第 1 著者 氏名(和/英) 田中 宏 / Kou TANAKA
第 1 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
第 2 著者 氏名(和/英) 戸田 智基 / Tomoki TODA
第 2 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
第 3 著者 氏名(和/英) ニュービッグ グラム / Graham NEUBIG
第 3 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
第 4 著者 氏名(和/英) サクティ サクリアニ / Sakriani SAKTI
第 4 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
第 5 著者 氏名(和/英) 中村 哲 / Satoshi NAKAMURA
第 5 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
発表年月日 2014-06-19
資料番号 SP2014-52,WIT2014-7
巻番号(vol) vol.114
号番号(no) 91
ページ範囲 pp.-
ページ数 6
発行日