講演名 2021-07-16
二つの音響管が縦続接続された簡易声道モデルのサウンドスペクトログラムからのCNNを用いた形状逆推定
千葉 拓弥(北海道科学大), 松﨑 博季(北海道科学大), 和田 直史(北海道科学大), 竹沢 恵(北海道科学大), 真田 博文(北海道科学大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 機械学習を用いて発話音声から声道形状を逆推定することを試みている.これまで学習データとして出力には声道断面積関数を,入力には声道伝達関数を用い,複数の全結合層からなるニューラルネットワークで逆推定を試みてきたが,十分な推定精度が得られなかった.また,音声データそのものを学習に用いていないという問題もあった.そこで,音声からサウンドスペクトログラムを求めて,これを入力データとし,ニューラルネットワークに画像処理分野で大きな成果を上げている畳み込みニューラルネットワーク(CNN)を用いて推定精度向上が可能か確認を行なった.CNN として,分類問題で用いられることが多いInceptionV3,VGG16 およびResNet50の3モデルを,本研究の回帰問題に合わせ出力層で用いる活性化関数をsoftmax関数から恒等関数に変更した上で使用した.結果として,いずれの CNN モデルでも本導入方法では高い精度を得ることができなかった.
抄録(英) We are attempting to use machine learning to vocal tract shape from speaking voice. For this purpose, we have used the vocal tract area function as the output and the vocal tract transfer function as the input as the training data, and have attempted inverse estimation using a neural network consisting of multiple fully connected layers, but have not been able to obtain sufficient estimation accuracy. Another problem was that the voice data itself was not used for training. In this study, we used a convolutional neural network (CNN), which has been widely used in image processing, as the input data to obtain a sound spectrogram from speaking voice. InceptionV3, VGG16, and ResNet50, which are often used in classification problems, were used as CNNs after changing the activation function used in the output layer from a softmax function to an equality function to fit the regression problem of this study. As a result, we were not able to obtain high accuracy with this implementation method for any of the CNN models.
キーワード(和) サウンドスペクトログラム / 声道断面積関数 / 逆推定 / CNN
キーワード(英) Sound Spectrogrum / Vocal Tract Area / Inverse Estimation / CNN
資料番号 EA2021-19
発行日 2021-07-08 (EA)

研究会情報
研究会 EA / ASJ-H
開催期間 2021/7/15(から2日開催)
開催地(和) オンライン開催
開催地(英) Online
テーマ(和) 応用/電気音響,聴覚,音声,音楽音響,音響教育,一般
テーマ(英) Engineering/Electro Acoustics, Psychological and Physiological Acoustics, Speech, Musical Acoustics, Education in Acoustics, and Related Topics
委員長氏名(和) 梶川 嘉延(関西大)
委員長氏名(英) Yoshinobu Kajikawa(Kansai Univ.)
副委員長氏名(和) 古家 賢一(大分大) / 小山 翔一(東大)
副委員長氏名(英) Kenichi Furuya(Oita Univ.) / Shoichi Koyama(Univ. of Tokyo)
幹事氏名(和) 加古 達也(NTT) / 西浦 敬信(立命館大)
幹事氏名(英) Tatsuya Kako(NTT) / Takanobu Nishiura(RitsumeikanUniv.)
幹事補佐氏名(和) 若林 佑幸(都立大) / 小松 達也(LINE)
幹事補佐氏名(英) Yukou Wakabayashi(Tokyo Metropolitan Univ.) / Tatsuya Komatsu(LINE)

講演論文情報詳細
申込み研究会 Technical Committee on Engineering Acoustics / Auditory Research Meeting
本文の言語 JPN
タイトル(和) 二つの音響管が縦続接続された簡易声道モデルのサウンドスペクトログラムからのCNNを用いた形状逆推定
サブタイトル(和)
タイトル(英) Inverse esitimaion of shapes of vocal-tract models with cascading two acoustic tubes from sound spectrogram using CNN
サブタイトル(和)
キーワード(1)(和/英) サウンドスペクトログラム / Sound Spectrogrum
キーワード(2)(和/英) 声道断面積関数 / Vocal Tract Area
キーワード(3)(和/英) 逆推定 / Inverse Estimation
キーワード(4)(和/英) CNN / CNN
第 1 著者 氏名(和/英) 千葉 拓弥 / Takuya Chiba
第 1 著者 所属(和/英) 北海道科学大学(略称:北海道科学大)
Hokkaido University of Science(略称:Hokkaido Univ of Science)
第 2 著者 氏名(和/英) 松﨑 博季 / Hiroki Matsuzaki
第 2 著者 所属(和/英) 北海道科学大学(略称:北海道科学大)
Hokkaido University of Science(略称:Hokkaido Univ of Science)
第 3 著者 氏名(和/英) 和田 直史 / Naofumi Wada
第 3 著者 所属(和/英) 北海道科学大学(略称:北海道科学大)
Hokkaido University of Science(略称:Hokkaido Univ of Science)
第 4 著者 氏名(和/英) 竹沢 恵 / Megumi Takezawa
第 4 著者 所属(和/英) 北海道科学大学(略称:北海道科学大)
Hokkaido University of Science(略称:Hokkaido Univ of Science)
第 5 著者 氏名(和/英) 真田 博文 / Hirofumi Sanada
第 5 著者 所属(和/英) 北海道科学大学(略称:北海道科学大)
Hokkaido University of Science(略称:Hokkaido Univ of Science)
発表年月日 2021-07-16
資料番号 EA2021-19
巻番号(vol) vol.121
号番号(no) EA-112
ページ範囲 pp.89-94(EA),
ページ数 6
発行日 2021-07-08 (EA)