講演名 2018-07-26
複数音声の分離再構成に向けた聴覚数理モデル導出型ラダーネットワーク
関口 浩(東大), 成末 義哲(東大), 森川 博之(東大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 霊長類や哺乳類には同時に発声する外部音源を聴覚脳神経系で聞き分ける能力がある.それに対して,従来の重畳音声スペクトラム比を用いた音声分離再構成方式ではその性能は十分とは言えない.聴覚脳神経学によると,聴覚の分離能力は,聴覚音声特徴量抽出と時間同期性検知クラスタリングの2つの機能で構成される.前者は音声を聴覚神経細胞集団が分析し,聴覚音声特徴量時間系列を出力する機能である.後者はそれら音声特徴量時間系列の発生開始時間点および終了時間点が類似のものを同一の音源とし,異なるものを他の音源として判断する機能である.本稿では聴覚脳神経学の知見に基づく重畳音声の音声分離再構成について述べる.その際に2つの機能に必要な親和性を定義する.聴覚音声特徴量抽出および時間同期性検知クラスタリングを,非線形スパースエンコーダデコーダモデルおよび時間コヒーレントモデルによりそれぞれ定式化し,両者の接続性を考慮してラダーネットワークにより設計および実装を行う.
抄録(英) This paper introduces ladder network implementation induced by auditory computational model for multi-talker speech separation. The conventional approach of learning mask ratio of spectrum has been intensively investigated. However, compared with auditory system, it remains limiting in performance in such a way that reconstructed speech shows signal-to distortion ratio (SDR) around 10dB at best. To improve SDR performance, we are inspired by auditory neuroscience, which says speech separation consists of two functions, auditory speech feature extraction and temporal synchronization detection and clustering. The first analyzes speech features and the latter extracts features varying synchronized with the low-frequency-below-5Hz movement of mouth, which are grouped as one speaker, whereas unsynchronized movement grouped as different one. We consider the importance of affinity constraint between these two functions. We derive two different computational models from two functions with this constraint. Then ladder network implements these two computational models with suitable network structures to proper reconstruction path.
キーワード(和) 音声分離 / 時間コヒーレント / 聴覚脳神経学 / ラダーネットワーク
キーワード(英) speech separation / temporal coherence / auditory neuroscience / ladder network
資料番号 SP2018-18
発行日 2018-07-19 (SP)

研究会情報
研究会 SP / IPSJ-SLP
開催期間 2018/7/26(から2日開催)
開催地(和) 舘山寺サゴーロイヤルホテル
開催地(英) Sago-Royal-Hotel (Hamamatsu)
テーマ(和) 認識,理解,対話,一般
テーマ(英) Speech recognition and understanding, dialog system, etc.
委員長氏名(和) 山下 洋一(立命館大) / 西村 雅史(静岡大)
委員長氏名(英) Yoichi Yamashita(Ritsumeikan Univ.) / Masafumi Nishimura(Shizuoka Univ.)
副委員長氏名(和) 李 晃伸(名工大)
副委員長氏名(英) Akinobu Ri(Nagoya Inst. of Tech.)
幹事氏名(和) 南條 浩輝(京大) / 坂野 秀樹(名城大) / 福田 隆(日本IBM) / 山岸 順一(NII) / 塩田 さやか(首都大東京) / 俵 直弘(早稲田大)
幹事氏名(英) Hiroaki Nanjo(Kyoto Univ.) / Hideki Banno(Meijo Univ.) / Takashi Fukuda(IBM Japan) / Junichi Yamagishi(NII) / Sayaka Shiota(Tokyo Metropolitan Univ.) / Naohiro Tawara(Waseda Univ.)
幹事補佐氏名(和) 郡山 知樹(東工大) / 小橋川 哲(NTT)
幹事補佐氏名(英) Tomoki Koriyama(Tokyo Inst. of Tech.) / Satoshi Kobashikawa(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Speech / Special Interest Group on Spoken Language Processing
本文の言語 JPN
タイトル(和) 複数音声の分離再構成に向けた聴覚数理モデル導出型ラダーネットワーク
サブタイトル(和)
タイトル(英) Ladder Network Driven from Auditory Computational Model for Multi-talker Speech Separation
サブタイトル(和)
キーワード(1)(和/英) 音声分離 / speech separation
キーワード(2)(和/英) 時間コヒーレント / temporal coherence
キーワード(3)(和/英) 聴覚脳神経学 / auditory neuroscience
キーワード(4)(和/英) ラダーネットワーク / ladder network
第 1 著者 氏名(和/英) 関口 浩 / Hiroshi Sekiguchi
第 1 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:Univ. of Tokyo)
第 2 著者 氏名(和/英) 成末 義哲 / Yoshiaki Narusue
第 2 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:Univ. of Tokyo)
第 3 著者 氏名(和/英) 森川 博之 / Hiroyuki Morikawa
第 3 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:Univ. of Tokyo)
発表年月日 2018-07-26
資料番号 SP2018-18
巻番号(vol) vol.118
号番号(no) SP-160
ページ範囲 pp.9-13(SP),
ページ数 5
発行日 2018-07-19 (SP)