聴覚数理モデルに着目した複数話者音声分離向けラダーネットワークの実装

○関口　浩; 成末義哲; 森川博之

大会名称
2018年ソサイエティ大会
大会コ－ド
2018S
開催年
2018
発行日
2018/8/28
セッション番号
A-5
セッション名
応用音響
講演日
2018/9/11
講演場所(会議室等)
自然科学本館　1F　102講義室
講演番号
A-5-6
タイトル
聴覚数理モデルに着目した複数話者音声分離向けラダーネットワークの実装
著者名
○関口　浩, 成末義哲, 森川博之,
キーワード
音声分離, 時間コヒーレント, 聴覚脳神経学, ラダーネットワーク
抄録
議事自動生成システムなどにおいては，重畳音声の個別音声分離と再構成とが必要である．霊長類や哺乳類には，同時に発声する外部音源を聴覚脳神経系で聞き分ける能力がある．聴覚脳神経学によれば，この能力は，聴覚音声特徴量抽出と時間同期性検知クラスタリングとの2つの機能で構成される．前者は，音声を聴覚神経細胞集団が分析し聴覚音声特徴量時間系列を出力する機能である．後者はそれら音声特徴量時間系列の発生開始時間点および終了時間点が類似のものを同一の音源とし，異なるものを他の音源として判断する機能である．時間同期性検知クラスタリングを行うためには，前段の聴覚音声特徴量抽出からの出力が互いに独立であることが望ましい．このような観点から，筆者らは，聴覚音声特徴量抽出の数理モデルには非線形スパースエンコーダデコーダモデルを，時間同期性検知クラスタリングの数理モデルには時間コヒーレントモデルを用いて，ラダーネットワーク上で個別音声分離と再構成とを行うシステムの実装を進めている．
本文pdf
PDF download PayPerView