お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2021-03-03 17:35
[ショートペーパー]Comparison of End-to-End Models for Joint Speaker and Speech Recognition
Kak SokyKyoto Univ.)・Sheng LiNICT)・Masato MimuraChenhui ChuTatsuya KawaharaKyoto Univ.EA2020-78 SIP2020-109 SP2020-43
抄録 (和) In this paper, we investigate the effectiveness of using speaker information on the performance of speaker-imbalanced automatic speech recognition (ASR). We identify the major speakers and combine other speakers who have a small size of speech, and make a systematic comparison of three methods that use speaker information for ASR including speaker attribute augmentation (SAug), multi-task learning (MTL), and adversarial learning (AL). We conduct experiments on a large spontaneous speech corpus of the Extraordinary Chambers in the Courts of Cambodia (ECCC) and an open Khmer text-to-speech corpus. As a result, we find that the use of speaker clustering information improves ASR performance including new speakers. Moreover, AL achieves better performance and more robustness in the speaker-independent setting compared to the other methods. It reduces errors of the baseline model by 4.32%, 5.46%, and 16.10% for the closed test, open test, and out-of-domain test, respectively. 
(英) In this paper, we investigate the effectiveness of using speaker information on the performance of speaker-imbalanced automatic speech recognition (ASR). We identify the major speakers and combine other speakers who have a small size of speech, and make a systematic comparison of three methods that use speaker information for ASR including speaker attribute augmentation (SAug), multi-task learning (MTL), and adversarial learning (AL). We conduct experiments on a large spontaneous speech corpus of the Extraordinary Chambers in the Courts of Cambodia (ECCC) and an open Khmer text-to-speech corpus. As a result, we find that the use of speaker clustering information improves ASR performance including new speakers. Moreover, AL achieves better performance and more robustness in the speaker-independent setting compared to the other methods. It reduces errors of the baseline model by 4.32%, 5.46%, and 16.10% for the closed test, open test, and out-of-domain test, respectively.
キーワード (和) End-to-End / Speech Recognition / Speaker Recognition / Khmer language / Low-resource / Speech attribute / Multi-task / Adversarial learning  
(英) End-to-End / Speech Recognition / Speaker Recognition / Khmer language / Low-resource / Speech attribute / Multi-task / Adversarial learning  
文献情報 信学技報, vol. 120, no. 399, SP2020-43, pp. 109-113, 2021年3月.
資料番号 SP2020-43 
発行日 2021-02-24 (EA, SIP, SP) 
ISSN Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード EA2020-78 SIP2020-109 SP2020-43

研究会情報
研究会 EA US SP SIP IPSJ-SLP  
開催期間 2021-03-03 - 2021-03-04 
開催地(和) オンライン開催 
開催地(英) Online 
テーマ(和) 音声,応用/電気音響,信号処理,超音波,一般 
テーマ(英) Speech, Engineering/Electro Acoustics, Signal Processing, Ultrasonics, and Related Topics 
講演論文情報の詳細
申込み研究会 SP 
会議コード 2021-03-EA-US-SP-SIP-SLP 
本文の言語 英語 
タイトル(和)  
サブタイトル(和)  
タイトル(英) Comparison of End-to-End Models for Joint Speaker and Speech Recognition 
サブタイトル(英)  
キーワード(1)(和/英) End-to-End / End-to-End  
キーワード(2)(和/英) Speech Recognition / Speech Recognition  
キーワード(3)(和/英) Speaker Recognition / Speaker Recognition  
キーワード(4)(和/英) Khmer language / Khmer language  
キーワード(5)(和/英) Low-resource / Low-resource  
キーワード(6)(和/英) Speech attribute / Speech attribute  
キーワード(7)(和/英) Multi-task / Multi-task  
キーワード(8)(和/英) Adversarial learning / Adversarial learning  
第1著者 氏名(和/英/ヨミ) Kak Soky / Kak Soky /
第1著者 所属(和/英) Kyoto University (略称: 京大)
Kyoto University (略称: Kyoto Univ.)
第2著者 氏名(和/英/ヨミ) Sheng Li / Sheng Li /
第2著者 所属(和/英) National Institute of Information and Communications Technology (略称: NICT)
National Institute of Information and Communications Technology (略称: NICT)
第3著者 氏名(和/英/ヨミ) Masato Mimura / Masato Mimura /
第3著者 所属(和/英) Kyoto University (略称: 京大)
Kyoto University (略称: Kyoto Univ.)
第4著者 氏名(和/英/ヨミ) Chenhui Chu / Chenhui Chu /
第4著者 所属(和/英) Kyoto University (略称: 京大)
Kyoto University (略称: Kyoto Univ.)
第5著者 氏名(和/英/ヨミ) Tatsuya Kawahara / Tatsuya Kawahara /
第5著者 所属(和/英) Kyoto University (略称: 京大)
Kyoto University (略称: Kyoto Univ.)
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2021-03-03 17:35:00 
発表時間 25分 
申込先研究会 SP 
資料番号 EA2020-78, SIP2020-109, SP2020-43 
巻番号(vol) vol.120 
号番号(no) no.397(EA), no.398(SIP), no.399(SP) 
ページ範囲 pp.109-113 
ページ数
発行日 2021-02-24 (EA, SIP, SP) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会