講演抄録/キーワード |
講演名 |
2012-02-10 16:30
息継ぎ音を利用した電話音声の発話分割 ○福田 隆・市川 治・西村雅史(日本IBM) PRMU2011-238 SP2011-153 |
抄録 |
(和) |
近年,音声認識を利用した通話監視技術に注目が集まっている.コールセンターを対象とした音声認識では,会話音声をあらかじめ発話単位に分割し,認識処理の不要な無音部分を取り除いた後,検出された発話の単位で認識処理を行う.そのため,各発話は文脈上意味のある単位で区切られていることが望ましい.しかし,従来の発話検出技術は,雑音の混入した入力信号から人間の発声部分を正確に抽出することにのみ焦点が当てられており,発話の検出単位については検討されてこなかった.本報告では,人間の息継ぎ音(吸気音)に注目し,入力信号から吸気音を高精度に検出することによって,入力音声を文脈上意味のある単位に,自動に分割する方法を提案する.提案法では,呼吸音に特化した音響特徴量を利用し,識別器を段階的に構成することによって吸気音を高精度に抽出する.提案法は97.4%の吸気音検出精度を達成し,音声認識性能の改善にも寄与することを確認した. |
(英) |
In the ASR technology for call center conversations, the system usually divides an input signal into separate utterances and eliminates the unneeded silence parts of the signal before doing ASR processing on the detected utterances. This means the input signal should be split into utterances of the proper length for both ASR performance and readability. However, typical VAD techniques sometimes generate overly long speech segments because they are focused only on the length of the pause (non-speech) between sentences. In contrast, it is shown that speakers typically take breaths for when speaking more than one sentence or long sentences. These breaths are highly correlated with the major prosodic breaks. In this paper, we focus on the breath events in the pause intervals and attempt to split the input signal into utterances by detecting the breathing events. The proposed method leverages acoustic information that is specialized for breathing sounds, which led to a two-step approach to detect the breath events with an accuracy of 97.4%. Also, the proper speech phrasing based on breath events improved word error rate in ASR. |
キーワード |
(和) |
発話分割 / 吸気音検出 / コールモニタリング / 音声認識 / 発話区間検出 / / / |
(英) |
speech phrasing / breath detection / call monitoring / automatic speech recognition / voice activity detection / / / |
文献情報 |
信学技報, vol. 111, no. 431, SP2011-153, pp. 243-248, 2012年2月. |
資料番号 |
SP2011-153 |
発行日 |
2012-02-02 (PRMU, SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
PRMU2011-238 SP2011-153 |
研究会情報 |
研究会 |
PRMU SP |
開催期間 |
2012-02-09 - 2012-02-10 |
開催地(和) |
東北大学 青葉山キャンパス |
開催地(英) |
|
テーマ(和) |
時系列パターン認識 |
テーマ(英) |
|
講演論文情報の詳細 |
申込み研究会 |
SP |
会議コード |
2012-02-PRMU-SP |
本文の言語 |
日本語 |
タイトル(和) |
息継ぎ音を利用した電話音声の発話分割 |
サブタイトル(和) |
|
タイトル(英) |
Telephony Speech Phrasing based on Breath Event Detection |
サブタイトル(英) |
|
キーワード(1)(和/英) |
発話分割 / speech phrasing |
キーワード(2)(和/英) |
吸気音検出 / breath detection |
キーワード(3)(和/英) |
コールモニタリング / call monitoring |
キーワード(4)(和/英) |
音声認識 / automatic speech recognition |
キーワード(5)(和/英) |
発話区間検出 / voice activity detection |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
福田 隆 / Takashi Fukuda / フクダ タカシ |
第1著者 所属(和/英) |
日本アイ・ビー・エム株式会社 (略称: 日本IBM)
IBM Japan, Ltd (略称: IBM Japan) |
第2著者 氏名(和/英/ヨミ) |
市川 治 / Osamu Ichikawa / イチカワ オサム |
第2著者 所属(和/英) |
日本アイ・ビー・エム株式会社 (略称: 日本IBM)
IBM Japan, Ltd (略称: IBM Japan) |
第3著者 氏名(和/英/ヨミ) |
西村 雅史 / Masafumi Nishimura / ニシムラ マサフミ |
第3著者 所属(和/英) |
日本アイ・ビー・エム株式会社 (略称: 日本IBM)
IBM Japan, Ltd (略称: IBM Japan) |
第4著者 氏名(和/英/ヨミ) |
/ / |
第4著者 所属(和/英) |
(略称: )
(略称: ) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2012-02-10 16:30:00 |
発表時間 |
30分 |
申込先研究会 |
SP |
資料番号 |
PRMU2011-238, SP2011-153 |
巻番号(vol) |
vol.111 |
号番号(no) |
no.430(PRMU), no.431(SP) |
ページ範囲 |
pp.243-248 |
ページ数 |
6 |
発行日 |
2012-02-02 (PRMU, SP) |
|