お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2012-02-10 16:30
息継ぎ音を利用した電話音声の発話分割
福田 隆市川 治西村雅史日本IBMPRMU2011-238 SP2011-153
抄録 (和) 近年,音声認識を利用した通話監視技術に注目が集まっている.コールセンターを対象とした音声認識では,会話音声をあらかじめ発話単位に分割し,認識処理の不要な無音部分を取り除いた後,検出された発話の単位で認識処理を行う.そのため,各発話は文脈上意味のある単位で区切られていることが望ましい.しかし,従来の発話検出技術は,雑音の混入した入力信号から人間の発声部分を正確に抽出することにのみ焦点が当てられており,発話の検出単位については検討されてこなかった.本報告では,人間の息継ぎ音(吸気音)に注目し,入力信号から吸気音を高精度に検出することによって,入力音声を文脈上意味のある単位に,自動に分割する方法を提案する.提案法では,呼吸音に特化した音響特徴量を利用し,識別器を段階的に構成することによって吸気音を高精度に抽出する.提案法は97.4%の吸気音検出精度を達成し,音声認識性能の改善にも寄与することを確認した. 
(英) In the ASR technology for call center conversations, the system usually divides an input signal into separate utterances and eliminates the unneeded silence parts of the signal before doing ASR processing on the detected utterances. This means the input signal should be split into utterances of the proper length for both ASR performance and readability. However, typical VAD techniques sometimes generate overly long speech segments because they are focused only on the length of the pause (non-speech) between sentences. In contrast, it is shown that speakers typically take breaths for when speaking more than one sentence or long sentences. These breaths are highly correlated with the major prosodic breaks. In this paper, we focus on the breath events in the pause intervals and attempt to split the input signal into utterances by detecting the breathing events. The proposed method leverages acoustic information that is specialized for breathing sounds, which led to a two-step approach to detect the breath events with an accuracy of 97.4%. Also, the proper speech phrasing based on breath events improved word error rate in ASR.
キーワード (和) 発話分割 / 吸気音検出 / コールモニタリング / 音声認識 / 発話区間検出 / / /  
(英) speech phrasing / breath detection / call monitoring / automatic speech recognition / voice activity detection / / /  
文献情報 信学技報, vol. 111, no. 431, SP2011-153, pp. 243-248, 2012年2月.
資料番号 SP2011-153 
発行日 2012-02-02 (PRMU, SP) 
ISSN Print edition: ISSN 0913-5685    Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード PRMU2011-238 SP2011-153

研究会情報
研究会 PRMU SP  
開催期間 2012-02-09 - 2012-02-10 
開催地(和) 東北大学 青葉山キャンパス 
開催地(英)  
テーマ(和) 時系列パターン認識 
テーマ(英)  
講演論文情報の詳細
申込み研究会 SP 
会議コード 2012-02-PRMU-SP 
本文の言語 日本語 
タイトル(和) 息継ぎ音を利用した電話音声の発話分割 
サブタイトル(和)  
タイトル(英) Telephony Speech Phrasing based on Breath Event Detection 
サブタイトル(英)  
キーワード(1)(和/英) 発話分割 / speech phrasing  
キーワード(2)(和/英) 吸気音検出 / breath detection  
キーワード(3)(和/英) コールモニタリング / call monitoring  
キーワード(4)(和/英) 音声認識 / automatic speech recognition  
キーワード(5)(和/英) 発話区間検出 / voice activity detection  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 福田 隆 / Takashi Fukuda / フクダ タカシ
第1著者 所属(和/英) 日本アイ・ビー・エム株式会社 (略称: 日本IBM)
IBM Japan, Ltd (略称: IBM Japan)
第2著者 氏名(和/英/ヨミ) 市川 治 / Osamu Ichikawa / イチカワ オサム
第2著者 所属(和/英) 日本アイ・ビー・エム株式会社 (略称: 日本IBM)
IBM Japan, Ltd (略称: IBM Japan)
第3著者 氏名(和/英/ヨミ) 西村 雅史 / Masafumi Nishimura / ニシムラ マサフミ
第3著者 所属(和/英) 日本アイ・ビー・エム株式会社 (略称: 日本IBM)
IBM Japan, Ltd (略称: IBM Japan)
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2012-02-10 16:30:00 
発表時間 30分 
申込先研究会 SP 
資料番号 PRMU2011-238, SP2011-153 
巻番号(vol) vol.111 
号番号(no) no.430(PRMU), no.431(SP) 
ページ範囲 pp.243-248 
ページ数
発行日 2012-02-02 (PRMU, SP) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会