講演名 2017-07-28
対面式の窓口会話に対する話者の出現パターンに着目したダイアライゼーション
渡部 瑞季(NTTドコモ), 安藤 厚志(NTT), 神山 歩相名(NTT), 小橋川 哲(NTT), 青野 裕司(NTT), 大庭 隆伸(NTTドコモ), 礒田 佳徳(NTTドコモ),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本研究では,携帯電話の販売店など,話者が対面する窓口会話における話者ダイアライゼーションに取り組んだ. 窓口会話の話者ダイアライゼーションは,話者同士の発話のオーバーラップが頻発する難易度の高いタスクである.本稿では,話者の出現パターンに着目したダイアライゼーション手法を提案する.提案法では,窓口担当者の交代頻度が低い点を利用し,周辺時間帯の推定結果を考慮して最終的な話者ラベルを決定する.さらに,顧客については,「原則1人の窓口担当者のみから応対を受けるため,発話時間が窓口担当者の交替時刻をまたぐことは殆どない」「顧客は同日に時間をおいて複数回登場することは殆どない」といった出現パターンに着目し,窓口担当者の発話区間推定後,各窓口担当者の出現時間帯毎に,発話開始時刻の近さを考慮した話者クラスタリングを行う.実験では,携帯電話の販売店窓口の模擬会話データに対し,ダイアライゼーションエラー 12.9%を達成した.
抄録(英) This paper proposes a speaker diarization method for face-to-face dialogue of service counters using appearance pattern of speakers. In face-to-face dialog by a customer and an agent at service counters such as mobile phone shops and bank tellers, overlapping speech often occurs and makes speaker diarization difficult. To achieve an accurate diarization, our proposed method utilizes appearance pattern of speakers. Taking into account that agents do not frequently change their places, final agent-speaker labels are decided using context of estimated speaker labels. With customers, a customer only talks to a single agent and does not appear twice or more times in a day in most cases. Therefore, the proposed method first estimates segments of agents and then clustering of the customer speeches is applied to each of the segments, in which the clustering is performed so that near speeches are clustered in the same cluster. Consequently, our proposed method achieves 12.9% of diarization error rate on the simulated dialogue data of service counters of mobile phone shops.
キーワード(和) ダイアライゼーション / 窓口会話 / 話者認識 / i-vector
キーワード(英) Diarization / Conversation at service counters / Speaker recognition / i-vector
資料番号 SP2017-19
発行日 2017-07-20 (SP)

研究会情報
研究会 SP / IPSJ-SLP
開催期間 2017/7/27(から2日開催)
開催地(和) 秋保リゾート ホテルクレセント
開催地(英) Akiu Resort Hotel Crescent
テーマ(和) 認識,理解,対話,一般
テーマ(英) Speech recognition and understanding, dialog system, etc.
委員長氏名(和) 山下 洋一(立命館大) / 峯松 信明(東大)
委員長氏名(英) Yoichi Yamashita(Ritsumeikan Univ.) / Nobuaki Minematsu(Univ. of Tokyo)
副委員長氏名(和) 森 大毅(宇都宮大)
副委員長氏名(英) Hiroki Mori(Utsunomiya Univ.)
幹事氏名(和) 西田 昌史(静岡大) / 坂野 秀樹(名城大) / 篠崎 隆宏(東工大) / 山岸 順一(NII) / 福田 隆(IBM)
幹事氏名(英) Masafumi Nishida(Shizuoka Univ.) / Hideki Banno(Meijo Univ.) / Takahiro Shinozaki(Tokyo Inst. of Tech.) / Junichi Yamagishi(NII) / Takashi Fukuda(IBM)
幹事補佐氏名(和) 橋本 佳(名工大) / 小橋川 哲(NTT)
幹事補佐氏名(英) Kei Hashimoto(Nagoya Inst. of Tech.) / Satoshi Kobashikawa(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Speech / Special Interest Group on Spoken Language Processing
本文の言語 JPN
タイトル(和) 対面式の窓口会話に対する話者の出現パターンに着目したダイアライゼーション
サブタイトル(和)
タイトル(英) Speaker Diarization for Face-to-Face Dialog of Service Counters Based on Appearance Pattern of Speakers
サブタイトル(和)
キーワード(1)(和/英) ダイアライゼーション / Diarization
キーワード(2)(和/英) 窓口会話 / Conversation at service counters
キーワード(3)(和/英) 話者認識 / Speaker recognition
キーワード(4)(和/英) i-vector / i-vector
第 1 著者 氏名(和/英) 渡部 瑞季 / Mizuki Watabe
第 1 著者 所属(和/英) 株式会社NTTドコモ(略称:NTTドコモ)
NTT DOCOMO, INC.(略称:NTT DOCOMO)
第 2 著者 氏名(和/英) 安藤 厚志 / Atsushi Ando
第 2 著者 所属(和/英) NTTメディアインテリジェンス研究所(略称:NTT)
NTT Media Intelligence Laboratories(略称:NTT)
第 3 著者 氏名(和/英) 神山 歩相名 / Hosana Kamiyama
第 3 著者 所属(和/英) NTTメディアインテリジェンス研究所(略称:NTT)
NTT Media Intelligence Laboratories(略称:NTT)
第 4 著者 氏名(和/英) 小橋川 哲 / Satoshi Kobashikawa
第 4 著者 所属(和/英) NTTメディアインテリジェンス研究所(略称:NTT)
NTT Media Intelligence Laboratories(略称:NTT)
第 5 著者 氏名(和/英) 青野 裕司 / Yushi Aono
第 5 著者 所属(和/英) NTTメディアインテリジェンス研究所(略称:NTT)
NTT Media Intelligence Laboratories(略称:NTT)
第 6 著者 氏名(和/英) 大庭 隆伸 / Takanobu Oba
第 6 著者 所属(和/英) 株式会社NTTドコモ(略称:NTTドコモ)
NTT DOCOMO, INC.(略称:NTT DOCOMO)
第 7 著者 氏名(和/英) 礒田 佳徳 / Yoshinori Isoda
第 7 著者 所属(和/英) 株式会社NTTドコモ(略称:NTTドコモ)
NTT DOCOMO, INC.(略称:NTT DOCOMO)
発表年月日 2017-07-28
資料番号 SP2017-19
巻番号(vol) vol.117
号番号(no) SP-160
ページ範囲 pp.21-26(SP),
ページ数 6
発行日 2017-07-20 (SP)