講演名 2021-09-16
データ拡張による質問カテゴリ推定のためのエンティティの分散表現に関する調査
欅 惇志(デンソーアイティーラボラトリ), 太刀岡 勇気(デンソーアイティーラボラトリ),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本研究では,エンティティ間の類似度を考慮したエンティティ置換によるデータ拡張を行う際に,適切なエンティティの分散表現の設定を明らかにすることを目指す.本研究で取り組む質問文の質問カテゴリ推定タスクにおいて,高性能なモデル構築には多様な表現を含む大量の学習データが必要となる.その際,学習用データの収集や正解カテゴリのアノテーションのコストを軽減するため,データ拡張によるデータの自動生成を行う.採用するアプローチでは,シードとなる質問中のエンティティを類似エンティティと置換することで新たな質問を生成する.このとき,類似エンティティの選定において,事前に獲得したエンティティの分散表現を用いる.自動生成された質問の品質を評価するため,質問カテゴリ分類タスクの精度評価を行った.その結果,分散表現獲得時の学習におけるエンティティの最小出現回数や分散表現の次元数によって分類性能が変化することが確認された.
抄録(英)
キーワード(和) 対話システム / データ拡張 / エンティティの分散表現 / Entity Embedding / Wikipedia2Vec
キーワード(英)
資料番号 NLC2021-13
発行日 2021-09-09 (NLC)

研究会情報
研究会 NLC
開催期間 2021/9/16(から1日開催)
開催地(和) オンライン開催
開催地(英) Online
テーマ(和) 第18回テキストアナリティクス・シンポジウム
テーマ(英) The 18th Text Analytics Symposium
委員長氏名(和) 嶋田 和孝(九工大)
委員長氏名(英) Kazutaka Shimada(Kyushu Inst. of Tech.)
副委員長氏名(和) 吉田 光男(筑波大) / 小早川 健(NHK)
副委員長氏名(英) Mitsuo Yoshida(Univ. of Tsukuba) / Takeshi Kobayakawa(NHK)
幹事氏名(和) 坂地 泰紀(東大) / 石野 亜耶(広島経済大)
幹事氏名(英) Hiroki Sakaji(Univ. of Tokyo) / Aya Ishino(Hiroshima Univ. of Economics)
幹事補佐氏名(和) 高橋 寛治(Sansan) / 光田 航(NTT)
幹事補佐氏名(英) Kanjin Takahashi(Sansan) / Ko Mitsuda(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Natural Language Understanding and Models of Communication
本文の言語 JPN-ONLY
タイトル(和) データ拡張による質問カテゴリ推定のためのエンティティの分散表現に関する調査
サブタイトル(和)
タイトル(英) なし
サブタイトル(和)
キーワード(1)(和/英) 対話システム
キーワード(2)(和/英) データ拡張
キーワード(3)(和/英) エンティティの分散表現
キーワード(4)(和/英) Entity Embedding
キーワード(5)(和/英) Wikipedia2Vec
第 1 著者 氏名(和/英) 欅 惇志 / Atsushi Keyaki
第 1 著者 所属(和/英) デンソーアイティーラボラトリ(略称:デンソーアイティーラボラトリ)
Denso IT Laboratory, Inc.(略称:Denso IT Lab.)
第 2 著者 氏名(和/英) 太刀岡 勇気 / Yuuki Tachioka
第 2 著者 所属(和/英) デンソーアイティーラボラトリ(略称:デンソーアイティーラボラトリ)
Denso IT Laboratory, Inc.(略称:Denso IT Lab.)
発表年月日 2021-09-16
資料番号 NLC2021-13
巻番号(vol) vol.121
号番号(no) NLC-178
ページ範囲 pp.30-33(NLC),
ページ数 4
発行日 2021-09-09 (NLC)