講演抄録/キーワード |
講演名 |
2021-09-16 15:00
データ拡張による質問カテゴリ推定のためのエンティティの分散表現に関する調査 ○欅 惇志・太刀岡勇気(デンソーアイティーラボラトリ) NLC2021-13 |
抄録 |
(和) |
本研究では,エンティティ間の類似度を考慮したエンティティ置換によるデータ拡張を行う際に,適切なエンティティの分散表現の設定を明らかにすることを目指す.本研究で取り組む質問文の質問カテゴリ推定タスクにおいて,高性能なモデル構築には多様な表現を含む大量の学習データが必要となる.その際,学習用データの収集や正解カテゴリのアノテーションのコストを軽減するため,データ拡張によるデータの自動生成を行う.採用するアプローチでは,シードとなる質問中のエンティティを類似エンティティと置換することで新たな質問を生成する.このとき,類似エンティティの選定において,事前に獲得したエンティティの分散表現を用いる.自動生成された質問の品質を評価するため,質問カテゴリ分類タスクの精度評価を行った.その結果,分散表現獲得時の学習におけるエンティティの最小出現回数や分散表現の次元数によって分類性能が変化することが確認された. |
(英) |
|
キーワード |
(和) |
対話システム / データ拡張 / エンティティの分散表現 / Entity Embedding / Wikipedia2Vec / / / |
(英) |
/ / / / / / / |
文献情報 |
信学技報, vol. 121, no. 178, NLC2021-13, pp. 30-33, 2021年9月. |
資料番号 |
NLC2021-13 |
発行日 |
2021-09-09 (NLC) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NLC2021-13 |