講演抄録/キーワード |
講演名 |
2022-03-07 15:50
疑似データ獲得による直喩文判定手法と分類モデルの考察 ○自見仁太朗・嶋田和孝(九工大) NLC2021-36 |
抄録 |
(和) |
比喩の一種である直喩は,``ような''などの定型語 (喩詞)により比喩の対象を明示する表現である.
しかし,喩詞として用いられる``ような''という語は,例示や婉曲の意味でも使用されるため,使われ方によって文意が大きく異なる.このような文を判別することは,文章を理解するうえで重要となる.
一般に,比喩検出を分類問題として機械学習で解くという方法が考えられる.しかし,機械学習でこのタスクを行うためには直喩文と非直喩文それぞれの大量のテキストデータが訓練データとして必要になる.
そして,これらのデータセットを人手で作成するには大きなコストがかかる.
そこで,本研究ではデータセットの自動獲得とそのデータセットを用いた直喩文判定モデルについて提案する.対象は ``のような''と ``のように''を含む文とし,直喩文判定を直喩文か非直喩文に分類する二値分類問題として定義する.
実験では獲得したデータセットを用いて複数のモデルで直喩文判定に取り組み,本タスクへの有効性を確認した. |
(英) |
Simile is a kind of figurative language.
It expresses the target of the figurative language by using comparators such as ``like''.
For understanding a sentence, it is important to distinguish whether the sentence is a simile or a literal.
In this paper, we propose a pseudo dataset acquisition method for simile identification.
We first constructed a dataset of simile and literal sentences using machine translation.
Next, we define the simile identification task as a binary classification problem.
We apply some machine learning approaches to the task.
We show the validity of the pseudo dataset and the models in this task. |
キーワード |
(和) |
直喩文判定 / 疑似データ / 訓練データ自動獲得 / 比喩 / / / / |
(英) |
simile identification / pseudo data / automatic training data acquisition / figurative language / / / / |
文献情報 |
信学技報, vol. 121, no. 415, NLC2021-36, pp. 48-53, 2022年3月. |
資料番号 |
NLC2021-36 |
発行日 |
2022-02-28 (NLC) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NLC2021-36 |