講演名 2024-03-13
日本語基盤モデルにおけるデータ拡張の適用
江良 和樹(東京都市大), 中野 秀洋(東京都市大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 近年のトピックの一つとしてデータ拡張がある. データ拡張は,教師あり学習においてその性能を改善させるために,訓練データを水増しする手法である. 画像処理の分野ではデータ拡張は標準的に用いられている. しかし,テキストデータの場合,安易にデータ拡張を行うと文意が大きく変わるため,精度低下を招く可能性がある.画像に対するデータ拡張では,ぼかしや反転,色彩変化などの操作により大量に有効な学習データを生成できるが,テキストでは,1つの単語が欠落したり,順序が少し変わるだけで文意が大きく変わってしまう.このため,拡張処理によって,精度低下の原因となるような意味をなさない文章や,属するクラスが異なる文の生成が起こりやすいと考えられる.また, 言語によって文法などが変わるため, 言語が異なる場合, 同様の効果を発揮できるとは限らない. 本論文では, Jason Wei 氏らによるEDA(Easy Data Augmentation)をもとに,1つのテキストから複数のテキストを生成することでデータの不均衡や不足に対応させる方法を検討する.
抄録(英) One of the recent topics is data augmentation. Data augmentation is a method of augmenting training data to improve the performance of supervised learning. In the field of image processing, data augmentation is a standard practice. However, in the case of text data, data augmentation can cause a significant change in the meaning of the sentence, which may lead to a loss of accuracy. While data expansion for images can generate a large amount of valid training data by operations such as blurring, inversion, and color change, for text data, a single missing word or a slight change in the order of words can drastically change the meaning of the text. Therefore, the expansion process is likely to generate sentences that make no sense or belong to different classes, which may cause accuracy loss. In addition, the effect may not be the same for different languages, since the grammar and other factors vary depending on the language. In this paper, based on Easy Data Augmentation (EDA) by Jason Wei et al., we investigate a method to deal with data imbalance or lack of data by generating multiple texts from a single text.
キーワード(和) 自然言語処理 / 基盤モデル / データ拡張
キーワード(英) natural language processing / foundation model / data augmentation
資料番号 MSS2023-84,NLP2023-136
発行日 2024-03-06 (MSS, NLP)

研究会情報
研究会 NLP / MSS
開催期間 2024/3/13(から2日開催)
開催地(和) 機械振興会館
開催地(英) Kikai-Shinko-Kaikan Bldg.
テーマ(和) MSS,NLP,一般,およびWIP(MSSのみ)
テーマ(英) MSS, NLP, etc.
委員長氏名(和) 鳥飼 弘幸(法政大) / 山口 真悟(山口大)
委員長氏名(英) Hiroyuki Torikai(Hosei Univ.) / Shingo Yamaguchi(Yamaguchi Univ.)
副委員長氏名(和) 丹治 裕一(香川大) / 宮本 俊幸(阪工大)
副委員長氏名(英) Yuichi Tanji(Kagawa Univ.) / Toshiyuki Miyamoto(Osaka Inst. of Tech.)
幹事氏名(和) 伊藤 大輔(岐阜大) / 青森 久(中京大) / 林 直樹(阪大) / 劉 健全(NEC)
幹事氏名(英) Daisuke Ito(Gifu Univ.) / Hisashi Aomori(Chukyo Univ.) / Naoki Hayashi(Osaka Univ.) / Jianquan Liui(NEC)
幹事補佐氏名(和) 山仲 芳和(宇都宮大) / 井岡 恵理(芝浦工大) / 白井 匡人(島根大)
幹事補佐氏名(英) Yoshikazu Yamanaka(Utsunomiya Univ.) / Eri Ioka(Shibaura Inst. of Tech.) / Masato Shirai(Shimane Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Nonlinear Problems / Technical Committee on Mathematical Systems Science and its Applications
本文の言語 JPN
タイトル(和) 日本語基盤モデルにおけるデータ拡張の適用
サブタイトル(和)
タイトル(英) Application of Data Augmentation in Japanese Foundation Models
サブタイトル(和)
キーワード(1)(和/英) 自然言語処理 / natural language processing
キーワード(2)(和/英) 基盤モデル / foundation model
キーワード(3)(和/英) データ拡張 / data augmentation
第 1 著者 氏名(和/英) 江良 和樹 / Kazuki Era
第 1 著者 所属(和/英) 東京都市大学(略称:東京都市大)
Tokyo City University(略称:Tokyo City Univ.)
第 2 著者 氏名(和/英) 中野 秀洋 / Hidehiro Nakano
第 2 著者 所属(和/英) 東京都市大学(略称:東京都市大)
Tokyo City University(略称:Tokyo City Univ.)
発表年月日 2024-03-13
資料番号 MSS2023-84,NLP2023-136
巻番号(vol) vol.123
号番号(no) MSS-427,NLP-428
ページ範囲 pp.66-69(MSS), pp.66-69(NLP),
ページ数 4
発行日 2024-03-06 (MSS, NLP)