講演名 2020-09-10
chiVe: 製品利用可能な日本語単語ベクトル資源の実現へ向けて
久本 空海(ワークス), 山村 崇(ワークス), 勝田 哲弘(ワークス), 竹林 佑斗(ワークス), 高岡 一馬(ワークス), 内田 佳孝(ワークス), 岡 照晃(国立国語研), 浅原 正幸(国立国語研),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 事前学習された単語分散表現(単語埋め込み、単語ベクトル)は、自然言語処理において重要な言語資源である。しかし特に日本語では、実用において使い勝手の良いリソースは少ない。我々の取り組む chiVe (チャイブ)は、形態素解析器 Sudachi による複数粒度分割を活用し、100億語規模コーパス NWJC をもとに学習した単語分散表現である。この資源は商用利用可能なライセンスのもと一般公開している( https://github.com/WorksApplications/chiVe )。本稿ではその概要と、その改良へ向けた取り組み、特に、未知語対応、同義語辞書の活用、そしてドメイン適用について解説する。
抄録(英) Pretrained word embeddings (word vectors, distributed representations) are fundamental and important components for recent neural network based natural language processing. However, there are not many resources available for Japanese language that is useful for the practical purpose. “chiVe” is our attempt to construct useful word embedding resource, using morphological analyzer “Sudachi” that provides multi-granular tokenization results, and 10 billion words scale corpus “NWJC”. We made this resource publicly available under Apache 2.0 license that allows commercial usage ( https://github.com/WorksApplications/chiVe ). In this article, we describe the overview of the project, and introduce our ongoing work to further improve the resources which includes handling Out-of-Vocabulary words, utilizing the synonym resources, and adapting to specific domains.
キーワード(和) 分散表現 / 形態素解析 / 未知語 / 同義語 / ドメイン適用
キーワード(英) Distributed Representation / Morphological Analysis / Out-of-Vocabulary / Synonym / Domain Adaptation
資料番号 NLC2020-9
発行日 2020-09-03 (NLC)

研究会情報
研究会 NLC
開催期間 2020/9/10(から1日開催)
開催地(和) オンライン開催
開催地(英) Online
テーマ(和) 第16回テキストアナリティクス・シンポジウム
テーマ(英) The Sixteenth Text Analytics Symposium
委員長氏名(和) 嶋田 和孝(九工大)
委員長氏名(英) Kazutaka Shimada(Kyushu Inst. of Tech.)
副委員長氏名(和) 吉田 光男(豊橋技科大) / 小早川 健(NHK)
副委員長氏名(英) Mitsuo Yoshida(Toyohashi Univ. of Tech.) / Takeshi Kobayakawa(NHK)
幹事氏名(和) 坂地 泰紀(東大) / 石野 亜耶(広島経済大)
幹事氏名(英) Hiroki Sakaji(Univ. of Tokyo) / Aya Ishino(Hiroshima Univ. of Economics)
幹事補佐氏名(和) 高橋 寛治(Sansan) / 光田 航(NTT)
幹事補佐氏名(英) Kanjin Takahashi(Sansan) / Ko Mitsuda(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Natural Language Understanding and Models of Communication
本文の言語 JPN
タイトル(和) chiVe: 製品利用可能な日本語単語ベクトル資源の実現へ向けて
サブタイトル(和) 形態素解析器Sudachiと超大規模ウェブコーパスNWJCによる分散表現の獲得と改良
タイトル(英) chiVe: Towards Industrial-strength Japanese Word Vector Resources
サブタイトル(和) Constructing and Improving Embedding with Tokenizer "Sudachi" and Ultra-large-scale Web-based Corpus "NWJC"
キーワード(1)(和/英) 分散表現 / Distributed Representation
キーワード(2)(和/英) 形態素解析 / Morphological Analysis
キーワード(3)(和/英) 未知語 / Out-of-Vocabulary
キーワード(4)(和/英) 同義語 / Synonym
キーワード(5)(和/英) ドメイン適用 / Domain Adaptation
第 1 著者 氏名(和/英) 久本 空海 / Sorami Hisamoto
第 1 著者 所属(和/英) ワークスアプリケーションズ(略称:ワークス)
Works Applications(略称:WAP)
第 2 著者 氏名(和/英) 山村 崇 / Takashi Yamamura
第 2 著者 所属(和/英) ワークスアプリケーションズ(略称:ワークス)
Works Applications(略称:WAP)
第 3 著者 氏名(和/英) 勝田 哲弘 / Akihiro Katsuta
第 3 著者 所属(和/英) ワークスアプリケーションズ(略称:ワークス)
Works Applications(略称:WAP)
第 4 著者 氏名(和/英) 竹林 佑斗 / Yuto Takebayashi
第 4 著者 所属(和/英) ワークスアプリケーションズ(略称:ワークス)
Works Applications(略称:WAP)
第 5 著者 氏名(和/英) 高岡 一馬 / Kazuma Takaoka
第 5 著者 所属(和/英) ワークスアプリケーションズ(略称:ワークス)
Works Applications(略称:WAP)
第 6 著者 氏名(和/英) 内田 佳孝 / Yoshitaka Uchida
第 6 著者 所属(和/英) ワークスアプリケーションズ(略称:ワークス)
Works Applications(略称:WAP)
第 7 著者 氏名(和/英) 岡 照晃 / Teruaki Oka
第 7 著者 所属(和/英) 国立国語研究所(略称:国立国語研)
National Institute for Japanese Language and Linguistics(略称:NINJAL)
第 8 著者 氏名(和/英) 浅原 正幸 / Masayuki Asahara
第 8 著者 所属(和/英) 国立国語研究所(略称:国立国語研)
National Institute for Japanese Language and Linguistics(略称:NINJAL)
発表年月日 2020-09-10
資料番号 NLC2020-9
巻番号(vol) vol.120
号番号(no) NLC-166
ページ範囲 pp.40-45(NLC),
ページ数 6
発行日 2020-09-03 (NLC)