講演名 | 2020-09-10 chiVe: 製品利用可能な日本語単語ベクトル資源の実現へ向けて 久本 空海(ワークス), 山村 崇(ワークス), 勝田 哲弘(ワークス), 竹林 佑斗(ワークス), 高岡 一馬(ワークス), 内田 佳孝(ワークス), 岡 照晃(国立国語研), 浅原 正幸(国立国語研), |
---|---|
PDFダウンロードページ | ![]() |
抄録(和) | 事前学習された単語分散表現(単語埋め込み、単語ベクトル)は、自然言語処理において重要な言語資源である。しかし特に日本語では、実用において使い勝手の良いリソースは少ない。我々の取り組む chiVe (チャイブ)は、形態素解析器 Sudachi による複数粒度分割を活用し、100億語規模コーパス NWJC をもとに学習した単語分散表現である。この資源は商用利用可能なライセンスのもと一般公開している( https://github.com/WorksApplications/chiVe )。本稿ではその概要と、その改良へ向けた取り組み、特に、未知語対応、同義語辞書の活用、そしてドメイン適用について解説する。 |
抄録(英) | Pretrained word embeddings (word vectors, distributed representations) are fundamental and important components for recent neural network based natural language processing. However, there are not many resources available for Japanese language that is useful for the practical purpose. “chiVe” is our attempt to construct useful word embedding resource, using morphological analyzer “Sudachi” that provides multi-granular tokenization results, and 10 billion words scale corpus “NWJC”. We made this resource publicly available under Apache 2.0 license that allows commercial usage ( https://github.com/WorksApplications/chiVe ). In this article, we describe the overview of the project, and introduce our ongoing work to further improve the resources which includes handling Out-of-Vocabulary words, utilizing the synonym resources, and adapting to specific domains. |
キーワード(和) | 分散表現 / 形態素解析 / 未知語 / 同義語 / ドメイン適用 |
キーワード(英) | Distributed Representation / Morphological Analysis / Out-of-Vocabulary / Synonym / Domain Adaptation |
資料番号 | NLC2020-9 |
発行日 | 2020-09-03 (NLC) |
研究会情報 | |
研究会 | NLC |
---|---|
開催期間 | 2020/9/10(から1日開催) |
開催地(和) | オンライン開催 |
開催地(英) | Online |
テーマ(和) | 第16回テキストアナリティクス・シンポジウム |
テーマ(英) | The Sixteenth Text Analytics Symposium |
委員長氏名(和) | 嶋田 和孝(九工大) |
委員長氏名(英) | Kazutaka Shimada(Kyushu Inst. of Tech.) |
副委員長氏名(和) | 吉田 光男(豊橋技科大) / 小早川 健(NHK) |
副委員長氏名(英) | Mitsuo Yoshida(Toyohashi Univ. of Tech.) / Takeshi Kobayakawa(NHK) |
幹事氏名(和) | 坂地 泰紀(東大) / 石野 亜耶(広島経済大) |
幹事氏名(英) | Hiroki Sakaji(Univ. of Tokyo) / Aya Ishino(Hiroshima Univ. of Economics) |
幹事補佐氏名(和) | 高橋 寛治(Sansan) / 光田 航(NTT) |
幹事補佐氏名(英) | Kanjin Takahashi(Sansan) / Ko Mitsuda(NTT) |
講演論文情報詳細 | |
申込み研究会 | Technical Committee on Natural Language Understanding and Models of Communication |
---|---|
本文の言語 | JPN |
タイトル(和) | chiVe: 製品利用可能な日本語単語ベクトル資源の実現へ向けて |
サブタイトル(和) | 形態素解析器Sudachiと超大規模ウェブコーパスNWJCによる分散表現の獲得と改良 |
タイトル(英) | chiVe: Towards Industrial-strength Japanese Word Vector Resources |
サブタイトル(和) | Constructing and Improving Embedding with Tokenizer "Sudachi" and Ultra-large-scale Web-based Corpus "NWJC" |
キーワード(1)(和/英) | 分散表現 / Distributed Representation |
キーワード(2)(和/英) | 形態素解析 / Morphological Analysis |
キーワード(3)(和/英) | 未知語 / Out-of-Vocabulary |
キーワード(4)(和/英) | 同義語 / Synonym |
キーワード(5)(和/英) | ドメイン適用 / Domain Adaptation |
第 1 著者 氏名(和/英) | 久本 空海 / Sorami Hisamoto |
第 1 著者 所属(和/英) | ワークスアプリケーションズ(略称:ワークス) Works Applications(略称:WAP) |
第 2 著者 氏名(和/英) | 山村 崇 / Takashi Yamamura |
第 2 著者 所属(和/英) | ワークスアプリケーションズ(略称:ワークス) Works Applications(略称:WAP) |
第 3 著者 氏名(和/英) | 勝田 哲弘 / Akihiro Katsuta |
第 3 著者 所属(和/英) | ワークスアプリケーションズ(略称:ワークス) Works Applications(略称:WAP) |
第 4 著者 氏名(和/英) | 竹林 佑斗 / Yuto Takebayashi |
第 4 著者 所属(和/英) | ワークスアプリケーションズ(略称:ワークス) Works Applications(略称:WAP) |
第 5 著者 氏名(和/英) | 高岡 一馬 / Kazuma Takaoka |
第 5 著者 所属(和/英) | ワークスアプリケーションズ(略称:ワークス) Works Applications(略称:WAP) |
第 6 著者 氏名(和/英) | 内田 佳孝 / Yoshitaka Uchida |
第 6 著者 所属(和/英) | ワークスアプリケーションズ(略称:ワークス) Works Applications(略称:WAP) |
第 7 著者 氏名(和/英) | 岡 照晃 / Teruaki Oka |
第 7 著者 所属(和/英) | 国立国語研究所(略称:国立国語研) National Institute for Japanese Language and Linguistics(略称:NINJAL) |
第 8 著者 氏名(和/英) | 浅原 正幸 / Masayuki Asahara |
第 8 著者 所属(和/英) | 国立国語研究所(略称:国立国語研) National Institute for Japanese Language and Linguistics(略称:NINJAL) |
発表年月日 | 2020-09-10 |
資料番号 | NLC2020-9 |
巻番号(vol) | vol.120 |
号番号(no) | NLC-166 |
ページ範囲 | pp.40-45(NLC), |
ページ数 | 6 |
発行日 | 2020-09-03 (NLC) |