講演抄録/キーワード |
講演名 |
2019-02-08 13:00
[特別講演]製品利用可能な形態素解析器『Sudachi』の現状と今後 ○内田佳孝(ワークスアプリケーションズ) NLC2018-46 |
抄録 |
(和) |
形態素解析は日本語テキストを処理する製品においては基本的かつ重要な技術である.しかし,既存の形態素解析器をそのまま製品利用しようとすると単語単位の不一致,表記揺れ,辞書の鮮度など様々な問題に直面する.我々はこれらの問題を改善するために形態素解析器『Sudachi』を開発し,Open Source Software として公開,企業として継続的な改善・保守を続けている.本発表ではSudachiの特徴,現在の開発状況および今後の開発計画について紹介する. |
(英) |
Morphological analysis is a fundamental and important technology for processing a Japanese text, especially for industrial applications. However, we often face many obstacles, such as the inconsistency of token unit in different resources, notation variations, discontinued maintenance of the resources, and various issues with the existing tokenizer implementations. In order to improve this situation, we develop a morphological analyer called Sudachi, release as an open source software, and continuously maintain in long-term as a part of the company business. Here we introduce the features of Sudachi, current status and future plan. |
キーワード |
(和) |
形態素解析 / Open Source Software / / / / / / |
(英) |
Tokenization / Morphological Analysis / Segmentation / Part-of-Speech Tagging / Open Source Software / / / |
文献情報 |
信学技報, vol. 118, no. 439, NLC2018-46, pp. 59-59, 2019年2月. |
資料番号 |
NLC2018-46 |
発行日 |
2019-01-31 (NLC) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NLC2018-46 |