講演抄録/キーワード |
講演名 |
2019-09-27 10:35
利用規約中の不公平文の自動検出 ○青山恵子・小川泰弘・駒水孝裕・外山勝彦(名大) NLC2019-8 |
抄録 |
(和) |
サービスの利用規約は条項が多く,読むのに時間がかかるため,ユーザに読み飛ばされる傾向にあることが知られている.しかし,その中には注意が必要な条項が含まれる場合があり,それに気づかずにサービスを利用しているとトラブルに発展することがある.そこで,利用規約から不公平文を自動検出するシステムを検討した.先行研究では,英語利用規約に対してSVMを用いた手法が高い性能を示している.本稿では,日本語利用規約に対してSVMを用いた既存手法とランダムフォレストを用いた手法を比較した.その結果,日本語利用規約において既存手法の性能が低下した.このことから,そこに日本語利用規約特有の問題があることを示す.また,既存手法とランダムフォレストを用いる手法が異なる分類傾向を示すことから,アンサンブル手法が有効である可能性を示す. |
(英) |
Many users skip the terms of service (ToS) since they have many sentences and take time to read. However, they may include some sentences that require attention. If users use the service without knowing them, they may get into trouble. Therefore, we examine a system that automatically detects unfair sentences from the ToS, and compare the SVM system that showed high performance in the English ToS with a random forest (RF) system. As a result of the experiment, we show the performance of the existing SVM system deteriorated for the Japanese ToS and there is a problem peculiar to the Japanese ToS. In addition, since the SVM method and the RF method show different classification tendencies, we show the possibility of their ensemble method. |
キーワード |
(和) |
自然言語処理 / 利用規約 / 自動検出 / 不均衡データ / / / / |
(英) |
Natural Language Processing / Terms of Service / Automatic Detection / Imbalanced Data / / / / |
文献情報 |
信学技報, vol. 119, no. 212, NLC2019-8, pp. 1-6, 2019年9月. |
資料番号 |
NLC2019-8 |
発行日 |
2019-09-20 (NLC) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NLC2019-8 |