講演抄録/キーワード |
講演名 |
2016-01-21 15:25
文章校正における共起語を用いた漢字の誤変換の検出 ○梶谷貴士・服部 峻(室蘭工大) IN2015-98 |
抄録 |
(和) |
既存の文章校正ツールによる文章中の漢字の誤変換の指摘は,予め用意された誤変換の用例と合致するか否かで判断しているものが多い.しかしながら,このような方法では,予め用意された誤変換の用例集に含まれない未知の漢字の誤変換を指摘することはできない.そこで本稿では,入力された文を形態素解析して切り出した文節ごとに変換候補を求め,各文節に対する複数の候補の中から,その文節の近傍に存在している文節群との共起性が最も高いものを選択することによって,その文章の文脈に相応しい,正しい変換を精確に導き出すシステムを提案する.文節同士の共起性の指標である共起度は,日々増大して行くWeb上のページ群を活用して算定する.また,提案システムは,多くの既存の文章校正ツールとは異なり,予め用意された誤変換の用例を使わないため,未知の漢字の誤変換に対しても検出できる可能性がある.評価実験として,文中に漢字の誤変換を必ず1つのみ含む文100個とその誤変換を正しく変換した同じ文100個を用意し,計200個の文を提案システムに入力して,漢字の誤変換の検出精度を測定した.その結果,パラメータに依って最大で62%という誤字訂正率と,一様に4%という正字誤訂正率が得られた. |
(英) |
Most of the existing tools for text proofreading detect mis-converted Chinese characters in a target text by judging based on whether or not they match the prepared example(s) of mis-conversion. However, such a method cannot detect unknown mis-converted Chinese characters that do not exist in the prepared examples of mis-conversion. Therefore, this paper proposes a novel system that extracts clauses by morphological-analyzing an input sentence, and acquires a contextualized conversion for each clause by choosing its one candidate which have the greatest co-occurrence with the surrounding clauses. The proposed system assesses the degree of the co-occurrence between clauses by using enormous pages in the exponentially-growing Web. And the system has the capability of detecting unknown mis-converted Chinese characters, because it does not have to prepare a set of examples of mis-conversion unlike most of the existing tools for text proofreading. By inputting 200 sentences of 100 sentences with only one mis-conversion and the corrected 100 sentences without the one mis-conversion to the proposed system, the evaluation experiment measures its precision of detecting mis-converted Chinese characters. As a result, the system has achieved 62% at the most for the ratio of true alarm, and 4% stably for the ratio of false alarm, depending on its parameter of the number of Web pages for assessing the co-occurrence. |
キーワード |
(和) |
誤変換検出 / 共起性 / 文章校正 / 形態素解析 / Webマイニング / / / |
(英) |
Mis-conversion Detection / Co-occurrence / Text Proofreading / Morphological Analysis / Web Mining / / / |
文献情報 |
信学技報, vol. 115, no. 405, IN2015-98, pp. 19-22, 2016年1月. |
資料番号 |
IN2015-98 |
発行日 |
2016-01-14 (IN) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
IN2015-98 |
研究会情報 |
研究会 |
IN |
開催期間 |
2016-01-21 - 2016-01-22 |
開催地(和) |
名古屋企業福祉会館 |
開催地(英) |
Nagoya Kigyou Fukushi Kaikan |
テーマ(和) |
コンテンツ配信/流通、ソーシャルネットワーク(SNS)、データ分析・処理基盤、ビッグデータ及び一般 |
テーマ(英) |
Contents Delivery/Contents Exchange, Social Networking Service (SNS), Data Analysis/Processing Platform, Big Data, etc. |
講演論文情報の詳細 |
申込み研究会 |
IN |
会議コード |
2016-01-IN |
本文の言語 |
日本語 |
タイトル(和) |
文章校正における共起語を用いた漢字の誤変換の検出 |
サブタイトル(和) |
|
タイトル(英) |
Detection of Mis-converted Chinese Characters in Text Proofreading by Co-occurrence Words |
サブタイトル(英) |
|
キーワード(1)(和/英) |
誤変換検出 / Mis-conversion Detection |
キーワード(2)(和/英) |
共起性 / Co-occurrence |
キーワード(3)(和/英) |
文章校正 / Text Proofreading |
キーワード(4)(和/英) |
形態素解析 / Morphological Analysis |
キーワード(5)(和/英) |
Webマイニング / Web Mining |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
梶谷 貴士 / Takashi Kajiya / カジヤ タカシ |
第1著者 所属(和/英) |
室蘭工業大学 (略称: 室蘭工大)
Muroran Institute of Technology (略称: Muroran Inst. of Tech.) |
第2著者 氏名(和/英/ヨミ) |
服部 峻 / Shun Hattori / ハットリ シュン |
第2著者 所属(和/英) |
室蘭工業大学 (略称: 室蘭工大)
Muroran Institute of Technology (略称: Muroran Inst. of Tech.) |
第3著者 氏名(和/英/ヨミ) |
/ / |
第3著者 所属(和/英) |
(略称: )
(略称: ) |
第4著者 氏名(和/英/ヨミ) |
/ / |
第4著者 所属(和/英) |
(略称: )
(略称: ) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2016-01-21 15:25:00 |
発表時間 |
25分 |
申込先研究会 |
IN |
資料番号 |
IN2015-98 |
巻番号(vol) |
vol.115 |
号番号(no) |
no.405 |
ページ範囲 |
pp.19-22 |
ページ数 |
4 |
発行日 |
2016-01-14 (IN) |
|