講演名 2013-01-30
相互情報量を用いた辞書自動生成に基づく中国語ピンインから文字への変換の改善に関する検討(一般セッション,音声・言語・対話,一般)
張 勤松, 李 偉, 王 暁芸, 西田 昌史, 山本 誠一,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 中国語音声の正式な音韻表記体系はピンインというものである。ピンインから文字への変換(P2C)は、キーボードを介して、最も自然にコンピュータへ文字を入力することを意味している。実際に、ピンインと文字のマッピングが複雑なため、入力されたピンイン列から正しい文字への変換が困難である。本研究は、テキストとピンインの相互情報量(MI)を用いた学習テキストコーパスの単語分割により、辞書とn-gram言語モデルを構築する新たな手法を提案した。最適化処理を繰り返した後に、これらはP2C変換システムを実現するために適用できる。我々は、手動で作成した辞書とパープレキシティに基づく辞書をべ一スラインとして提案手法との比較を行うために、新聞コーパスを用いてP2Cシステムを構築した。すべてのシステムの言語モデルはb1-gramを用いた。実験の結果、我々のシステムはそれぞれのべースラインに対して文字の変換誤りで19.7%、10.3%の削減率が得られ、提案手法の有効性が明らかになった。
抄録(英) Pinyin refers to the official phonological script of Putonghua Chinese. Pinyin-to-character (P2C) conversion means converting Pinyin to Chinese characters automatically, which is the most natural way to input Chinese characters into a computer through keyboard. Due to the fact that the mapping between Pinyin and characters is multiple versus multiple, the conversion is frequently accompanied with some errors in real applications. This paper presents a new idea to use the mutual information (MI) between text and its Pinyin to get a word segmentation of the training text corpus, then collect a lexicon and build an n-gram language model. After iteratively optimization, they can be applied torealizing a P2C conversion system. We developed a P2C system using newspaper corpus, and two other baseline systems for comparisonusing handcrafted lexicon and perplexity based optimized lexicon. All the three systems used bigram LMs. Preliminary experimental results showed that our system got relatively 19.7% and 10.3% error reductionsover the two baseline ones on testing corpus respectively. This proved the efficiency of our proposal.
キーワード(和) 相互情報量 / ピンインから文字への変換 / 言語モデル
キーワード(英) Mutual information / Pinyin-to-Character Conversion / Language model
資料番号 SP2012-98
発行日

研究会情報
研究会 SP
開催期間 2013/1/23(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 ENG
タイトル(和) 相互情報量を用いた辞書自動生成に基づく中国語ピンインから文字への変換の改善に関する検討(一般セッション,音声・言語・対話,一般)
サブタイトル(和)
タイトル(英) A Preliminary Investigation on Improving Chinese Pinyin-to-Character Conversion Using MI Based Automatic Lexical Formation
サブタイトル(和)
キーワード(1)(和/英) 相互情報量 / Mutual information
キーワード(2)(和/英) ピンインから文字への変換 / Pinyin-to-Character Conversion
キーワード(3)(和/英) 言語モデル / Language model
第 1 著者 氏名(和/英) 張 勤松 / Jinsong ZHANG
第 1 著者 所属(和/英) 北京語言大学:情報通信研究機構(独)
Beijing Language and Culture University
第 2 著者 氏名(和/英) 李 偉 / Wei LI
第 2 著者 所属(和/英) 北京語言大学
NICT
第 3 著者 氏名(和/英) 王 暁芸 / Xiaoyun WANG
第 3 著者 所属(和/英) 同志社大学理工学部
Faculty of Science and Engineering, Doshisha University
第 4 著者 氏名(和/英) 西田 昌史 / Masafumi NISHIDA
第 4 著者 所属(和/英) 同志社大学理工学部
Faculty of Science and Engineering, Doshisha University
第 5 著者 氏名(和/英) 山本 誠一 / Seiichi YAMAMOTO
第 5 著者 所属(和/英) 同志社大学理工学部
Faculty of Science and Engineering, Doshisha University
発表年月日 2013-01-30
資料番号 SP2012-98
巻番号(vol) vol.112
号番号(no) 422
ページ範囲 pp.-
ページ数 5
発行日