講演抄録/キーワード |
講演名 |
2009-01-29 13:30
括弧表現に基づくWebテキストマイニングを用いた流行語への自動読み付与の提案 ○三宅純平・竹内翔大・川波弘道・猿渡 洋・鹿野清宏(奈良先端大) SP2008-126 |
抄録 |
(和) |
本論文では,ユーザの手動登録に依存しない流行語・新語などに対する自動読み付与の手法を提案する.
音声認識の大きな課題として,未知語処理が挙げられる.特に,流行語・新語は正しい読みが得られず,
未知語として扱われることが多い.
近年,流行語などの読み訂正処理として,「はてな」のようなキーワードと読みがペアで登録されている
集合知サイトを利用した読み付与による音声認識辞書の修正が提案されている.
しかしながら,集合知サイトに基づく読み付与は,匿名ユーザの手動による登録に強く依存しているため,
迅速な読みの登録やその読みの正しさが保証されないという問題がある.
そこで,括弧表現に基づくWebテキストマイニングによる読みの自動抽出及び,その読みの信頼度計算を行なうことで,
ユーザによる登録に非依存な自動読み付与の手法の提案を行なう.
評価実験では,従来手法である「はてな」を用いた読み付与と提案手法との読み付与との性能比較を行い,
提案手法は従来手法と同等またはそれ以上の性能を得ることができた.
特に一般性が著しく改善された. |
(英) |
In this paper, we propose a novel method to automatically annotate readings (kana, furigana)
to Japanese trendy words and new wordsin Kanji and so on.
In speech recognition, Out-of-Vocabulary(OOV) processing has been one of problems.
Since trendy words or new words often include OOV,
they cannot be recognized accurately even if gigantic corpus are constructed.
In a conventional method, intelligence resources from the Web are collected and
are used to update a dictionary for speech recognition.
For example, the ``Hatena keyword'' service is often used.
However, as the Internet resources such as ``Hatena'' depend on volunteers' manual registration,
correctness and rapidness of reading registration is not guaranteed.
Therefore, we propose a method to quickly and automatically obtain right readings to newest trendy words.
Our proposed method extracts reading candidates by Web text mining focused on parentheses expression
and calculates reliability of the reading.
In the evaluation experiment, the proposed method is superior to the conventional method using ``Hatena.'' |
キーワード |
(和) |
読み付与 / 括弧表現 / Webテキストマイニング / 音声認識 / 未知語処理 / / / |
(英) |
Reading annotation / Parentheses expression / Web text mining / Speech recognition / Out-of-Vocabulary processing / / / |
文献情報 |
信学技報, vol. 108, no. 422, SP2008-126, pp. 1-6, 2009年1月. |
資料番号 |
SP2008-126 |
発行日 |
2009-01-22 (SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2008-126 |