テクノロジー・トレンド

【テクノロジー・トレンド】音声翻訳システム
機械を介した異言語間のコミュニケーション

山本誠一 森元逞(エイ・テイ・アール音声翻訳通信研究所)

1.はじめに
国際化の進展に伴い、翻訳システムの実現に対する期待が高まっています。ATR音声翻訳通信研究所では、自然な話し言葉を対象とした音声翻訳システム ATR-MATRIX(Multi-lingual Automatic TRanslation system for Information eXchange)を開発しました。このシステムを昨年(平成9年)11月に報道発表したところ、数多く新聞、TVに取り上げられました。筆者らも何度かTVに出るはめとなり、改めて音声翻訳技術への要望の大きさを実感しました。
音声翻訳では音声認識、言語翻訳といった要素技術以外に、異言語間でのコミュニケーションから生じる課題を解決する技術が必要となります。ここでは、音声翻訳技術の研究開発を通じ少しずつ明かとなってきた、コンピュータを介した異言語間でのコミュニケーションの課題について紹介することとします。音声翻訳システムの技術についてはその紹介のために必要な範囲で説明することとします。技術的な詳細は既発表の技術報告等をご参照下さい。

2.音声翻訳技術
音声翻訳システムは、入力された音声を認識する音声認識部、認識結果を対象言語に変換する言語翻訳部、音声として出力する音声合成部から構成されます。現在の音声認識技術、言語翻訳技術は、統計的な音声認識や用例翻訳といったコーパスベースの手法が主に使用されています。コーパスとは、収集された言語データを表す言葉です。

2.1音声認識技術
音声認識を行うには、音のモデル(これを音素モデルと呼びます)を用意しなければなりません。音声認識では、色々な人の音を収集しその違いを吸収できる統計的なモデルを用意しておき、そのモデルを用いて認識を行います。認識では、上記のような音のモデルとともに、認識すべき単語を定義した辞書と単語の並び方に関する情報を利用します。音声認識精度を良くするためには、単語の並び方に関する制約をきつくするのが良いのですが、あまりきつくすると、ほんのちょっと崩れた表現をしても、システムが認識してくれなくなります。このため、実際に人の喋った多量の文から、次に来る単語を予測する統計的な言語モデルを作成します。

2.2言語翻訳
言語翻訳部では、音声認識部から出力された認識結果を受け取り、英語への翻訳を行います。現在市販されている多くの翻訳ソフトでは、翻訳規則を人手で定義し、これに基づいて翻訳を行う方法が採用されています。例えば、「~したい」→”want to~”のような規則が定義されています。このような規則を組み合せることにより、日本語の文を英語の文に翻訳するわけです。しかし、このような方法を話し言葉に適用しようとすると、慣用的な表現や文法的に多少崩れた表現を翻訳することができなかったり、翻訳できたとしても固い訳しか作り出せない、などの問題が生じてしまいます。音声翻訳ではこのような問題を解決するため、用例を用いた翻訳機能を実現しています。用例を用いた翻訳は、入力された単語の並びに意味的に近い用例を探しだし、その対訳を利用する方法です。これにより、文法的に崩れた口語的な表現でも翻訳可能となっています。

3.コミュニケーションとしての課題
コンピュータの進歩により、大量のコーパスを収集、利用できる環境が整ってきました。その結果、音声翻訳システムが記憶している用例や認識できる単語数等から判断すると、中学生よりはずーっと高い能力を有していると考えられます。しかし、私たち人間の言語運用能力に比較して、まだ大きな弱点を抱えています。そのようなコミュニケーションとしての課題を以下に述べます。

(1)対話情報の利用
現在の音声翻訳は、一文毎に認識、翻訳処理を実行しており、前後の文脈といった対話情報を利用していません。一文を越え複数文を統計的に処理できる程には、コーパスの収集や利用技術は進んでいないためです.そのため、一文のみを取り出すと音の並び等は極めて似ているが、文脈から判断すると極めて奇妙な認識や翻訳結果が出力される場合があります。会話全体を一つのものとしてとらえ、双方向の文脈情報を認識や翻訳処理に利用する必要があります。

(2)人と人との協調動作
音声翻訳システムでは音声認識誤りやそれに起因する翻訳誤りが生じる可能性があります。人は翻訳誤りを含んだメッセージを受け取った場合、相手の話の翻訳内容と自分の発話との関連、若しくは相手の翻訳内容の談話的な繋がりからメッセージの伝達誤りの検出を行いますが、この際にメッセージの訂正をどのように支援するかも重要な課題です。これは音声翻訳システムのインターフェース設計にも依存する課題です。

(3)適切な表現の生成
現在の音声翻訳はホテルの予約といった限られた話題(ドメイン)でのみ利用可能です。そこでは表現の適切さが会話の理解に大きく影響するといったことはありません。しかし、ドメインが大きくなった場合、各言語が使用される習慣やその背後にある知識といった情報に応じて適切な表現を生成することが、会話の理解に大きく影響します。このような、言語の背景にある様々な情報をどのように利用するかが、機械を介した異言語間のコミュニケーションの今後の大きな課題であると考えています。
以上のように、人と人との異言語間での対話を支援する手段である音声翻訳システムには、技術的な側面と共に文化的な側面からも興味深い課題が多く残されています。今後このような側面を考慮して研究を進めたいと考えています。