講演名 2014/6/18
文字列の距離空間上の最大マージン識別器とそのタンパク質科学への応用(機械学習によるバイオデータマインニング,一般)
小谷野 仁, 林田 守広, 阿久津 達也,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) これまでデータと言えば,数や数ベクトルが大部分を占めていたが,近年,計算機科学や生物学において,テキストデータや生物配列など,大量の文字列データが生成されるようになり,文字列データの分類問題は,様々な領域に共通の問題となっている.この問題に対して現在最もよく用いられている方法は,文字列カーネルによって文字列を数ベクトルに変換し,それにサポートベクターマシーンを適用することである.しかし,この変換は1対1ではなく,文字列を構成する文字の並びに関するかなりの量の情報を捨ててしまう.また,この接近法のより重要な問題は,学習機械を訓練し,テストするために与えられたデータはある確率法則に従って生成された文字列であるという重要な側面を考慮し,確率論を用いて学習機械の汎化誤差を理論的に評価することを不可能にしていることである.なぜ,文字列データを分類するために,それを数ベクトルに変換し,数ベクトル空間上で動作する学習機械を用いるのだろうか.文字列を分類するには,文字列の集合上で動作する学習機械を用いるのが自然だろう.我々は,文字列を数ベクトルに変換せずに,文字列自体を入力として受け取る学習機械を構築することにより,この分類問題に接近した.このような学習機械の汎化誤差を理論的に評価するには,文字列に対する確率論が必要である.文字列は,これまで,数学の対象というよりは,計算機科学の対象であり,文字列の集合に位相構造や代数構造を与えて,その上で確率論を展開するということはなされてこなかったが,著者等のうちの1人と彼の共同研究者は,以前の研究において,Levenshtein距離が与えられた文字列の距離空間上で確率論を展開して,ベクトル空間における大数強法則の,この空間におけるアナロジーを証明した.この研究において,我々は,この文字列の集合上の確率論を応用することにより,ある正則条件の下で,我々の学習機械が漸近的に最適な仕方で文字列を分類することを証明した.更に,我々の学習機械を,アミノ酸配列を用いたタンパク質間相互作用の予測問題に応用して,実際のデータ解析におけるその有用性を示した.
抄録(英) Numbers and numerical vectors account for a large portion of data. However, recently, the amount of string data generated has increased dramatically. Consequently, classifying string data is a common problem in many fields. The most widely used approach to this problem is to convert strings into numerical vectors using string kernels and subsequently apply a support vector machine that works in a numerical vector space. However, this non-one-to-one conversion involves information loss and makes it impossible to evaluate, using probability theory, the generalization error of a learning machine, considering that the given data to train and test the machine are strings generated according to probability laws. We approach this classification problem by constructing a classifier that receives the strings themselves as inputs. To evaluate the generalization error of such a classifier theoretically, probability theory for strings is required. A string is an object of computer science rather than mathematics, and probability theory for strings has not been constructed. However, one of the authors and his colleague, in previous studies, first developed a probability theory on a metric space of strings provided with the Levenshtein distance and demonstrated an analogy of the strong law of large numbers in a numerical vector space. In this study, by applying this probability theory on a set of strings, we demonstrate that our developed learning machine classifies strings in an asymptotically optimal manner. Furthermore, we demonstrate the usefulness of our machine in practical data analysis by applying it to predicting protein-protein interactions using amino acid sequences.
キーワード(和) 文字列の分類 / 機械学習 / 文字列の距離空間上の確率論 / タンパク質間相互作用の予測
キーワード(英) Classifying strings / machine learning / probability theory on a metric space of strings / predicting protein-protein interactions
資料番号 Vol.2014-MPS-98 No.13,Vol.2014-BIO-38 No.13
発行日

研究会情報
研究会 NC
開催期間 2014/6/18(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Neurocomputing (NC)
本文の言語 JPN
タイトル(和) 文字列の距離空間上の最大マージン識別器とそのタンパク質科学への応用(機械学習によるバイオデータマインニング,一般)
サブタイトル(和)
タイトル(英) Maximum Margin Classifier Working in a Metric Space of Strings and Its Application to Protein Science
サブタイトル(和)
キーワード(1)(和/英) 文字列の分類 / Classifying strings
キーワード(2)(和/英) 機械学習 / machine learning
キーワード(3)(和/英) 文字列の距離空間上の確率論 / probability theory on a metric space of strings
キーワード(4)(和/英) タンパク質間相互作用の予測 / predicting protein-protein interactions
第 1 著者 氏名(和/英) 小谷野 仁 / HITOSHI KOYANO
第 1 著者 所属(和/英) 京都大学大学院医学研究科臨床研究総合センター
Institute for Advancement of Clinical and Translational Science, Graduate School of Medicine, Kyoto University
第 2 著者 氏名(和/英) 林田 守広 / MORIHIRO HAYASHIDA
第 2 著者 所属(和/英) 京都大学化学研究所バイオインフォマティクスセンター
Bioinformatics Center, Institute for Chemical Research, Kyoto University
第 3 著者 氏名(和/英) 阿久津 達也 / TATSUYA AKUTSU
第 3 著者 所属(和/英) 京都大学化学研究所バイオインフォマティクスセンター
Bioinformatics Center, Institute for Chemical Research, Kyoto University
発表年月日 2014/6/18
資料番号 Vol.2014-MPS-98 No.13,Vol.2014-BIO-38 No.13
巻番号(vol) vol.114
号番号(no) 104
ページ範囲 pp.-
ページ数 8
発行日