IEICE conference
進化論的計算手法の研究スタイル
伊庭 斉志 (東大)

遺伝的アルゴリズム(GA)をはじめとする進化論的手法には様々な分野が 関係する。例えば数学、コンピュータ科学、生物学、動物学、 ロボティックス、AI、物理学、経済学、哲学などである。 そのため研究者は、分子生物学、エコロジー、進化生物学、そして 集団遺伝学の世界に足を踏み入れることが奨励され、また実際に多くの 研究者がそれを実践している。 これが進化論的手法の研究スタイルの大きな特徴である。 GA研究の第一人者であるMelanie Mitchell女史は次のように述べている。 「そうした手出しはGA研究の素敵な特典である。GAが一般的な探索手法であ ると同様にGA研究者は万能選手であるべきで、自分自身の専門分野 から抜け出して有望なモデルや応用を追求するために新しい分野を 学習する意志を持つべきである。」この結果しばしば異な る専門分野の科学者との共同研究が可能となっている。 以下では、こうした研究事例としてイントロンと可変長遺伝子の話題を紹介しよう。

いろいろな生物のゲノムサイズを比べてみると興味深い事実に 気づく。ここでゲノムサイズとは、DNAの文字数(塩基対の数)のことである。 ファージ類は数千ないし数万の文字しか持たないのに対して、ヒトは30億と いう膨大な文字数を持っている。 その間に数百万塩基対の大腸菌、数千万塩基対の酵母、数億塩基対のショウジ ョウバエなどがある。 ただし生物の複雑さと文字数には完全な相関があるわけではない。 例えば、マウスはヒトとほとんど同じ文字数を持っているのに、サ ンショウウオはヒトよりはるかに多い文字数を持っている。 一倍体ゲノムあたりのDNA量は生物の種ごとに決まっており、C値 (C-value)と呼ばれている。C値は化学的にピコグラム(pg)を単位と するDNAの量として測ることもできる。 生物が複雑になるにしたがって最小ゲノムのサイズは明らかに増加している。 単細胞の真核生物のゲノムは、細菌よりは大きいがあまり著しくはない。 真核生物が必ずしも大きなゲノムサイズを持つというわけではないのである。 完全な多細胞生物ではさらにDNAの複雑さが増加しており、たとえば 線虫(C.elegans)には、8×10^7bpのDNAがある (bpは塩基対(base pair)の略。通常、DNAの長さは二本鎖の場合はbpをもとに して表され、1pg = 0.965×10^9bpなる関係が知られている)。 高等な生物では複雑さとDNA量の関係が明瞭でない。 昆虫のゲノムには少なくとも10^8bp以上、棘皮動物には4×10^8bp、 鳥類、両生類には8×10^8bp、哺乳類には2×10^9bp以上のDNAがある。 ゲノムサイズが比較的そろっているのは、鳥類、爬虫類、哺乳類などで、 サイズの広がりはそれぞれ2倍程度の中におさまっている。しかしその 広がりが10倍を超えるケースもある。 いままでに分かっている機能の数とゲノムあたりのDNA量とは対応がつかない。 これは、C値パラドックス(C-value paradox)と呼ばれている。 不思議なことは、一つの種の中でC値が大きく変動していても、見 かけの複雑さの上ではそれに見合うほどの変動が見られないことで ある。両生類ではC値が異常に広がっている。最小は10^9bp以下、 最大は10^11bpに達する。このような100倍にも及ぶ遺伝子量の 広がりが両生類の種の決定に必要であるとは考えられない。 その上、ごく近い種の間でもゲノムサイズが驚くほど違うケースや、 形態学的にはよく似ているのにDNAの量が10倍も違う例もある。 遺伝子の数があまり変わらないのならば、大きいサイズのゲノムのDNAは ほとんどタンパク質をコードしていないことになる。 それならば、こうした大量のコード化しないDNAは何のために存在するのであろうか? 真核生物の遺伝子はタンパクをコードするのに必要な塩基配列よりもずっと 大量のDNAを持っているのである。 このように、C値のパラドックスは、「タンパクをコードするのに必要な 量よりもはるかに過剰のDNAが存在するのはなぜか」という問題と密接に関係している。

このように、DNAには明らかに遺伝子となっていない部分も多く、 意味の分からない配列も多い。 ヒトの場合は10万種類の遺伝子が全DNAの中に書き込まれていると 考えられている。ヒトの遺伝子の10%程度(3%という説もある)が実際の タンパク質をコードしているが、大半の意味はまだはっきりしていない。 DNA量の少ない単細胞生物のDNA配列の場合は、ほとんど無駄なくアミノ酸配列に 変換される。一方、ヒトなど高等生物ではその割合は数%程度でしかない。 まだ意味の分からない配列を含めて、アミノ酸配列に対応しない部分が 多いのである。サンショウウオの方がヒトよりはるかにDNA量が大きいと いうのは、おそらくタンパク質に対応するDNA配列の割合がずっと少ないからであろう。

RNAへの転写はDNAの複製と似ているが、転写では、

という点が異なり、より複雑となっている。 転写の最初の段階では、DNAを鋳型として相補的なRNAが作られる。 DNAとRNAは分子の種類としてはほとんど同じであり、塩基対の相補性も成り 立つ(ただし、4種類の塩基のうち、DNAのチミンがRNAではウラシルに変わって いる)。出来あがったRNAには、エクソンとイントロンという二つの部分があり 交互に並んでいる。 そして、次のスプライシング過程でイントロン部分だけが切り離され、 エクソンだけがつながったメッセンジャーRNAができるのである。

では、GAにイントロンの考えを導入することにどのような有利な点があるのであろうか?  1つの参考となるアイディアにグールドの進化仮説がある。彼は、エクソンに対する突然変異率が イントロンに対する突然変異率よりも大きいことに注目した。 この要因は、イントロンへの突然変異は選択で影響を受けないが、エ クソンへの突然変異は一般に有害であり選択で生き 残らないからであると思われる。 これをもとにして、彼は進化における選択を変化の力ではなく保存のための力とする考えを提唱している。

イントロンをGAの遺伝子に導入することで、実際に探索効率が上昇する という研究成果がいくつか報告されている。 これはGAにおける交叉(遺伝子の組み合わせによる合成操作)から 重要な部分構造を保護するからである。 さらに効果的にイントロンを組み込むことでGAにおける 生殖に役立つ表現を獲得することができる。 しかしながら、かならずしもイントロンが全ての問題において 効率化を促すわけではない。イントロンが有効な 問題にはある種のクラスがあるようだ。 このような事実は、上で述べたような実際の生物のDNAの複雑さと類似しるようで非常に興味深い。 こうした研究を中心にして、イントロンについてのワークショップが昨年のGAの国際会議で開催され活発な議論がなされた。 また関連して可変長遺伝子のワークショップも行われ、その成果をも とに国際的な論文誌での特別号が出版されることになっている。 今後はこれらのテーマをもとにして、GAや他の進化論的手法がさらに 進展するものと期待される。

以上の例から、GAの分野では学際的な研究がいかに大切であるかが分かるであろう。

GAと進化論的計算手法に関して、将来の重要な研究課題になると思われるものをいくつかあげておこう。筆者らは このいくつかを研究中であり、 内容が充実した段階で報告する機会があることを期待している。

  1. 生物学からの最近の成果の導入
    免疫系や発達系をはじめとした生態学、生理学などの研究成果を取り入れて、情報科学と生物学の統合をはかる。
  2. 進化学の知見の導入
    いまだ議論の決着を見ていないものもあるが、進化論の最新の理論、例えばグールドの段階平衡仮説、ボールドウィン効果、構造主義生物学などを取り入れた進化論的な計算手法を確立する。
  3. AlifeとBlife
    人工生命(Alife)と実際の生物(Biological Life)の統合的な研究。従来の研究の流れはBlifeからAlifeへの一方通行であったが、双方向の交流をはかる。
  4. GAの理論的基盤の確立
    特に、統計力学、確率過程論、複雑系の数学などにより進化論的な手法の集団的な振る舞いを解析する。

このうち特にAlifeとBlifeの点に関連して、 昨年筆者はガラパゴス諸島のチャールスダーウィン研究所(Charles Darwin Research Station)を訪問し、 貴重な知見を得ている。 そもそも進化論が学問として批判されるのは、進化という現象が一回限りで しかも人間の寿命を越えたはるかに長いタイムスケールの事象であるため 検証可能な理論を構築しにくいことにある。 それに対して最近の研究で扱われた「進化」は、 数年の間に起こり人間が観察可能なものである。 実際の生物の進化とその精密なデータを解析することで、単なる シミュレーションにとどまらない人工生命研究(Alife)と生物学研究(Blife)の 統合が期待される。この詳細は「情報処理」の解説(98年1月号)を参照されたい。

振り返って見れば、この7,8年の間に進化論的手法の研究は飛躍的に 進展した。数多くの実際的応用が生まれ、遺伝的プログラミング、 人工生命などの関連する分野も成立している。 筆者が進化論的手法と出会ったのは1989年のことである。 それは博士課程を修了し、電子技術総合研究所に入所した時期と前後する。 所属の推論研究室ではGAを研究するのは筆者ただ一人であり、 他はエキスパートシステム、帰納論理推論、ゲームプログラム、 類推、機械学習、数式処理、概念学習の専門家など多士済々であった。 進化論的手法では他の様々な分野との学際的な研究が必要不可欠である。 GAの探索では「集団の多様性」を重んじるのを考えると、これは当然の帰結であろう。 従って、電総研における同僚との切磋琢磨、つまり 「研究集団の多様性」に多大の恩恵を受けたと思っている。 私事ではあるがこの3月で電総研を辞して新天地に移るという事情もあり、 電総研の研究集団の構成メンバーであった方々全員に深く謝意を表してこの ニュースレターの結びとさせて頂きたい。

東京大学大学院工学系研究科電子情報工学専攻
助教授 伊庭斉志