講演名 2017-03-07
遺伝子発現データ解析のためのトピックモデル
岩山 幸治(龍谷大), 永野 惇(龍谷大/京大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) DNA上の遺伝子が,転写,翻訳などを経てその機能を果たすことを発現といい,その過程で生成される転写産物を定量することで各遺伝子の働き具合を知ることができる.転写産物であるRNAの配列情報を次世代シーケンサを用いて決定することで遺伝子発現を網羅的に定量するRNA-Seq法には,読んだ配列の数が多いほどノイズの少ない質の高いデータが得られる反面,コストが上がるために扱えるサンプルの数が減るというトレードオフが存在する.本研究では,自然言語処理に用いられるトピックモデルを元に,RNA-Seqのデータのための新しいモデルを提案する.提案モデルでは,RNA-Seqデータの過分散を説明するために,単語あるいは遺伝子の生成分布に多項分布ではなく負の二項分布を用いる.シミュレーションで生成したRNA-Seqの模擬データに提案モデルを適用することで,提案モデルが総リード数の少ないデータからでも発現量を精度よく推定できることを示す.
抄録(英) The process, by which gene is used in the synthesis of a gene product through transcription and translation, is called expression. We can quantify gene expression by measuring the quantity of the gene transcription generated in this process. RNA-Seq allows a comprehensive gene expression using next-generation sequencing. Although higher sequencing depth can more accurately quantify gene expression, the number of samples is restricted by the higher cost. In this study, we proposed the new model for RNA-Seq data based on the topic model, which is mainly used in the field of natural language processing. In the proposed model, we use a negative binomial distribution rather than a multinomial distribution for generating words or genes. We applied the model to synthetic RNA-Seq data and demonstrated that the proposed model can precisely estimate true gene expression from RNA-Seq data with lower sequencing depth.
キーワード(和) トピックモデル / 遺伝子発現 / RNA-Seq / 負の二項分布
キーワード(英) topic model / gene expression / RNA-Seq / negative binomial distribution
資料番号 IBISML2016-110
発行日 2017-02-27 (IBISML)

研究会情報
研究会 IBISML
開催期間 2017/3/6(から2日開催)
開催地(和) 東京工業大学
開催地(英) Tokyo Institute of Technology
テーマ(和) 統計数理,機械学習,データマイニング,一般
テーマ(英) Statistical Mathematics, Machine Learning, Data Mining, etc.
委員長氏名(和) 福水 健次(統計数理研)
委員長氏名(英) Kenji Fukumizu(ISM)
副委員長氏名(和) 杉山 将(東大) / 鹿島 久嗣(京大)
副委員長氏名(英) Masashi Sugiyama(Univ. of Tokyo) / Hisashi Kashima(Kyoto Univ.)
幹事氏名(和) 津田 宏治(東大) / 竹内 一郎(名工大)
幹事氏名(英) Koji Tsuda(Univ. of Tokyo) / Ichiro Takeuchi(Nagoya Inst. of Tech.)
幹事補佐氏名(和) 神嶌 敏弘(産総研) / 岩田 具治(NTT)
幹事補佐氏名(英) Toshihiro Kamishima(AIST) / Tomoharu Iwata(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Infomation-Based Induction Sciences and Machine Learning
本文の言語 JPN
タイトル(和) 遺伝子発現データ解析のためのトピックモデル
サブタイトル(和)
タイトル(英) Topic model for analysis of gene expression data
サブタイトル(和)
キーワード(1)(和/英) トピックモデル / topic model
キーワード(2)(和/英) 遺伝子発現 / gene expression
キーワード(3)(和/英) RNA-Seq / RNA-Seq
キーワード(4)(和/英) 負の二項分布 / negative binomial distribution
第 1 著者 氏名(和/英) 岩山 幸治 / Koji Iwayama
第 1 著者 所属(和/英) 龍谷大学(略称:龍谷大)
Ryukoku University(略称:Ryukoku Univ.)
第 2 著者 氏名(和/英) 永野 惇 / Atsushi J. Nagano
第 2 著者 所属(和/英) 龍谷大学/京都大学(略称:龍谷大/京大)
Ryukoku University/Kyoto University(略称:Ryukoku Univ./Kyoto Univ.)
発表年月日 2017-03-07
資料番号 IBISML2016-110
巻番号(vol) vol.116
号番号(no) IBISML-500
ページ範囲 pp.77-82(IBISML),
ページ数 6
発行日 2017-02-27 (IBISML)