講演抄録/キーワード |
講演名 |
2017-03-07 13:30
遺伝子発現データ解析のためのトピックモデル ○岩山幸治(龍谷大)・永野 惇(龍谷大/京大) IBISML2016-110 |
抄録 |
(和) |
DNA上の遺伝子が,転写,翻訳などを経てその機能を果たすことを発現といい,その過程で生成される転写産物を定量することで各遺伝子の働き具合を知ることができる.転写産物であるRNAの配列情報を次世代シーケンサを用いて決定することで遺伝子発現を網羅的に定量するRNA-Seq法には,読んだ配列の数が多いほどノイズの少ない質の高いデータが得られる反面,コストが上がるために扱えるサンプルの数が減るというトレードオフが存在する.本研究では,自然言語処理に用いられるトピックモデルを元に,RNA-Seqのデータのための新しいモデルを提案する.提案モデルでは,RNA-Seqデータの過分散を説明するために,単語あるいは遺伝子の生成分布に多項分布ではなく負の二項分布を用いる.シミュレーションで生成したRNA-Seqの模擬データに提案モデルを適用することで,提案モデルが総リード数の少ないデータからでも発現量を精度よく推定できることを示す. |
(英) |
The process, by which gene is used in the synthesis of a gene product through transcription and translation, is called expression. We can quantify gene expression by measuring the quantity of the gene transcription generated in this process. RNA-Seq allows a comprehensive gene expression using next-generation sequencing. Although higher sequencing depth can more accurately quantify gene expression, the number of samples is restricted by the higher cost. In this study, we proposed the new model for RNA-Seq data based on the topic model, which is mainly used in the field of natural language processing. In the proposed model, we use a negative binomial distribution rather than a multinomial distribution for generating words or genes. We applied the model to synthetic RNA-Seq data and demonstrated that the proposed model can precisely estimate true gene expression from RNA-Seq data with lower sequencing depth. |
キーワード |
(和) |
トピックモデル / 遺伝子発現 / RNA-Seq / 負の二項分布 / / / / |
(英) |
topic model / gene expression / RNA-Seq / negative binomial distribution / / / / |
文献情報 |
信学技報, vol. 116, no. 500, IBISML2016-110, pp. 77-82, 2017年3月. |
資料番号 |
IBISML2016-110 |
発行日 |
2017-02-27 (IBISML) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
IBISML2016-110 |