講演名 2023-06-30
生物学的パスウェイを用いたBioConceptVecにおけるアナロジータスク
山際 宏明(京大), 橋本 竜馬(京大), 荒金 究(蛋白研), 村上 賢(蛋白研), 大山 百々勢(京大), 下平 英寿(京大), 岡田 眞里子(蛋白研),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 自然言語処理は様々な応用分野で利用されており,skip-gramなどのモデルを用いてテキスト中の単語を埋め込みと呼ばれる特徴ベクトルに変換することが一般的である.近年,生物学の分野でも自然言語処理の有用性が注目されており,概念の正規化を施した約3000万件のPubMed abstractsから学習したBioConceptVecが提案されている.一般にskip-gramでは単語の埋め込みを加減算することによりアナロジータスクが解けるとされており,例えば$text{king} - text{man} + text{woman}$から$text{queen}$を予測できる.本研究では生物学的パスウェイの種類を関係性とみなし,薬剤と遺伝子の組についてアナロジータスクの実験を行った.その結果,同じパスウェイに属する薬剤と遺伝子の組についてパスウェイの関係性を表すベクトルを定義することで,アナロジータスクの高い精度が確認された.
抄録(英) Natural language processing (NLP), often employing models like skip-gram, is widely utilized across numerous application domains to convert words in text into feature vectors known as word embeddings. The utility of this approach has recently been noted in the field of biology, with the introduction of BioConceptVec, a model trained on about 30 million PubMed abstracts using normalized concepts. In general, skip-gram can solve analogy tasks by manipulating word embeddings, such as predicting $emph{text{queen}}$ from $emph{text{king}} - emph{text{man}} + emph{text{woman}}$. In this study, we applied this principle to biological pathways, conducting analogy tasks for pairs of drugs and genes, treating pathway types as relationships. Our results demonstrated high accuracy in these tasks when defining a vector to represent the pathway relationship for pairs of drugs and genes that belong to the same pathway.
キーワード(和) 自然言語処理 / 分散表現 / 単語埋め込み / アナロジー / 生物学 / PubMed
キーワード(英) natural language processing / distributed representations / word embeddings / analogy / Biology / PubMed
資料番号 NC2023-18,IBISML2023-18
発行日 2023-06-22 (NC, IBISML)

研究会情報
研究会 NC / IBISML / IPSJ-BIO / IPSJ-MPS
開催期間 2023/6/29(から3日開催)
開催地(和) 沖縄科学技術大学院大学カンファレンス・センター
開催地(英) OIST Conference Center
テーマ(和) 機械学習によるバイオデータマイニング、一般
テーマ(英)
委員長氏名(和) 田中 宏和(東京都市大) / 杉山 将(東大)
委員長氏名(英) Hirokazu Tanaka(Tokyo City Univ.) / Masashi Sugiyama(Univ. of Tokyo)
副委員長氏名(和) 井澤 淳(筑波大) / 神嶌 敏弘(産総研) / 津田 宏治(東大)
副委員長氏名(英) Jun Izawa(Univ. of Tsukub) / Toshihiro Kamishima(AIST) / Koji Tsuda(Univ. of Tokyo)
幹事氏名(和) 寺島 裕貴(NTT) / 田中 沙織(奈良先端大) / 岩田 具治(NTT) / 中村 篤祥(北大)
幹事氏名(英) Hiroki Terashima(NTT) / Saori Tanaka(NAIST) / Tomoharu Iwata(NTT) / Atsuyoshi Nakamura(Hokkaido Univ.)
幹事補佐氏名(和) 田和辻 可昌(早大) / 堀井 隆斗(阪大) / 河原 吉伸(阪大) / 鈴木 大慈(東工大)
幹事補佐氏名(英) Yoshimasa Tawatsuji(Waseda Univ.) / Takato Horii(Osaka Univ.) / Yoshinobu Kawahara(Osaka Univ.) / Taiji Suzuki(Tokyo Inst. of Tech.)

講演論文情報詳細
申込み研究会 Technical Committee on Neurocomputing / Technical Committee on Information-Based Induction Sciences and Machine Learning / Special Interest Group on Bioinformatics and Genomics / Special Interest Group on Mathematical Modeling and Problem Solving
本文の言語 JPN
タイトル(和) 生物学的パスウェイを用いたBioConceptVecにおけるアナロジータスク
サブタイトル(和)
タイトル(英) Analogy Tasks in BioConceptVec using Biological Pathways
サブタイトル(和)
キーワード(1)(和/英) 自然言語処理 / natural language processing
キーワード(2)(和/英) 分散表現 / distributed representations
キーワード(3)(和/英) 単語埋め込み / word embeddings
キーワード(4)(和/英) アナロジー / analogy
キーワード(5)(和/英) 生物学 / Biology
キーワード(6)(和/英) PubMed / PubMed
第 1 著者 氏名(和/英) 山際 宏明 / Hiroaki Yamagiwa
第 1 著者 所属(和/英) 京都大学(略称:京大)
Kyoto University(略称:Kyoto Univ.)
第 2 著者 氏名(和/英) 橋本 竜馬 / Ryoma Hashimoto
第 2 著者 所属(和/英) 京都大学(略称:京大)
Kyoto University(略称:Kyoto Univ.)
第 3 著者 氏名(和/英) 荒金 究 / Kiwamu Arakane
第 3 著者 所属(和/英) 大阪大学蛋白質研究所(略称:蛋白研)
Institute for Protein Research, Osaka University(略称:IPR)
第 4 著者 氏名(和/英) 村上 賢 / Ken Murakami
第 4 著者 所属(和/英) 大阪大学蛋白質研究所(略称:蛋白研)
Institute for Protein Research, Osaka University(略称:IPR)
第 5 著者 氏名(和/英) 大山 百々勢 / Momose Oyama
第 5 著者 所属(和/英) 京都大学(略称:京大)
Kyoto University(略称:Kyoto Univ.)
第 6 著者 氏名(和/英) 下平 英寿 / Hidetoshi Shimodaira
第 6 著者 所属(和/英) 京都大学(略称:京大)
Kyoto University(略称:Kyoto Univ.)
第 7 著者 氏名(和/英) 岡田 眞里子 / Mariko Okada
第 7 著者 所属(和/英) 大阪大学蛋白質研究所(略称:蛋白研)
Institute for Protein Research, Osaka University(略称:IPR)
発表年月日 2023-06-30
資料番号 NC2023-18,IBISML2023-18
巻番号(vol) vol.123
号番号(no) NC-90,IBISML-91
ページ範囲 pp.113-120(NC), pp.113-120(IBISML),
ページ数 8
発行日 2023-06-22 (NC, IBISML)