マルチモーダルモデルを用いた印象語によるフォント検索

久保田 優吾; 内田 誠一; 原口 大地

講演名	2024-01-25 マルチモーダルモデルを用いた印象語によるフォント検索久保田優吾(九大), 内田誠一(九大), 原口大地(九大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	本研究の目的は画像とテキストのマルチモーダルモデルであるCLIP(Contrastive Language-Image Pretraining)に基づいたモデルにより，フォントの持つ画像的性質と印象の対応付けが可能かどうかを検証することである．CLIPとは画像とテキストを同じ特徴空間に埋め込むことで，両モダリティを対応付けるものである．本研究ではテキストとしてフォントに付与された印象や形状を表す語彙（印象語）を用いて，フォントの形状とその印象の対応付けを試みる．実験では，各印象語をクエリとしたときのフォント検索精度の評価を行なった．その結果，形状との対応が明確に成り立つ印象語と成り立たない印象語が存在することを確認した．
抄録(英)	This study aims to verify whether a model based on CLIP (Contrastive Language-Image Pretraining) can associate the image properties of a font with its impression. CLIP embeds images and text into the shared latent space and thus associates both modalities together. In this study, we attempted to associate the shape of a font with its impression by using a vocabulary of impressions and shapes (impression words) assigned to the font as text. In the experiment, we evaluated the accuracy of font retrieval using each impression word as a query. As a result, we confirmed that these are impression words that clearly correspond to font shape and that do not.
キーワード(和)	CLIP / マルチモーダルモデル / フォント / 印象
キーワード(英)
資料番号	PRMU2023-43
発行日	2024-01-18 (PRMU)

研究会情報
研究会	PRMU / MVE / VRSJ-SIG-MR / IPSJ-CVIM
開催期間	2024/1/25(から2日開催)
開催地（和）	慶應義塾大学日吉キャンパス(来往舎)
開催地（英）	Keio Univ. (Hiyoshi Campus)
テーマ（和）	メタバースと深層学習
テーマ（英）
委員長氏名（和）	柏野邦夫(NTT) / 清川清(奈良先端大) / / 日浦慎作(兵庫県立大)
委員長氏名（英）	Kunio Kashio(NTT) / Kiyoshi Kiyokawa(NAIST) / / 日浦慎作(兵庫県立大)
副委員長氏名（和）	舩冨卓哉(奈良先端大) / 入江豪(東京理科大) / 新井田統(KDDI総合研究所)
副委員長氏名（英）	Takuya Funatomi(NAIST) / Go Irie(Tokyo Univ. of Science) / Sumaru Niida(KDDI Research)
幹事氏名（和）	井上中順(東工大) / 川西康友(理研) / 磯山直也(大妻女子大) / 原豪紀(大日本印刷) / 福嶋政期(九大) / 後藤充裕(NTT) / / 出口大輔(名古屋大) / 高橋康輔(ウミトロン株式会社) / 田中賢一郎(立命館大) / 波部斉(近畿大) / 槇原靖(大阪大) / 浦西友樹(大阪大)
幹事氏名（英）	Nakamasa Inoue(Tokyo Inst. of Tech.) / Yasutomo Kawanishi(Riken) / Naoya Isoyama(Otsuma Women's University) / Takenori Hara(DNP) / Shogo Fukushima(Kyushu Univ.) / Mitsuhiro Goto(NTT) / / 出口大輔(名古屋大) / 高橋康輔(ウミトロン株式会社) / 田中賢一郎(立命館大) / 波部斉(近畿大) / 槇原靖(大阪大) / 浦西友樹(大阪大)
幹事補佐氏名（和）	下西慶(京大) / 原健翔(産総研) / 宍戸英彦(創価大) / 中澤篤志(京大) / 東條直也(KDDI総合研究所) / 萩山直紀(NTT) / 畑田裕二(東大)
幹事補佐氏名（英）	Kei Shimonishi(Kyoto Univ.) / Kensho Hara(AIST) / Hidehiko Shishido(Soka University) / Atsushi Nakazawa(Kyoto Univ.) / Naoya Tojo(KDDI Research) / Naoki Hagiyama(NTT) / Yuji Tatada(Univ. of Tokyo)

講演論文情報詳細
申込み研究会	Technical Committee on Pattern Recognition and Media Understanding / Technical Committee on Media Experience and Virtual Environment / SIG-MR / Special Interest Group on Computer Vision and Image Media
本文の言語	JPN
タイトル（和）	マルチモーダルモデルを用いた印象語によるフォント検索
サブタイトル（和）
タイトル（英）	Multi-modal Model
サブタイトル（和）
キーワード(1)（和/英）	CLIP
キーワード(2)（和/英）	マルチモーダルモデル
キーワード(3)（和/英）	フォント
キーワード(4)（和/英）	印象
第 1 著者氏名（和/英）	久保田優吾 / Yugo Kubota
第 1 著者所属（和/英）	九州大学(略称：九大) Kyushu University(略称：Kyushu Univ.)
第 2 著者氏名（和/英）	内田誠一 / Seiichi Uchida
第 2 著者所属（和/英）	九州大学(略称：九大) Kyushu University(略称：Kyushu Univ.)
第 3 著者氏名（和/英）	原口大地 / Daichi Haraguchi
第 3 著者所属（和/英）	九州大学(略称：九大) Kyushu University(略称：Kyushu Univ.)
発表年月日	2024-01-25
資料番号	PRMU2023-43
巻番号（vol）	vol.123
号番号（no）	PRMU-358
ページ範囲	pp.20-25(PRMU),
ページ数	6
発行日	2024-01-18 (PRMU)