講演名 2020-03-11
光学的文字認識を活用した植物標本画像のラベル自動マスキング方法の検討
日野 遥(千葉大), 檜垣 泰彦(千葉大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 故萩庭氏らが収集した萩庭植物標本は,収録数・標本の採集地の両面において国内最大規模であり,デジタル・スカラシップ開発の一環で運用を開始した千葉大学学術リソースコレクション(c-arc)での公開が予定されている。しかし絶滅危惧種の収録や,活字と手書き文字が混在した詳細な採集地の記載などがみられ, IIIF・RightStatements を採用するシステムで公開するには資源保護の観点で懸念がある。そこで今回は,標本画像中に記載された採集地の部分を自動的に検出・マスキングする方法に関して,光学的文字認識(Optical Character Recognition)を中心に検討した。検討の結果,OCR エンジンはCloud Vision API を利用することとし,画像を含めたパラメータについても絞り込むことができた。マスキング範囲の決定に関しては若干の調整は必要であるが,マスキング処理を自動的に行うめどが立った。
抄録(英) The Haginiwa plant specimen images, are one of the largest collection of flowering plants in Japan, are expected to be published at Chiba University Academic Resource Collections (c-arc) that adopts IIIF and Right Statements. However, there is concern about resource conservation that endangered species are recorded in the collection, and detailed collection sites are described. In this study, we focused on optical character recognition (Optical Character Recognition), which is a method for automatically detecting and masking the collection area described in the sample image. We mainly use “Cloud Vision API” for OCR, and refined parameters including images itself. As a result of study, the masking area determination algorithm needs some adjustment, but we obtained the prospect of performing masking automatically.
キーワード(和) 植物標本画像 / 光学的文字認識(OCR) / 自動マスキング / デジタル・スカラシップ開発
キーワード(英) Plant Specimen Images / Optical Character Recognition (OCR) / Automatic Masking / Digital Scholarship Development
資料番号 LOIS2019-66
発行日 2020-03-04 (LOIS)

研究会情報
研究会 LOIS
開催期間 2020/3/11(から2日開催)
開催地(和) 大濱信泉記念館(石垣島)
開催地(英) Nobumoto Ohama Memorial Hall
テーマ(和) ライフログ活用技術、オフィスインフォメーションシステム、ライフインテリジェンス、および一般
テーマ(英)
委員長氏名(和) 山田 智広(NEL)
委員長氏名(英) Tomohiro Yamada(NEL)
副委員長氏名(和) 小林 透(長崎大)
副委員長氏名(英) Toru Kobayashi(Nagasaki Univ.)
幹事氏名(和) 岡本 基(情報・システム研究機構) / 永徳 真一郎(NTT)
幹事氏名(英) Motoi Okamoto(Research Organization of Information and Systems) / Shinichiro Eitoku(NTT)
幹事補佐氏名(和) 荒井 研一(長崎大学)
幹事補佐氏名(英) Kenichi Arai(Nagasaki Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Life Intelligence and Office Information Systems
本文の言語 JPN
タイトル(和) 光学的文字認識を活用した植物標本画像のラベル自動マスキング方法の検討
サブタイトル(和)
タイトル(英) Investigating of automatic label masking methods for plant specimen images using Optical Character Recognition
サブタイトル(和)
キーワード(1)(和/英) 植物標本画像 / Plant Specimen Images
キーワード(2)(和/英) 光学的文字認識(OCR) / Optical Character Recognition (OCR)
キーワード(3)(和/英) 自動マスキング / Automatic Masking
キーワード(4)(和/英) デジタル・スカラシップ開発 / Digital Scholarship Development
第 1 著者 氏名(和/英) 日野 遥 / Haruka Hino
第 1 著者 所属(和/英) 千葉大学(略称:千葉大)
Chiba University(略称:Chiba Univ.)
第 2 著者 氏名(和/英) 檜垣 泰彦 / Yasuhiko Higaki
第 2 著者 所属(和/英) 千葉大学(略称:千葉大)
Chiba University(略称:Chiba Univ.)
発表年月日 2020-03-11
資料番号 LOIS2019-66
巻番号(vol) vol.119
号番号(no) LOIS-477
ページ範囲 pp.57-62(LOIS),
ページ数 6
発行日 2020-03-04 (LOIS)