講演抄録/キーワード |
講演名 |
2022-03-07 16:15
勾配ブースティングを用いた番組情報抽出 ○谷岡広樹(徳島大)・谷脇研児(プラットワークス) NLC2021-37 |
抄録 |
(和) |
インターネットを用いた動画配信サービスが続々と立ち上がっているが,著者らは現在,番組制作会社のおすすめの番組情報を一元管理するデータベースシステムへ登録する作業の大部分を人手で行っており,今後の番組の増加に対応が困難となることが考えられる.そのため本研究では,番組情報をメタデータ化する作業の自動化を目指す.具体的には,PDF等の文書データから文字データや画像データを抽出し,その中から番組タイトル,番組内容などの番組情報としてメタデータ化する.このとき,番組情報のメタデータを人手で生成した番組情報を教師データとして,勾配ブースティングを用いて学習と推定することで高い精度で番組情報のメタデータ化が実現できることを確認したので報告する. |
(英) |
Although video distribution services using the Internet have been launched one after another, the authors currently perform most of the work of registering program information recommended by television production offices into a unified database system by hand, which be expected to become difficult to cope with the increase in the number of programs in the future. Therefore, this study aims to automate the process of converting program information into metadata. Specifically, text data and image data are extracted from PDF and other document data and converted into program metadata such as program titles and program contents. We have confirmed that the metadata of program information can be converted to metadata with high accuracy by learning and estimating the metadata using gradient boosting, using manually generated program information as training data. |
キーワード |
(和) |
勾配ブースティング / キーワード抽出 / メタデータ / / / / / |
(英) |
gradient boosting / keyword extractor / metadata / / / / / |
文献情報 |
信学技報, vol. 121, no. 415, NLC2021-37, pp. 54-55, 2022年3月. |
資料番号 |
NLC2021-37 |
発行日 |
2022-02-28 (NLC) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NLC2021-37 |