講演抄録/キーワード |
講演名 |
2013-02-18 09:40
Wikipedia Infoboxから抽出した多言語属性情報の分析 ○胡 寅駿・林 良彦(阪大) AI2012-22 |
抄録 |
(和) |
近年,Wikipediaから構造化された情報を抽出する研究が盛んになっており,特に言語間リンクによるWikipediaの多言語性を利用する研究が数多くなされている.本研究では,このWikipediaの多言語性のほか,WikipediaにあるInfoboxと呼ばれる半構造化された情報に着目し,日本語,中国語,および英語のWikipediaから,多言語属性情報を抽出する手法を提案する.提案手法の評価実験から,共有属性変数と呼ぶ手がかりが有用であること,属性名や属性値が補完情報として利用可能であること,を確認した.さらに,提案手法を異文化コミュニケーション支援に適用する可能性について検討した. |
(英) |
Wikipedia has attracted many researchers trying to extract structured information from its resources.In this research, we particularly draw attention on the multilingualism of Wikipedia and the semi-structured table-like information (Infobox) provided in each of the Wikipedia articles. More precisely, this research aims to establish a useful computational mechanism to extract multilingual attribute information from the Infobox templates and the actual Wikipedia articles in Japanese, Chinese, and English Wikipedias. The experimental results suggest that a clue, what we call attribute variables, plays a significant role in achieving high precision, and the overall performance can be further improved by incorporating attribute names and values. |
キーワード |
(和) |
Wikipedia / Infobox / 多言語性 / 情報抽出 / 属性変数 / 言語間リンク / / |
(英) |
Wikipedia / Infobox / Multilingualism / Infomation Extraction / Attribute Variables / Interlanguage Links / / |
文献情報 |
信学技報, vol. 112, no. 435, AI2012-22, pp. 5-10, 2013年2月. |
資料番号 |
AI2012-22 |
発行日 |
2013-02-11 (AI) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
AI2012-22 |