講演名 2007/7/17
ネットオークションにおける属性検索のための出品情報文書からの属性抽出(用語・情報抽出)
西村 純, 宮崎 林太郎, 前田 直人, 森 辰則, 翁 松齢, 石川 雄介, 小林 寛之, 田中 裕也, 木戸 冬子,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では,ネットオークションの出品情報を各種属性により柔軟に検索することを目的として,出品情報文書に多数存在する商品の属性,属性値の情報を,機械学習に基づき自動抽出する手法ついて検討している.まず,出品情報の属性検索の対象とすべき属性について考察した.特に,教師情報となるコーパスを作成する際の注釈者間の判断の揺れが少なく,かつ,利用者が検索の対象として欲する属性を抽出対象とした.また,出品情報における属性や属性値の多様性に対応する手法についても考察した.注釈付きコーパスから抽出器を構成する際に,表層表現を直接素性とすると,学習コーパスに特化した学習結果が得られ,特に商品のカテゴリーが異なる未知の出品情報文書からの属性情報抽出の際に精度の低下を招くと考えられるため,表層表現に直接依存しない新たな素性としてシソーラスの分類情報を用い,どのような効果が得られるか検討した.抽出手法としては,固有表現抽出等で用いられる,文字を単位とするチャンキング手法を採用した.
抄録(英) In order to achieve flexible facetted search for descriptions of exhibits in net auction system, in this paper, we studied automated extraction of attributes and their values, which appear in those descriptions, based on a machine learning technique. First of all, we examined a set of attributes that should be indexed for the facetted search. Especially, we focused on attributes that can be annotated stably by different annotators, and that are needed for search We also studied a way to deal with the diversity of attributes and values in descriptions of exhibits. When surface expressions are directly used as one of features, the result of learning may be unwillingly over-fitted to training corpora, and consequently the performance of information extraction will be degraded. Therefore, we introduced the category information of a thesaurus, which does not depend on surface expression directly, and examined the effectiveness of the feature. With regard to the extraction method, we adopted a standard character-based chunking method, which are usually used for named entity extraction.
キーワード(和) ネットオークション / 属性 / 情報抽出 / チャンキング
キーワード(英) net auction / attribute / information extraction / chunking
資料番号 NLC2007-27
発行日

研究会情報
研究会 NLC
開催期間 2007/7/17(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) ネットオークションにおける属性検索のための出品情報文書からの属性抽出(用語・情報抽出)
サブタイトル(和)
タイトル(英) Attribute-value extraction from description of exhibits for facetted search in net auction system
サブタイトル(和)
キーワード(1)(和/英) ネットオークション / net auction
キーワード(2)(和/英) 属性 / attribute
キーワード(3)(和/英) 情報抽出 / information extraction
キーワード(4)(和/英) チャンキング / chunking
第 1 著者 氏名(和/英) 西村 純 / Jun NISHIMURA
第 1 著者 所属(和/英) 横浜国立大学大学院環境情報学府
Yokohama National University
第 2 著者 氏名(和/英) 宮崎 林太郎 / Rintaro MIYAZAKI
第 2 著者 所属(和/英) 横浜国立大学大学院環境情報学府
Yokohama National University
第 3 著者 氏名(和/英) 前田 直人 / Naoto MAEDA
第 3 著者 所属(和/英) 横浜国立大学大学院環境情報学府
Yokohama National University
第 4 著者 氏名(和/英) 森 辰則 / Tatsunori MORI
第 4 著者 所属(和/英) 横浜国立大学大学院環境情報学府
Yokohama National University
第 5 著者 氏名(和/英) 翁 松齢 / Shore O
第 5 著者 所属(和/英) ヤフー株式会社
Yahoo Japan Corporation
第 6 著者 氏名(和/英) 石川 雄介 / Yusuke ISHIKAWA
第 6 著者 所属(和/英) ヤフー株式会社
Yahoo Japan Corporation
第 7 著者 氏名(和/英) 小林 寛之 / Hiroyuki KOBAYASHI
第 7 著者 所属(和/英) ヤフー株式会社
Yahoo Japan Corporation
第 8 著者 氏名(和/英) 田中 裕也 / Yuya TANAKA
第 8 著者 所属(和/英) ヤフー株式会社
Yahoo Japan Corporation
第 9 著者 氏名(和/英) 木戸 冬子 / Fuyuko KIDO
第 9 著者 所属(和/英) ヤフー株式会社
Yahoo Japan Corporation
発表年月日 2007/7/17
資料番号 NLC2007-27
巻番号(vol) vol.107
号番号(no) 158
ページ範囲 pp.-
ページ数 6
発行日