メインメニュー




















第2回研究会
●第2回Webインテリジェンスとインタラクション研究会
日時 3月24日(木) 10:30〜17:15,25日(金) 10:30〜15:00
会場 大阪大学基礎工学部 B棟403教室
 (大阪府豊中市待兼山町1-3)

→プログラム →チュートリアル →質疑応答議事録 →学生参加報告(PDF)

3月24日(木)〜25日(金)に,大阪大学豊中キャンパスにて,「第2回Webインテリジェンスとインタラクション研究会が開催されました.今回の一般講演では,アノテーション技術に関するセッション,Web上のセマンティクスに関するセッション,さらに評判情報マイニングに関するセッションと,近いテーマの研究が集まりました.また,リンク解析に関する研究,Webページのデザインに関する研究,Webマイニングに関する研究など,第1回に引き続きホットなトピックが集まりました.また,好評のチュートリアルでは,コンピュータサイエンスの分野だけでなくビジネスの世界でも注目を集めている「ナレッジマネジメント」を取り上げました.同志社大学ビジネススクール教授のPhilippe Byosiere博士に,最新のナレッジマネジメントの動向を,コンピュータサイエンスの観点からだけでなく,実際のビジネスシーンにおいてどのような変革がおきつつあるかについてもご講演いただきました.さらに,ナレッジマネジメントとインタラクティブな知識獲得に関する講演や,個人の創造的思考とナレッジマネジメントの関係に関する講演もありました.



懇親会の様子

垂水先生ご挨拶
 
───────
プログラム
───────
■3月24日(木)
10:30-12:00 セッション1:アノテーション技術
座長:高間 康史(東京都立科学技術大学) 副座長:坂本 比呂志(九州工業大学)
1.WebアノテーションとWeblogを統合した個人の情報発信メディア
  ○沢田洋平,大久保弘崇,粕谷英人,山本晋一郎
  (愛知県立大学大学院 情報科学研究科)
2.ディスカッションマイニング:アノテーションに基づく議論の構造化と
  知識発見
  ○友部博教(名古屋大学21世紀COEプログラム),
  梶克彦(名古屋大学情報科学研究科),
  山本大介(名古屋大学情報科学研究科),
  長尾確(名古屋大学エコトピア科学研究機構)
3.RSSによる商品情報の発信と収集
  ○佐川裕一,中野裕介,垂水浩幸(香川大学大学院工学研究科)

13:30-15:30 セッション2:Webインテリジェンス基盤技術
座長:難波 英嗣(広島市立大学) 副座長:山田 和明(東京大学)
4.色彩の心理的効果を利用したOn-Line Document Interfaceの有効性評価
  ○市野順子(TIS株式会社,神戸大学大学院自然科学研究科),
  竹内和広(独立行政法人情報通信研究機構),
  井佐原均(独立行政法人情報通信研究機構,神戸大学大学院自然科学研究科)
5.大規模時系列データ中の頻出パターンのオンライン抽出アルゴリズム
  ○石原龍一,岩沼宏治,鍋島英知
  (山梨大学大学院医学工学総合教育部)
6.多重リンクを考慮するハイパーリンク最重要箇所の同定法と
  ブラウジング支援の応用
  ○林直弘,岩沼宏治,鍋島英知
  (山梨大学大学院医学工学総合教育部)
7.Webページにおける非セマンティク(non-semantic)特徴分析
  ○岡瑞起(筑波大学大学院理工学研究科),
  中村理 (筑波大学大学院システム情報工学研究科),
  加藤和彦(筑波大学大学院システム情報工学研究科,JST CREST)

15:45-17:15 セッション3:セマンティクス
座長:相良 毅(東京大学) 副座長:安川 美智子(群馬大学)
8.双クラスタリングに基づく検索質問拡張法
  ○土肥広典,青野雅樹(豊橋技術科学大学 情報工学系)
9.診療系関連語彙テンプレートの自動生成とWebページの自動統合
  ○須田真行,岩沼宏治,鍋島英知
  (山梨大学大学院医学工学総合教育部)
10.新聞記事のイベント想起語群の自動生成
  ○広瀬千夏,岩沼宏治,鍋島英知
  (山梨大学大学院医学工学総合教育部)

17:30-18:30 移動
18:30- 懇親会

■3月25日(金)
10:30-12:00 セッション4:評判情報マイニング
座長:立石 健二(NEC) 副座長:大塚 真吾(東京大学)
11.Webアンケート自由記述データの分析
  ○櫻井茂明(東芝 研究開発センター),
  チョンゴー(東芝 研究開発センター,カーネギーメロン大学,),
  折原良平(東芝 研究開発センター)
12.Survey of Semantic Text Portion for Building Web Directory
  from People's Views
  ○Bui Quang Hung, Masanori Ohtsubo, Yoshinori Hijikata, Shogo Nishida
  (Graduate School of Engineering Science, Osaka University)
13.放送番組に対してパブリックオピニオン・メタデータを生成する
  視聴支援エージェントの開発
  ○岡本直之(電気通信大学 大学院情報システム学研究科),
  竹之内隆夫(電気通信大学 大学院情報システム学研究科),
  川村隆浩(電気通信大学 大学院情報システム学研究科,
  東芝 研究開発センター),
  大須賀昭彦(電気通信大学 大学院情報システム学研究科,
  東芝 研究開発センター),
  前川守(電気通信大学 大学院情報システム学研究科)

13:00-15:00 「ナレッジマネジメント」チュートリアル
座長:藤本 和則(同志社大学 技術・企業・国際競争力研究センター)
14.Webインテリジェンス,インタラクション,そしてナレッジマネジメント
  Web Intelligence, Interaction, and Knowledge Management
  ○藤本 和則先生(同志社大学 技術・企業・国際競争力研究センター)
15.ナレッジマネジメントの研究トレンド:挑戦と落とし穴
  Research Trends in Knowledge Management: Challenges and Pitfalls
  ○Prof. Philippe Byosiere (同志社大学ビジネススクール)
16.ナレッジマネジメントとインタラクティブな知識獲得
  Knowledge Management and Interactive Knowledge Acquisition
  ○土方 嘉徳先生(大阪大学 基礎工学研究科)
17.個人の創造的思考とナレッジマネジメント
  Individual Creative Thinking and Knowledge Management
  ○庄司 裕子先生(中央大学 理工学部)
 
────────────────
チュートリアル「ナレッジマネジメント」
────────────────
「Webインテリジェンス,インタラクション,そしてナレッジマネジメント」
座長:藤本 和則(同志社大学 技術・企業・国際競争力研究センター)

第2回Webインテリジェンスとインタラクション研究会では、ナレッジマネジ メントに関するチュートリアルを企画した。ここでは、このチュートリアル について、その趣旨と構成を述べる。人工知能の研究分野では、知識獲得や創 造活動支援など、知的なシステムを実現するという文脈で様々な研究が行われ てきた。一方、ナレッジマネジメントの研究分野では、組織の中で知識が創造 される過程について様々な研究が行われてきた。ナレッジマネジメントの研究 は、企業が持続可能な競争優位を創るための方法論として、多くの企業に受け 入れられ実践されている点で興味深い。人工知能とナレッジマネジメントのそ れぞれの研究は、知識の獲得や創造を研究対象にする点で密接に関係している が、具体的にどのように関係しているかについては、あまり多くのことは分かっ ていない。本チュートリアルでは、まず、ナレッジマネジメントの最新の研究 動向について講演される。そして、Webインテリジェンス、インタラクション、 そして、ナレッジマネジメントの関係について、知識の獲得や創造という視点 から講演される。


「Research Trends in Knowledge Management: Challenges and Pitfalls」
Prof. Philippe Byosiere(同志社大学ビジネススクール)

The knowledge management movement, considered by some as "fact" by others as "fad", poses a number of opportunities to researchers and practitioners. From the beginning knowledge management has been characterized by vague definitions, poor concepts and inconsistent theories. Original paradigms need to be re-examined, new paradigms need to be introduced. New issues and challenges need to be addressed by scholars and practitioners in order to move knowledge management to the next level. Applications of knowledge in organizations need to become more solid and effective. Although knowledge is a global concept it also has its limitations in the many applications.


「ナレッジマネジメントと インタラクティブな知識獲得」
 ○土方 嘉徳先生(大阪大学 基礎工学部)
代表的なナレッジマネジメントの理論である野中の理論について解説する.特に,SECIモデルと場の考え方について解説する.ついで,土方らの提案する野中理論に基づくインタラクティブな知識獲得手法について述べる.この手法はSECIモデルにおける表出化と連結化を支援し,対話場を提供する.さらに伝統的な知識獲得の手法を整理しなおし,インタビューによる知識獲得,事例からの帰納学習,Ripple Down Rule法,ユーザ同士の議論による知識獲得について解説する.最後に,これら知識獲得手法の基礎的な考え方がナレッジマネジメントに応用可能などうか検討する.

「個人の創造的思考とナレッジマネジメント」
 ○庄司 裕子先生(中央大学 理工学部 経営システム工学科)
ナレッジマネジメントは主としてビジネス上の知識創造プロセスを対象とした研究で あり、経営学と知識工学の接点にあたる研究領域であると位置づけられている。一方、 知識工学で知識創造プロセスを扱う別の領域として、創造活動支援研究がある。こち らは、心理学、認知科学との接点であると位置づけられる。創造活動支援研究とナレッ ジマネジメント研究は、共通することも少なくないと考えられる。本講演では、創造 活動支援の新旧の研究を概観するとともに、我々自身の創造活動支援研究のアプロー チと知見について述べる。そして最後に、創造活動支援研究とナレッジマネジメント の関連性と相違について考える。

 
───────
質疑応答議事録
───────
■3月24日(木)
10:30-12:00 セッション1:アノテーション技術
座長:高間 康史(東京都立科学技術大学) 副座長:坂本 比呂志(九州工業大学)

1.WebアノテーションとWeblogを統合した個人情報発信メディア
○沢田洋平,大久保弘崇,粕谷英人,山本晋一郎 (愛知県立大学大学院 情報科学研究科)
概要
WebアノテーションとWeblogを統合し,Webを利用した個人の情報発信をより活発にするための新しいメディアを提案する.Webアノテーションは自らの情報を発信する場合や多くの情報を扱う場合に適さないが,これはWeblogで補うことができる.また,Weblogにはトラックバックと呼ばれる双方向のリンクを作成する仕組みがある.これは対応しているWebページに対してしか行うことができないが,Webアノテーションを用いることによって任意のWebページを対象とすることができる.そして,プロキシサーバを用いたWebブラウザ非依存のシステムを実装した.
Keywords: Webアノテーション,Weblog,トラックバック,メディア

質疑応答議事録
会場より,アノテーションを不用意にクリックしていると、気がつかない間にフィッシングサイトに連れて行かれる問題が起こるのではないかという質問があり,利用者が利用の仕方を事前に十分理解する必要があると思われるとの回答があった.また,発言内容が伝播していくうちに伝言ゲームのようになり、当初の発言の意図が誤解されやすくなるのではないかとの質問には,ユーザーに任すべき問題との回答があった.会場より,プロキシサーバをなぜ必要とするのかとの質問があった。これに対しては,できるだけ簡単な利用を可能にするため(プロキシを使うとブラウザに好きなものを利用できるようになる)との回答があった。また,悪意のある利用を抑制するために、利用者の限定をどうするかという質問に対しては、サーバを立ててID制にするという回答があった。会場より,使う人の人数はどのくらいを想定しているか。かなりの人数がないとBlogの良さが発揮できないが、かといって多すぎると前出のフィッシングの問題が出てくるとの質問があった。これに対して、実験では数人でしか実行していないが、今後増やしていきたいとの回答があった。会場からは,フィッシングの問題などが起こりにくいような有効なアプリケーションを考えることが必要だと思うなどのコメントがあった.
2.ディスカッションマイニング:アノテーションに基づく議論の構造化と知識発見
○友部博教(名古屋大学21世紀COEプログラム),梶克彦(名古屋大学情報科学研究科),山本大介(名古屋大学情報科学研究科),長尾確(名古屋大学エコトピア科学研究機構)
概要
ディスカッションマイニングは,人間同士の知識交換の場であるミーティングにおける活動を記録し,構造化された議事録データを半自動的に生成し,そこから再利用可能な知識を抽出する技術である.本研究では,対面式の会議を記録しアノテーションの付与によって議論を構造化し,映像・音声情報がリンクされた議事録を半自動的に生成する.そして,付与されたアノテーションから機械学習によって重要発言を判別するためのルールを抽出し,そのルールを用いて重要発言を発見する.また,会議の参加者・資料・発言内容の重要度計算を行うことで,議事録閲覧者の知識発見支援を行った.
Keywords:ディスカッションマイニング 会議支援 グループウェア アノテーション

質疑応答議事録
会場より,個々の具体的な発言者ではなく、発言者のグループを関連付けきないかといった質問があり,指導教官やその学生などの情報をオーソリティー度としてを定義することを考えているとの回答があった。会場より,スライドと人物の重要度には違いがあると思われるが、相対的に違いがあるか。また、重要度の計算は収束するのかとの質問があった。これに対して,人物が重要かスライドが重要かは最初からは区別していない。そして、実験では重みを変えることで収束したが、今後は、収束しない場合は途中で計算を打ち切ることも必要だと考えているとの回答があった。スライドで使われる絵は人によって、うまさが違うが、その差は影響しないのかという質問に対しては,その問題は当然考えられるが、最近ではプレゼンのソフトウェアが進歩しているので、その差はそれほど気にする必要はないと思われるとの回答があった。会場から,C4.5を使うと当たり前のルールしかでないのではという質問があり,その問題は考えられるが今後の課題としたいとの回答があった。会場から、持っている背景知識が違うために、同じ用語が違う意味で使われる問題があるが、そのような事例が見られたかとの質問があった。これに対して、そのような例は今のところ見られないとの回答があった。会場から、発言が重要かどうかは人によって違うのではないか。その基準はどのように決めているかとの質問があった。これに対して、本研究では、発表者を基準に重要度を決めているとの回答があった。
3.RSSによる商品情報の発信と収集
○佐川裕一,中野裕介,垂水浩幸(香川大学大学院工学研究科)
概要
近年の相次ぐ食品事故や食品偽装問題などを通して、商品の特性を適切に見出すために幅広い情報を扱い、またそれらを消費者に向けても公開する必要性が高まってきている。しかし、現在POSやEDIで用いられているデータバンクは、非常に多品種のデータを一元的に収集するために、ブランド名、メーカ名、定価、サイズ、重さといった包括的な情報のみを登録し、また消費者の利用を前提としていない。そこで、生産者が多種多様な商品情報をRSSを用いて記述して公開し、様々な目的に応じてそれらを収集したデータベースから、必要な情報を販売者や消費者に提供するシステムを提案する。
Keywords:RSS、RDF、weblog(blog)、商品情報、トレーサビリティ

質疑応答議事録
会場より,データを収集する側はオンデマンドであるが、データを発信する側には義務が生じる。加工レベルの発信者が発信することは容易だと思うが、原材料レベルの発信者は難しいと思われるがどうか(例えば、農家のレベルでは、農作物に関する情報を発信するのは難しいと思う)との質問があった。これに対して,農協などのレベルで発信することは可能だと思われるとの回答があった。この回答に対して、さらに、それではデータセンターの問題がおこるのではとの質問があった。これに対し、そのような問題が起こるが、情報の深さに差ができることによって、そのことが消費者に選択の材料を与えることができると考えられるとの回答があった。会場より、システムを作ることと利用することによる発信者側のデメリットがあるのではとの質問があった。これに対して、このシステムの利用者が増えることによって、利用が促進され、情報発信の義務化が進むと思われるとの回答があった。会場より、記述すべき述語が最初に定義されているがそれは誰が記述するのかとの質問があった。これに対して、基本的な情報以外は何を書いてもかまわないとの回答があった。この回答に対して、さらに、必要に応じて変わるのではないかとの質問があった。これに対し、それぞれのサーバが名前空間を公開して、相互に情報を交換しあうようになるので、その問題は解決できると考えられる。また、サーバを複数置くことで、使用できる述語が固定されてしまい、寡占状態を防ぐ効果が期待できるとの回答があった。会場からは、原材料だけではなく、工場内の別の場所で作られている食品を表示する必要があるとのコメントがあった。
13:30-15:30 セッション2:Webインテリジェンス基盤技術
座長:難波 英嗣(広島市立大学) 副座長:山田 和明(東京大学)

4.色彩の心理的効果を利用したOn-Line Document Interfaceの有効性評価
○市野順子(TIS株式会社,神戸大学大学院自然科学研究科),竹内和広(独立行政法人情報通信研究機構),井佐原均(独立行政法人情報通信研究機構,神戸大学大学院自然科学研究科)
概要
Online Documentは,紙では実現し得ないハイパーテキストやオンライン検索可能な資料空間の増大が長所である.しかし電子メディアが必ずしも万能ではなく,紙に印刷してから読む人も多い. Online Documentの読みを促す情報,その情報の提示・操作方法を分析することにより,読みを妨げることなく能動的な読みを支援できるOnline Document Interfaceを提案する.本研究では色彩の心理的効果に着目しこのインタフェースを実現する.また,提案手法に基づいた色,ランダムな色,無色の3通りのブラウザでの文章の読みを比較する実験を行い,提案したインタフェースの基本的な有効性を確認した.
Keywords: オンラインドキュメント,読み,色,Overview+Detail,情報視覚化

質疑応答議事録
聴講者からブラウザでの文章の読みを比較する実験に用いるテキストの長さはどれくらいが適切かという質問に対し,発表者は短編では提案手法を利用する必要がなく長編では章立てがしっかりしているため,比較的に長めで章立てが曖昧なテイストが良いと回答.聴講者から人が段落の具体度、重要度を決めているが将来的には自動化するのかという質問に対し,発表者は重要度は人によって異なるためユーザが変更できるようにしたり,誰かがアノテーションを付けたものを見るという方向性が有用だと考えていると回答.聴講者から具体度、重要度はどのように求めているのかという質問に対し,発表者は固有名詞の割合から求めていると回答.聴講者からランダムな色付けの結果が無色より悪いのは色彩の効果を無視したミスリードのためかという質問に対し,発表者はランダムな色付けより無色の結果が悪い場合もあり一概にランダムな色付けが悪いと証明できないが,ユーザが自分なりに色に意味付けをして使用している場合,ランダムな色付けがユーザをミスリードする場合も考えられると回答.聴講者からユーザによって色の感じ方が異なることを考慮する必要があるのではという質問に対し,発表者はユーザの色の感じ方だけではなく色の好みも考慮する必要があり,また,テキストに色を付けてまで利用したいというモーティベーションを高めることが重要だと考えていると回答.
5.大規模時系列データ中の頻出パターンのオンライン抽出アルゴリズム
○石原龍一,岩沼宏治,鍋島英知(山梨大学大学院医学工学総合教育部)
概要
単一系列のデータベースを対象としてデータマイニングを行う場合,パターンが複数の系列に含まれる割合を頻度として利用することが出来ない.本研究では,先行研究で提案した逆単調性を満たす頻度を用いることで,大規模な時系列データを対象とし,効率的に頻出時系列パターンを高速抽出するオンライン型のアルゴリズムを提案する.そして,アルゴリズムに関する正当性を示し,評価実験や先行研究との比較実験の結果から本アルゴリズムの有用性を示す.
Keywords:データマイニング,系列パターンマイニング,オンラインアルゴリズム,ストリーム

質疑応答議事録
要約の希望がありませんでした.
6.多重リンクを考慮するハイパーリンク最重要箇所の同定法とブラウジング支援の応用
○林直弘,岩沼宏治,鍋島英知(山梨大学大学院医学工学総合教育部)
概要
本稿では,ユーザが情報獲得の際に辿った一連のWebページのリンク情報に基づいてリンク先Webページの最重要箇所を同定する手法を提案する.一般にユーザがWWW上で情報獲得を試みるとき,目的の情報が得られるまで,複数のリンクを辿りながらWebページを移動することになる.ここでユーザが目的の情報に辿りつくまでに選択した一連のリンクには目的の情報に関する情報が含まれていると考えられる.リンク先Webページの最重要箇所を同定する際に,先行研究ではリンク元Webページのコンテキストのみを考慮していたが,我々はユーザがリンク元Webページ以前に閲覧していたWebページのコンテキストも利用することで最重要箇所同定の精度向上を行う.評価実験の結果,本手法が先行研究の同定法よりも的確な最重要箇所の同定を行うことが可能であることを示す.
Keywords:多重リンク,ブラウジング支援,プロキシサーバ,重要箇所同定,ハイパーリンク

質疑応答議事録
要約の希望がありませんでした.
7.Webページにおける非セマンティク(non-semantic)特徴分析
○岡瑞起(筑波大学大学院理工学研究科),中村理 (筑波大学大学院システム情報工学研究科),加藤和彦(筑波大学大学院システム情報工学研究科,JST CREST)
概要
ユーザがWeb検索エンジンの結果から効率良く目的のページを探し出すことを支援したり,検索結果の鳥瞰図を与えたりすることを目的として,情報検索分野のクラスタリング技術が用いられている.クラスタリングに用いるWebページの特徴としてテキストが使われることが多い.しかし,Webページはテキスト以外にも,画像,URL,レイアウト等の非セマンティク情報も多く含んでいる.そこで我々は,ユーザがページを分類する際に視覚的印象が類似するWebページは関連がある,という意識が潜在的に働いていると考えた.この考えに基づき,Webページのサムネイル画像から特徴を抽出し,クラスタリングに用いる手法の提案した.Google の検索結果に対して提案手法を適用し,その有用性について検証した.
Keywords: Web検索,分類,特徴抽出,固有Webpage,階層的クラスタリング

質疑応答議事録
聴講者からWebページの特徴抽出に用いている主成分分析は事前処理あるいはリアルタイム処理なのかという質問に対し,発表者は,主成分分析は時間が掛かるため事前に用意したサムネールに対し主成分分析を行い,その他の計算をリアルタイム処理すると回答.聴講者からWebページのレイアウト情報は利用しているのかという質問に対し,発表者はレイアウト情報も画像に含まれていると考えていると回答.聴講者から一般的なkmeans法では階層を作らないが階層構造を作るために工夫はしているのかという質問に対し,発表者は階層ごとにkmeans法を繰り返し計算していると回答.聴講者からクラスタリング結果は意味のある分類になっているのかと質問に対し,発表者は画像だけでユーザに役立つ分類ができるとは考えておらず,今後テキストによる検索結果を付加していきたいと回答.聴講者からGoogleなどのイメージ検索エンジンとの比較の必要性およびWebページのデザインに著作権があるなら模造ページの検索に応用できるのではとの質問に対し,発表者はフィッシング詐欺の発見に利用できるのではないかと回答.聴講者から東工大の村山,齋藤,奥村[1,2]らがWebページの色とトピックの関係について報告しているが,将来的にWebページのレイアウトと色を使って見つけられるものと見つけられないものを調べると面白いのではという質問に対し,発表者はテキストだけでは見つけられなかった情報をクラスタリングできるようにしたいと回答.聴講者から研究の目的がよく分からないという質問に対し,発表者はユーザが目的のWebページに早く到達できるように,検索結果の鳥瞰図を作成するなどの支援が目的と回答.聴講者から関連研究として東大五十嵐研のレイアウトを使ったWebの検索[3]が紹介され,また,関連研究のようにWebデザインの参考になるレイアウトを検索するなどの目的に使ってはどうかとコメントがあった.
[1] 村山紀文, 齋藤豪, 奥村学, "Webページの色彩に関するデータマイニング", 第2回情報科学技術フォーラム(FIT), 2003.
[2] Norifumi MURAYAMA, Suguru SAITO, Manabu OKUMURA, "Are web pages characterized by color?", The 13th International World Wide Web Conference, 2004. (http://www.www2004.org/proceedings/docs/2p248.pdf)
[3] 橋本 泰成, 五十嵐 健夫, 「レイアウトによるWEBページ検索」インタラクション2004, 情報処理学会, 2004年3月, pp.113-120. http://www-ui.is.s.u-tokyo.ac.jp/~takeo/papers/gyasu-Interaction2004.pdf
15:45-17:15 セッション3:セマンティクス
座長:相良 毅(東京大学) 副座長:安川 美智子(群馬大学)

8.双クラスタリングに基づく検索質問拡張法
○土肥広典,青野雅樹(豊橋技術科学大学 情報工学系)
概要
クラスタリングは,類似度や距離の概念が定義できるデータ集合をグループ化する手段として広く用いられている.情報検索技術は,検索対象データ間の類似度や距離の概念に基づいて,検索質問と類似するデータを検索する手段である.文書データとその属性である単語データが与えられたとき,それらのデータの出現関係の間に局所的に高い相関がある場合,「文書クラスタリング」と「単語クラスタリング」を同時に行う「双クラスタリング」(co-clustering)の有効性が期待される.本論文では,前処理として,「双クラスタリング」を複数回,異なるクラスタ粒度で実行し,「クラスタ粒度階層構造」を作り,このデータ構造を検索実行時に用いて検索質問拡張を行うことで,検索性能を向上させる仕組みを報告する.
Keywords: クラスタリング、検索質問拡張、概念検索

質疑応答議事録
聴講者より,クラスタリングの際の粒度として,どのくらいのクラスタ粒度(クラスタ数)が性能が良かったのかについて質問があった.発表者からは,今回の結果はクラスタの粒度ごとの性能はバラバラであったため,どのくらいの粒度で性能が良くなるかは現在のところ確認できていないという回答があった.また,聴講者より,一般的にPrecision-Recallの曲線は単調増加のグラフになるのではないかという指摘があった.これに対して,回答者からは,今回,上位の200件を用いて再現率・適合率を調査したため,単調にならないという回答があった.また,聴講者から,co-clusteringの訳語は,双クラスタリングではなく,共クラスタリングの方が適しているのではないかというコメントがあった.さらに,聴講者から,検索質問によって,クラスタ粒度を動的に決めるというところに提案手法の特徴があるのか,という質問があった.発表者からは,クラスタリングの方法そのものと,粒度を動的に決めているところの両方に特徴がある,という回答があった.
9.診療系関連語彙テンプレートの自動生成とWebページの自動統合
○須田真行,岩沼宏治,鍋島英知(山梨大学大学院医学工学総合教育部)
概要
現在Web上には膨大な量の情報が蓄積されている.Web上の商品やサービスを比較するため,異なるサイトのデータを比較したいという要求は一般的なものである.本研究では,ユーザが情報を比較する際の労力を軽減させることを目的として,特定分野に関するWebページの自動統合システムの作成を行った.提案する手法は,対象分野に特化した関連語彙テンプレートを利用することで,複数ページの比較・統合を安定した精度で可能にするものである.高精度な比較統合を行なうために,Webから対象関連ページとそれ以外のページを大量に収集し,それらページの出現語彙の差分をとることで対象関連語彙を自動選別し,そこからテンプレートを自動生成した.テンプレートの作成には自動選別した語彙の共起情報を利用した.このテンプレートを用いた比較・統合システムを実装し評価を行ったので報告する.
Keywords: 情報統合,共起

質疑応答議事録
要約の希望がありませんでした.
10.新聞記事のイベント想起語群の自動生成
○広瀬千夏,岩沼宏治,鍋島英知(山梨大学大学院医学工学総合教育部)
概要
本論文では,イベントの時系列的関係を表す辞書(時系列コーパス)の自動生成を目的として,新聞記事をイベント想起語と呼ぶ形式で表現する手法を提案する.時系列パターンマイニングの技術を用いて新聞記事データベース中に頻出するイベント時系列パターンの抽出を試みるが,このとき新聞記事の表現形式が抽出結果に大きな影響を及ぼすため,適切な表現形式は非常に重要である.我々は,新聞記事に含まれるイベントを想起し易くするために,記事の第1文を要約したイベント想起語及び想起語群と呼ばれる形式に変換する手法を提案する.評価実験の結果,記事をキーワードの集合として単純に表現した場合と比較して,より分かりやすいパターンが得られたので報告する.
Keywords:テキストマイニング,時系列コーパス,係り受け解析,クラスタリング

質疑応答議事録
要約の希望がありませんでした.
■3月25日(金)
10:30-12:00 セッション4:評判情報マイニング
座長:立石 健二(NEC) 副座長:大塚 真吾(東京大学)

11.Webアンケート自由記述データの分析
○櫻井茂明(東芝 研究開発センター),チョンゴー(東芝 研究開発センター,カーネギーメロン大学,),折原良平(東芝 研究開発センター)
概要
本論文ではアンケートの自由記述を分析する方法を提案する。提案法が対象とする自由記述では、良い評価、悪い評価、要望といった異なる観点で記述された複数の意見がひとつの自由記述に記述されている。提案法は、観点ごとに自由記述が当該観点を含んでいるかどうかを識別する分類モデルを、2クラス問題を解くことにより学習する。また、学習した分類モデルに基づいて分析対象となる自由記述の分類を行う。最終的には、分類された自由記述から抽出される表現の頻度を観点間で比較することにより、特定の観点と関連の深い表現を抽出する。本論文では、提案法の効果をホテル宿泊客から得られたアンケート自由記述の分析に適用しその効果を検証する。
Keywords:2クラス問題、SVM、テキストマイニング、差分解析

質疑応答議事録
会場より、SVMをした後に頻度を使ってクラス分類を行っているが、マージンの幅でどの次元が分類に効いているか分かるので、そうすれば直接結果を出せるのではないかと質問があった。これに対して、今回はやっていないが、今後、検討したいとの回答があった。会場より、サービスの向上に着目した場合、悪い(Badな)少数意見をピックアップした方がいいのではという質問に対して、今回はgood,bad,requestを均等に扱ったが、badに絞った解析にすれば可能と回答。学習データは人手でgood,bad,requestを入力しているが、入力者が客観的に判断がつかない場合はどうするのかという質問があった。これに対して、今回は5,6人で大まかな判断基準の基に入力を行った。したがって、個人差はあると思う。ただ、あまりこの点についてシビアになっても、性能の向上に結び付くとは考えてない。それならば、もっと入力するデータの量を多くした方がいいと考えると回答があった。会場より、goodの中にも程度があるので、「少し良い」「凄く悪い」などを扱えるようにする改良を考えているかとの質問があった。これに対して、要望にも、強弱があるという話はあり、それについては、もう少し細分化して点数をつけていくという方法はあると思うと回答があった。会場より、構文解析は使わないかという質問があった。これに対して、理由はアンケートは自由文なので文になっていないものもあり、構文解析をしてもあまり良い性能を得られないために使っていないと回答があった。会場より、辞書を作るよりも学習データを入力する方が楽だというのは客観的な事実かという質問があった。これに対して、客観的とは言えないが、辞書の場合は形態素解析の正規表現を書くのにある程度の知識が必要だが、学習データは○×なので入力者のスキルがなくても簡単にできると回答があった。
12.Survey of Semantic Text Portion for Building Web Directory from People's Views
○Bui Quang Hung, Masanori Ohtsubo, Yoshinori Hijikata, Shogo Nishida(Graduate School of Engineering Science, Osaka University)
概要
In recent researches, an anchor text and texts near the anchor in the original pages are used for the purpose of summarizing or classifying the target pages. No research considers these text parts as the people’s views about the target page and tries to classify them. In our research, we try to extract the descriptions about the target pages from the original pages. We then classify these descriptions. In other manner, we classify the people's views about the target pages into the hierarchical directory. We call the result the Multi-People’s Views Web Directory. In this paper, we concentrate on describing our preliminary survey of semantic text portions. We also explain our method for extracting semantic text portions. The experimental results show that our method achieves high accuracy.
Keywords: Web directory, document categorization, people's views, semantic portion, anchor

質疑応答議事録
会場から、local semantic portionはたしかに、色々な情報を抽出できるように思うが、それに比べてupper-level semantic portionはあまり重要な気がしないとの質問があった。これに対して、より多くの情報を集めるためにはupper-level semantic portionも必要であり、良い例もいくつかあったと回答があった。local semantic portionとupper-level semantic portionから抽出された情報は意味が異なるのではという質問に対して、同じ意味だと考えており、upper-level semantic portionも重要な情報であると回答があった。
13.放送番組に対してパブリックオピニオン・メタデータを生成する視聴支援エージェントの開発
○岡本直之(電気通信大学 大学院情報システム学研究科),竹之内隆夫(電気通信大学 大学院情報システム学研究科),川村隆浩(電気通信大学 大学院情報システム学研究科,東芝 研究開発センター),大須賀昭彦(電気通信大学 大学院情報システム学研究科,東芝 研究開発センター),前川守(電気通信大学 大学院情報システム学研究科)
概要
近年,蓄積された映像コンテンツの検索性・再利用性を向上させたいというニーズからコンテンツにメタデータを付加することが検討されてきた.一視聴者でも大量のライブラリの構築が可能になりつつある現在、コンテンツの検索には客観的記述に加えて,他視聴者の反応や盛り上がりといった主観的な情報を基準にした検索が有用になると考えられる.本研究ではこの主観的な情報の源として既存のネットコミュニティを利用し,ここで交わされる話題や盛り上がりの様をメタデータとして抽出する.さらに視聴者のフィードバックを取り入れることによってメタデータを洗練化していく.本稿ではパブリックオピニオン・メタデータと呼ぶこれらメタデータの抽出と洗練の手法を詳説し,実放送番組に適用して評価した結果を報告する.
Keywords: エージェント,ネットコミュニティ,メタデータ,コンテンツ管理

質疑応答議事録
話題が盛り上がっている所には必ずアスキーアートがあると思うのですが、アスキーアートはどのように扱っているかとの質問に対し、今回は1行のアスキーアートのみを対象にしたので、顔文字だけです。複数行にまたがるものについては今後の課題ですとの回答があった。また、NTTドコモや筑波大の方がドラマについてやってる研究や、NICTがスポーツについてやっている研究が参考になるとのコメントがあった。

「これまでの活動」に戻る
 
本ページに関する問い合わせ
wi2−webmaster@mail,ieice.org