メインメニュー




















第7回研究会
●第7回Webインテリジェンスとインタラクション研究会
日時 平成18年11月12日(日) 10:00〜17:50
   平成18年11月13日(月) 9:30〜17:10
会場 東京大学先端科学技術研究センター4号館2階講堂
  (東京都目黒区駒場4丁目6番1号)
   http://www.rcast.u-tokyo.ac.jp/ja/maps/index.html

→プログラム →チュートリアル →質疑応答議事録 →学生参加報告(PDF)

2006年11月12日(日),13日(月)に,東京大学先端科学技術研究センターにて,「第7回Webインテリジェンスとインタラクション研究会が開催されました.講演件数は,前回と同じく過去最多の26件(うち,ロング発表は15件)で,参加者数も過去最多の172人でした.一般講演では,ソーシャルネットワーク分析や,Webのマルチメディア検索,Blogマイニングに関する研究が多くありました.また,チュートリアルでは,「ユーザ嗜好情報抽出技術」を取り上げ,大阪大学の土方嘉徳氏から,情報推薦・フィルタリングの基礎理論と,ユーザの嗜好情報の獲得・モデル化技術についての講演がありました.また,産業技術総合研究所の本村陽一氏から,ベイジアンネットによる人間行動のモデル化と推論技術についての講演がありました.




一般講演の発表


発表の様子


熱心な質疑応答

座長さんと副座長さん


懇親会・乾杯の挨拶


おいしい料理に舌鼓
発表者の方には,写真掲載の許可をいただきました.ありがとうございました.
 
───────
プログラム案内
───────
■11月12日(日)
10:00-10:15 開会の挨拶

10:15-12:15 セッション1(ロング発表):Web情報検索支援
座長:松下光範(NTT) 副座長:大塚真吾(東京大学)
1.アンカー関連テキストを用いたWebページ分類方式の設計と実装
  大坪正典,Bui Quang Hung,土方嘉徳,西田正吾(大阪大学)
2.Webページのビューベースサーチと閲覧履歴検索システムへの応用
  渡井康行,山崎俊彦,相澤清晴(東京大学),
  相澤彰子(国立情報学研究所)
3.グラフとテキストの協調に基づくユーザの要望に対応した知的情報提示
  渡邉千明,小林一郎(お茶の水女子大学)
4.Blogを用いて就職活動における創造的思考を促すシステムの構築と
  運用の試み
  庄司裕子(中央大学),藤本和則(フジモトリサーチパーク),
  堀浩一(東京大学)

12:15-13:30 昼休み

13:30-14:50 チュートリアル:ユーザ嗜好情報抽出技術
司会:庄司裕子(中央大学)
T1.情報推薦の基礎理論とユーザプロファイリング技術
   土方嘉徳(大阪大学)
T2.ベイジアンネットによる人間行動のモデル化と推論技術
   本村陽一(産業技術総合研究所)

14:50-15:10 休憩

15:10-16:40 セッション2(ロング発表):Webアーキテクチャ
座長:高間康史(首都大学東京) 副座長:井口誠(フランステレコム)
5.URI免疫化:参加型システムにおけるスパム避けの一手法
  北本朝展(国立情報学研究所)
6.クライアント・サーバー協調による効率的なプッシュ型Ajaxの実現
  成凱,横田明彦,牛島和夫(九州産業大学)
7.モバイルサービス利用者の行動モデル記述方式とタスクオントロジー
  構築の試み
  笹島宗彦,來村徳信(大阪大学),長沼武史,藤井邦浩,
  倉掛正治(NTTドコモ),溝口理一郎(大阪大学)

16:40-17:00 休憩

17:00-17:50 セッション3(ショート発表)
座長:小林一郎(お茶の水女子大学) 副座長:櫻井茂明(東芝)
8.文書と問合せの構造を利用したXML情報検索
  波多野賢治(同志社大学),Sihem Amer-Yahia(Yahoo! Research),
  Divesh Srivastava (AT&T Labs-Research)
9.英文ニューステキストを対象にした情報抽出・可視化システムの試作
  益子理絵,水口弘紀,三浦貢(NEC)
10.距離を考慮した単語の共起性解析に基づく文書関係図の生成
  白山善規,原隆一郎(金沢工業大学)
11.P2Pネットワークにおけるメタデータの結合
  安達央一郎,服部隆志,萩野達也(慶應義塾大学)

19:00-21:00 懇親会(開始時刻には,若干の変更がある場合がございます)

■11月13日(月)
9:30-11:00 セッション4(ロング発表):パターンとメディアI
座長:青野雅樹(豊橋技術科学大学) 副座長:加藤文彦(慶應義塾大学)
12.Web画像の分類を利用したWebページ検索
  中平浩二,山崎俊彦(東京大学),相澤彰子(国立情報学研究所),
  相澤清晴(東京大学)
13.アイテムの特徴を利用した情報推薦予測精度の向上
  宇田隆幸,木下哲男(東北大学)
14.時系列情報を考慮したモチーフパターン変化の分析
  高田寛喜(奈良先端科学技術大学院大学),斉藤和巳,
  上田修功(NTTコミュニケーション科学基礎研究所)

11:00-11:15 休憩

11:15-12:15 セッション5(ロング発表):パターンとメディアII
座長:河合由起子(京都産業大学) 副座長:松下光範(NTT)
15.多重フーリエスペクトル表現に基づく3次元モデルの形状類似検索
  立間淳司,関洋平,青野雅樹(豊橋技術科学大学)
16.内容に基づく音楽探索・推薦システムの提案と実装
  竹川和毅,土方嘉徳,西田正吾(大阪大学)

12:15-13:30 昼休み

13:30-14:20 セッション6(ショート発表)
座長:大坪五郎(デンソーアイティーラボラトリ)
副座長:中島伸介(奈良先端科学技術大学院大学)
17.Blogにおけるオンラインニュース伝播の可視化手法の提案
  松村明朗,梶並知記,高間康史(首都大学東京)
18.BLOGのトラックバック構造における評価の可視化
  石川祥,木村昌臣(芝浦工業大学大学院)
19.ブログコミュニケーション支援システムXappaLinks
  岡野真一,松岡寿延,宮田章裕,石打智美,荒川則泰,加藤泰久
  (NTTサイバーソリューション研究所)
20.ブログコミュニケーションにおけるユーザ意識調査報告
  松岡寿延,岡野真一,宮田章裕,石打智美,荒川則泰,加藤泰久
  (NTTサイバーソリューション研究所)

14:20-14:35 休憩

14:35-16:05 セッション7(ロング発表):ソーシャルネットワークとコミュニティ
座長:大向一輝(国立情報学研究所) 副座長:古川忠延(東京大学)
21.大規模社会ネットワークからのコミュニティ抽出
  鶴見敏行,脇田建(東京工業大学)
22.ネットワークコミュニケーションの円滑化を目的としたSNSからの人物分析
  神谷友輔(電気通信大学),川村隆浩, 大須賀昭彦(電気通信大学・東芝),
  前川守(電気通信大学)
23.オープンソースソフトウェア開発コミュニティの発展過程の分析
  山田和明(東京大学)

16:05-16:20 休憩

16:20-17:00 セッション8(ショート発表)
座長:脇田建(東京工業大学) 副座長:熊本忠彦(NICT)
24.Web-based element recovery in machine translation
  Jing Peng and Kenji Araki (Hokkaido University)
25.ソーシャルブックマークからのセマンティクス抽出に向けて
  森田想平(内田洋行)
26.PLSIを用いたSBMユーザとタグの関連の可視化
  毛受崇,江田毅晴,山室雅司(NTTサイバースペース研究所)

17:00-17:10 閉会挨拶

 
───────────────────
チュートリアル「ユーザ嗜好情報抽出技術」概要
───────────────────
司会:庄司 裕子(中央大学)
Webはこれまでの一方通行のメディアとは異なり,ユーザがただページを閲覧して いるだけで,その閲覧の様子を情報提供者が得ることができます.また,探索と 言う行動を情報提供の基本スタイルとしているため,必然的に次に提供する情報はユーザに とって異なることとなります.このため,ユーザごとに提示する情報を変化させ ても,ユーザにとってはそれほど不自然には感じません.これらのことから, WebはOne-to-Oneマーケティングの格好の環境となり,多くの企業がパーソナライ ゼーションを行うに至りました.本チュートリアルでは,そのパーソナライゼー ションの必須技術であるユーザの嗜好を獲得し,モデル化する手法について まとめてみたいと思います.


「情報推薦の基礎理論とユーザプロファイリング技術」
土方 嘉徳(大阪大学)

Web上のコンテンツの増加や,オンラインの各種サービスの普及に 伴い,ユーザの嗜好やコンテキストに応じた情報提供サービスが 盛んになりつつある.このような情報提供を実現する技術は,情報 推薦や情報フィルタリングと呼ばれている.本講演では,情報推薦 や情報フィルタリングの諸技術を一般化し,基礎理論としてまとめ ることを試みる.また,推薦やフィルタリングは,ユーザの興味や 嗜好をモデル化したユーザプロファイルにより実現されているが, その獲得方法を明示的手法と暗黙的手法に分けて解説する.さらに 最近の研究動向として,精度・再現率以外のユーザの満足度を考慮 した評価指標や,それらを向上させるための研究例を紹介する.

「ベイジアンネットによる人間行動のモデル化と推論技術」
本村 陽一(産業技術総合研究所)

インターネットや携帯端末での対話的な情報サービスの高度化の ためにはユーザの意図や嗜好性を予測することが必要になる.また こうした情報サービスを運用することで大量の操作履歴や購買履歴 データを収集することも可能になる.大量の統計データから構造を 持つグラフィカルモデルを構築することで,人間の行動を分析する 研究があり,またグラフ構造を持つ確率モデルであるベイジアン ネットを用いることで,確率計算を高速に実行することができる 確率推論技術がある.本講演ではこうした人間行動のモデル化と 推論技術の紹介を行い,情報サービス利用者をモデル化し,嗜好性 や意図を予測する応用技術について述べる.

 
───────
質疑応答議事録
───────
■11月12日(日)
10:15-12:15 セッション1(ロング発表):Web情報検索支援
座長:松下光範(NTTコミュニケーション基礎科学研究所)
副座長:大塚真吾(東京大学)

アンカー関連テキストを用いたWebページ分類方式の設計と実装
 ○大坪正典・Bui Quang Hung・土方嘉徳・西田正吾(大阪大学)
概要
Web上の情報が増加しつづける中で,Yahoo!やExciteなどのようなWebページをカテゴリ分類しているポータルサイトの需要が高まっている.これらのサイトにおけるWebページの分類は,人手で行われてきた.しかし,人手では膨大な量のWebページを処理することはできないため,自動分類の研究が注目されている.近年では,分類対象のページそのものを分析するのではなく,そのページにリンクするページを分析する研究が注目されている.これまでの研究では,ページの形式に関わらず,一定のアンカー周辺のテキストを抽出し分類に用いていた.本研究では,ページの形式によってテキストの抽出方法を変えることで,より意味のあるテキスト部分を抽出し,それを分類に用いることを試みる.
Keywords: アンカー関連テキスト,LSP,USP,SVM,エントロピーロス

質疑応答議事録
 聴講者よりLSPとUSPの結果の解釈について,LSPはわりと説明的な用語が多く,USPは概念やキーワードなどが多いということで良いのかという確認があり,発表者から仰るとおりLSPはかなり説明的な用語が多くまた,USPはノイズが多いと思ったが予想外に概念的な用語が多かったという回答があった. 聴講者から最近のWEBの傾向CSSがあるので,これを見ないと階層的な傾向は難しいのではという質問があり,発表者から抽出する際のエラーが多くなってきた.今のところは8割り以上は普通のページなので,大丈夫だと思うという回答があった. また,比較手法は英語環境での適応方法であるため,日本語で同様な実験を行った場合の結果はどうかるのか?また,言語依存の問題点はあるのか?という質問があり,発表者から今のところ実験は英語のみである.その理由として,グローバルなものと単純比較をしたいからという回答があった.また,既存研究の前後25単語は英語のみであるが,我々はタグを使っているので言語依存は無いと思う.今後は日本語でもやってみたい.アンカータグや段落を使う場合は日本語でもうまくいくと思うなどの回答あった. 聴講者から分類できたら後にどうしたいのかという質問があり,これに対して発表者からは自動的に無限のディレクトリ分類を作りたいとの回答があった. 聴講者よりなぜ提案手法でSVMを用いたかという質問があり,発表者から既存の論文がSVMを利用しており,またSVMは高次元も高速に処理できるからとの回答があった. 聴講者より,データセットによってSVMの学習のしなおしになるので作業コストがかかり,全てのカテゴリーで学習を行うのは大変ではという質問があり,発表者から学習のやり直しのコストは低いので特に問題はないと思うとの回答があった. 最後にディレクトリの構造自体は自動生成できないのではとい質問があり,発表者から現時点ではYahoo!を正解としてディレクトリを作っているので,ディレクトリの構成自体は自動生成できないとの回答があった.
Webページのビューベースサーチと閲覧履歴検索システムへの応用
 ○渡井康行・山崎俊彦・相澤清晴(東京大学)・相澤彰子(国立情報学研究所)
概要
本稿では,スケッチを元に以前に閲覧したWebページを検索可能なローカル閲覧履歴検索システムを提案し,その解析手法,インターフェースについて詳説する.提案システムはレンダリングされたWebページを解析し,見た目の特徴量(画像特徴量)を元にスケッチによる検索を行う機能を備える.筆者らはスケッチ入力の手間を軽減するため,ストローク入力が完了するごとに検索を行い,照合の完了した候補を順次結果に追加表示してゆく逐次反応型のインターフェースを導入した.プロトタイプを用いた検索実験より,本インターフェースはサムネイル一覧に比べ検索にかかる時間を軽減でき,現実的な時間で検索できることを示した.
Keywords: WWW,Webページ検索,類似検索,インタラクションデザイン,ユーザインターフェース

質疑応答議事録
 聴講者より入力をいかにうまくさせるかが問題だと思う.熟練者と初心者では結果がだいぶ異なるのではという質問があり,発表者から今回は論文に書かれている実験結果は私自身が行った結果であり熟練者の場合といえる.その場合は10秒程度で入力できる.現在はまだ入力インターフェースの作り込みが甘いため色の選択などに時間がかかる.今後はこの部分を改良する余地があるとの回答があった. 聴講者から今回の実験では1分後に再検索を行っているので短期記憶の場合の結果になると思うが,長期記憶の場合はどうなるのか?長期記憶の場合は思い込みなどが影響するのではという質問があり,発表者から長期記憶に関しては実験しなければならないと認識しているが,長期記憶となるページはいつも行くページだと思うのでこのシステムを利用する必要がないかもしれないとの回答があった. 聴講者からWebページを画像化して類似画像検索を行っているが,Webならではの特徴は何ですかという質問があり,発表者から通常の画像検索はある程度似ているものを検索し,Webページはある特定のものと検索するのは無理なため,特徴的な部分を書いて絞り込むところが利点だという回答があった. 聴講者からこのシステムを適応してうれしい点や不得意の点を教えて欲しい.今後Web2.0が来たときに似たようなページが自動生成され統一化されるので,どういう部分でこのシステムが役に立つのか知りたいという質問があり,発表者から個人個人でがんばってやっている人のページが取り残されるので,そういうページを探すのに用いることができるとの回答があった. 最後に既存のものにも面白いのがあるので,それと比較してくださいというコメントがあった.
グラフとテキストの協調に基づくユーザの要望に対応した知的情報提示
 ○渡邉千明・小林一郎(お茶の水女子大学)
概要
本研究では,動向情報として日経平均株価を取り上げ,そのグラフ(チャート)の表示状態あるいは特定された期間に合わせて,その期間のニュースを要約する機能をもったシステムの開発を行った.テキスト要約機能に関しては,要約する対象となるニュースとして,国立情報学研究所主導の下,進められているワークショップ「動向情報の要約と可視化に関するワークショップ」(NTCIR-6)により提供されている,MuST コーパス中の本文を利用し,数値情報と連携させることにより,グラフの表示状態と協調して,MuST コーパスから重要文を抽出する手法を用いてテキスト要約を行っている.
Keywords: 知的な情報提示,動向情報,テキスト要約,グラフ表示

質疑応答議事録
 聴講者より背景で述べているモダリティとはなんですかとの質問があり,発表者から異なる2のものを統合したもので,今回はグラフとテキストを統合したとの回答があった. 聴講者より提案手法で用いた6つの指標のうち3を用いたのはなぜか?実際にやるのが難しくて実験しなかったのか,予め3つが良いとわかっていたのであえて初めからやらなかったのか?などの質問があり,発表者から色々な理由からまず2つの指標を選びさらに1つを追加した.そのほかの指標については今後の課題との回答があった. 聴講者より実験では大学生を被験者にしているが,被験者の判断よりも実はシステムの方がいい結果を出していることもあると思うのだがとの質問があり,発表者から今回の実験では学生を被験者にしやすいという環境であっためであり,今後の課題ですとの回答があった. 聴講者より日経株価の変動と新聞記事を連動させて,そのグラフを見て何がいいのか?テキストが得意のところとグラフが得意のところを分けて色々考えた方がいいのではというコメントがあった. 聴講者よりmustコーパスと数値データをマッチさせるところは100%の精度かという質問があり,発表者から記事とコーパスの対応は全て私が手動で設定したとの回答があった.
Blogを用いて就職活動における創造的思考を促すシステムの構築と運用の試み
 ○庄司裕子(中央大学)・藤本和則(フジモトリサーチパーク)・堀浩一(東京大学)
概要
大学生の就職活動の思考プロセスを観察し, 自分の書いた就職活動記録とのインタラクションによる内省によって自分自身に関す る気づきが起こり,就職先を決めるための創造的な意思決定へとつながる場合がある ことを見出した.この知見をもとに筆者らは,Blogを用いて就職活動における創造的 な意思決定を促すシステム「ぷらしゅう」を構築した.本稿ではぷらしゅうシステム の概要と,ぷらしゅうを用いた運用実験の内容について述べ,ぷらしゅうの効果につ いて考察する.
Keywords: 創造的意思決定, 気づき, 発見, 就職活動

質疑応答議事録
 聴講者より研究活動にも当てはまると思うが,どの辺が就職活動ならではの部分なのかという質問があり,発表者から仰るとおり就職活動以外でも利用できるが,今回は就職活動に着目した.就職情報の発信やコミュニティに無いものがこのシステムはできるとの回答があった. 聴講者より参加型のシステムでは気付きが重要だが,他人のものを読んで気付くことはあるのかという質問があり,発表者から他人のものを読むとたぶん気付くと思う,しかし今回はあくまでも自分が中心のシステムを構築した.他の人の日記をどの程度読めるようにするかは今後の課題であるとの回答があった. 聴講者よりこのシステムはメールベースの構築でも可能だと思うが,Webサービスにした理由を知りたいとの質問があり,発表者から入力の楽さから今回はひとつの例としてブログにした.また,将来的に他の人のものを読めるようにしたいという希望もあるためという回答があった. 聴講者より現在のシステムはコーチに任せきっているが,今後は自動化などについて考えているのかという質問があり,発表者から自分,企業,戦術,のアドバイスを推定できるようにしたい.いずれは,中身も解析したいとの回答があった.
15:10-16:40 セッション2(ロング発表):Webアーキテクチャ
座長:高間康史(首都大学東京)
副座長:井口誠(フランステレコム)

URI免疫化:参加型システムにおけるスパム避けの一手法
 ○北本朝展(国立情報学研究所)
概要
本論文は不特定多数を対象とする参加型システムにおいて、トラックバックスパ ム等のウェブスパムを防御するための手法である「URI 免疫化」を提案する。本 手法は生物の免疫システムに触発されたものであり、「変化する」という生物の 基本的な戦略を変化するURI に適用することで、スパム攻撃の回避に有効な手法 を考案した。また筆者が運営する参加型台風情報サイトである「台風への眼」に おける実際のアクセス解析を分析することで、本手法の有効性を検証する。
Keywords: URI, 免疫化, 参加型システム, ウェブスパム, 可変領域

質疑応答議事録
聴講者より、SPAMが進化し、SPAM送信直前にURIを確認するようになった 場合への対応について質問があり、発表者より今回のシステムでは このようなSPAMへの対応は難しいとの回答がなされた。この質問に関連して、 例えば投稿確認画面より瞬時に記事をポストしているものはSPAM、数秒 たってからポストしているものは人間によるポストとみなすような機構 を採用してはどうかという提案があった。これに対して、発表者からは 確かにそのような方法も考えられるが、行き過ぎた制約をかけると人間 による正しいポストまで拒絶されてしまう危険性があるため、対応策は 慎重に検討する必要があるとの回答がなされた。また、CAPTCHAによる 対策との違いについて質問があり、本質的には同様の対応策であるとの 回答がなされた。 さらに、生物学的な観点から見た場合、提案手法に対して「免疫」という 用語を当てはめるのは適切ではないという指摘がなされ、例えば「脱感作」 等の用語を検討してみてはどうかというコメントがなされた。
クライアント・サーバー協調による効率的なプッシュ型Ajaxの実現
 ○成凱・横田明彦・牛島和夫(九州産業大学)
概要
近年,Ajax(Asynchronous JavaScript + XML)は対話型Webアプリケーションの新しい実装形態として注目が高まりつつあり,利用の高度化も進んでいる.多くのAjaxベースのアプリケーションでは,ページのリロードを伴わずにサーバ側からの最新状況を利用者に伝えられるようなアクティブな機能が望まれている.アクティブAjaxを実現するためにLong-poll, HTTP streaming, event-driven architectureなどが知られているが,いずれも単純で効率よい方法とはいい難い.そこで本研究では, サーバ側で把握可能なデータの更新履歴をクライアント側と共有し,よりスマートな同期スケジューリング方式を提案する.また,サーバ側で更新履歴を効率よく管理するために,著者が提案したTBF(Time-decaying Bloom Filters)の導入を検討した.
Keywords: アクティブAjax,クライアント・サーバ,ソーシャルWebアプリケーション,プッシュ/プル,Bloom Filters

質疑応答議事録
クライアント側の要求状況に応じてサーバ側のパラメータを最適化するような Webサーバ/DBサーバオプティマイズ手法が複数存在するが、これらと比較した 場合における提案手法のメリットは何かという質問がなされ、これに対して 個々のクライアントの状況を判断している点が提案方式の特長であるとの回答が 発表者よりなされた。また、提案手法がどの程度の規模のリアルタイム コミュニケーションアプリを想定しているのかという質問がなされ、現在の 段階では小規模アプリを想定しているとの回答がなされた。全体的なコメント として、提案方式がターゲットとするアプリケーション/サービスを明確化 することにより、提案手法の特長や既存技術との差分がより明確になるの ではないかというアドバイスがあった。
モバイルサービス利用者の行動モデル記述方式とタスクオントロジー構築の試み
 ○笹島宗彦・來村徳信(大阪大学)・長沼武史・藤井邦浩・倉掛正治(NTTドコ モ)・溝口理一郎(大阪大学)
概要
携帯電話で提供されるモバイルインターネットサービスの利便性向上を 目的として,筆者らは,タスク指向型メニューを提案してきた.現状の, モバイルサービスサイトが所属する領域(ドメイン)の構造に基づいて 階層化されたメニューと異なり,タスク指向型メニューでは,ユーザが 対峙している状況やしたいと考えている行動をメニュー選択することに よって所望のサービスサイトへ到達することができると考えられる. 本報告では,タスク指向型メニューの実現に不可欠なユーザのタスク, 即ち行動モデル記述方式とその基礎となるタスクオントロジーの試作に ついて報告する.
Keywords: タスクオントロジー,モバイルサービス,行動モデル構築

質疑応答議事録
タスク指向型メニューのメリットに関する質問がなされた。タスク 指向型メニューを採用しても、複数のサブメニューに同一のメニューが 存在することは依然有り得ることを考えると、従来のディレクトリ型 メニューと比較した際の優位性があまりないのではないかという質問が あがり、これに対して発表者よりディレクトリ型の場合はメニュー名 に意味がなくなる危険性がある反面、タスク指向型の場合はメニュー名の 意味がブレないという回答がなされた。 また人間の行動をどこまで分解するべきかという質問に対しては、 モバイルサービス用のメニュー構築という前提を考えると、サービス が提供されるレベルまで分解すればよいことになるとの回答がなされた。 同様にオントロジとしてどこまでサブタスクを分解(詳細化)するべき なのかについても質問がなされたが、これに対してはモデルを共用しよう とする人たちが合意できるレベルとしか言えないとのことであった。 さらに提案方式のスケーラビリティに関する質問がなされ、10万近く あるサービスに対応可能なオントロジの実現を目指してているとの回答 がなされると共に、ドメイン知識をどう広げていくかが課題であるとの 見解が発表者より示された。
17:00-17:50 セッション3(ショート発表)
座長:小林一郎(お茶の水女子大学)
副座長:櫻井茂明(東芝)

文書と問合せの構造を利用したXML情報検索
 ○波多野賢治(同志社大学)・Sihem Amer-Yahia(Yahoo! Research)・Divesh Srivastava (AT&T Labs-Research)
概要
本稿では,従来の索引語を元にした重み付けだけではなく,問合せに指定されている文書構造を利用した重み付けも考慮し,検索結果を順位付けする新しいランキング法を提案する.従来研究のような索引語を元にした重み付けだけではなく,問合せに指定されている文書構造を満たすXML 部分文書の数を元にした重み付けをも利用してランキングを行うことで,問合せに関連するXML部分文書のスコアをより正確に計算することができ,更なる検索精度が向上を図ることが可能となる.
Keywords: XML,情報検索,ランキング,問合せ構造

質疑応答議事録
講演時間超過のため質疑応答は無し.
英文ニューステキストを対象にした情報抽出・検索システムの試作
 ○益子理絵・水口弘紀・三浦貢(NEC)
概要
Webをはじめとするデジタル化された文書の増加に伴い,自然言語で記述された大量の文書から欲しい情報を抽出する要求が高まっている.文書の内容を把握する上で,人名・地名・組織名などの固有表現は重要なキーワードであり,「いつ・どこで・誰が・何を・どうした」という形式で表現される,固有表現と動作情報の間の関係は,重要な情報であると考えられる.本稿では,英文ニューステキストを対象にした情報抽出・可視化システムの試作報告を行う.本システムでは,固有表現や,固有表現間に存在する動作関係の情報を,情報検索の結果と同時に可視化した形で提供することで,ユーザは大量の文書の内容を閲覧することなく,求める情報を取得できる.
Keywords: 固有表現抽出,情報抽出,可視化

質疑応答議事録
英文を対象としているが,日本語にも適用可能かとの質問がなされ,英文の方が対象データが多いため現在英文を対象としているが,日本語への適用も十分可能と考えているとの回答がなされた.また,人手で作成されたルールとSVMを用いた固有表現抽出の違いに関する質問がなされ,人手によるルール作成はコストがかかるので,SVMで大まかな固有表現を抽出し,より細かいものをルールで抽出することを検討しているが,ルールとSVMの組み合わせに関する評価は今後の課題であるとの回答がなされた.この他,MAC4に参加している他のシステムの性能はどのくらいかとの質問がなされ,MAC4は固有表現抽出に特化したデータでないため,他システムとの比較は困難であり,今回は実施していないとの回答がなされた.
距離を考慮した単語の共起性解析に基づく文書関係図の生成
 ○白山善規・原隆一郎(金沢工業大学)
概要
現在ウェブ上で提供されているGoogle, Yahoo!などの検索システムを用いて的確な情報検索を行うには,検索対象を表すキーとなる単語や概念を想起,発見することが重要である.本稿では,Bates らの「ベリー摘みモデル」および大澤らの「知識獲得プロセス」を考慮した探索システムを「距離を考慮した単語の共起性解析」および「力場最適化手法」によって実現することを検討した.文書間の関係量を基とした力場最適化手法によりn-次元空間での文書の再組織化を行い,クラスター分析によって提案手法の妥当性を検証した.また実質的に異なる情報検索行動である「情報探索」と「情報散策」を同一の手法により実現可能であること示した.
Keywords: 情報探索,共起性解析,再組織化,力場最適化,知識獲得

質疑応答議事録
文章のセグメントの単位を4,000語としているが,根拠はあるのかとの質問がなされ,今回取り敢えず4,000語で実施してみたが,セグメントの単位を変えることによって,新たな関係を見出せる可能性があるので,今後セグメントの単位を変えた実験を行ってみたいとの回答がなされた.また,ベリー摘みモデルを利用したクラスター化を実施しているが,クラスター化は何を意図して実施しているのかとの質問がなされ,あいまいな要求のためクエリーが生成できない場合でも,情報を収集できるようにしていきたいとの回答がなされた.本回答に対して,検索要求になるまでとクラスターを見せることとの間に,まだギャップが感じられるので,今後このギャップを埋めるように研究を深めて欲しいとのコメントがなされた.
P2Pネットワークにおけるメタデータの結合
 ○安達央一郎・服部隆志・萩野達也(慶應義塾大学)
概要
近年Web2.0の普及に伴ってWeb上のコンテンツにメタデータを付加,共有することが一般的になりつつある.メタデータには製作者が付けるメタデータと使用者が付けるメタデータの2種類がある.本研究ではP2Pネットワーク上でジャンルを問わずに使用者が付けるメタデータを結合,共有する手法を提案する.使用者が付けるメタデータには時間とともに増大していくという問題がある.その問題を解決するため本研究では,1つのP2Pネットワークで1つのURIに対するメタデータを保持するシステムを設計する.このシステムでは不要なメタデータを保持するP2Pネットワークはノードが無くなった時点で自然に消滅するため,不要なメタデータを保持することがなくなり,メタデータの量の問題が解決される.
Keywords: P2Pネットワーク,メタデータ,データ共有

質疑応答議事録
本システムをどういったアプリケーションで動かすことを想定しているのかとの質問がなされ,アプリケーションは各自が考えるものであり,特に規定しておらず,本システムでは,ブックマークのメタデータの共有を目指しているとの回答がなされた.また,一度不要と判断したメタデータを再度共有したいと考えた場合に,共有するメタデータがなくなっている可能性がないかとの質問がなされ,参加者全員の興味が一時的に無くなるという状況はめったにないと考えられるので,システム上にメタデータは残っているとの回答がなされた.この他,メタデータを作成者側で全部作っておくことも可能ではないかとの質問がなされ,利用者の感想など製作者側では付与できないメタデータが存在するとの回答がなされた.
■11月13日(月)
9:30-11:00 セッション4(ロング発表):パターンとメディアI
座長:青野雅樹(豊橋技術科学大学)
副座長:加藤文彦(慶應義塾大学)

Web画像の分類を利用したWebページ検索
 ○中平浩二・山崎俊彦(東京大学)・相澤彰子(国立情報学研究所)・相澤清晴(東京 大学)
概要
一般にWebに対するアプローチにおいてはテキスト情報のみが用いられ,視覚的情報は用いられない.そこで,我々はWeb画像に着目し,役割に基づく9つのカテゴリを定義し,学習分類を行ってきた.しかしながら,その精度は充分に高いものではなかった.そこで文字判定アルゴリズムを提案し,精度の向上を行った.また,この役割に基づく画像分類が既存のWebへのアプローチに対して有用であることを示す.
Keywords: Web画像,分類,SVM

質疑応答議事録
聴講者より,要約の部分に興味があるが,既に実装しているのかという質問があり, 簡単なプロキシを作成し実験を行っているが,性能は悪いという回答があった.
また,要約は観点によって変わるので,周りのテキストなどが効いてくるのか という質問に対しては, テキスト要約では,深い内容の自然言語処理を行っている場合は 言語依存があり,画像の場合は画像がないページもあるため, 単体では厳しい.テキスト要約と画像要約の相互補完でいきたいという 回答があった.
他の聴講者より,画像要約は携帯向けに有益だと考えられるが, 文字認識までしているなら,文字の内容を用いないのかという質問があったが, 本システムは文字があるかを判定しているだけで,文字認識まではしていない. 多くの場合画像は潰れていて,OCRでの判別は1割に満たない. 性能をあげても2割程度で,文字認識は難しいという回答があった.
聴講者からのコメントとして公的なページはロゴがあってメニューがあるという 特徴があるとおもうのでやってみると良いとの指摘があった.
聴講者から,画像内の文字がある場所を調べる既存技術があるのかという 質問があった.それに対し,過去の研究では背景がないものや, 文字がアルファベットの場合はうまくいっているが,日本語の場合では ひらがなでも難しい.とりあえず日本語の文字が画像内にあることが判定 できただけでもかなり有効であるという回答があった.
また,k-means法の用い方についての質問があったが, 各ピクセルの色と位置座表を特徴として,クラスタリングしている という回答があった.
SVMをかけるときに様々な特徴量をつかっているが,特に効果が高いものは あるのかという質問があったが,どれか一ついうのはなく,組み合わせて 初めて効果があるという回答があった.
また,メニューなどの類似画像が並んでいるというのを特徴量として 用いているのかという質問については,特徴量として用いたことがあるが, あまり精度には影響ないということで現在は用いていないという回答があった.
アイテムの特徴を利用した情報推薦予測精度の向上
 ○宇田隆幸・木下哲男(東北大学)
概要
協調フィルタリング(CF)は,情報推薦システムのエンジンとして広く用いられていて,ユーザが嗜好するであろうアイテムを見つけ出す.特に,電子商取引や広告表示システムなどで,その重要性が高まっている.CFアルゴリズムとは:被推薦ユーザは自身の嗜好を表明する;システムは提示された嗜好と類似する嗜好を持つ他のユーザを見つけ出す;見つかった他のユーザの嗜好情報を用いて,被推薦ユーザに対し,アイテムの嗜好スコアを計算し,スコアの高いアイテムを提示する;である.しかし,CFは,「被推薦ユーザや被推薦アイテムの高い網羅性」と「嗜好スコアの高い予測精度」の実現がトレードオフの関係にある.本研究では,擬似投票方式とアイテムの特徴分析を併用することで,網羅性と予測精度の両立を実現する方式を提案し評価する.
Keywords: 協調フィルタリング(CF),特徴分析,情報推薦システム,予測精度,網羅性

質疑応答議事録
聴講者より疑似投票に用いる類似度はコンテンツに対してなのかという質問 があったが,コンテンツのテキスト情報を対象として,ダイス係数を用いている という回答があった.また,本研究の一番の特徴は何かという質問に対しては, 網羅性と正確性の両立が特徴である.
測定値が9割を超えているのは類似度の閾値の低さが原因ではないか, また,それが疑似投票のノイズがあがる原因ではないかという質問に対しては, まだ解析をしていないが,確かに閾値をあげるとノイズは減る. 商用サイトなので,まず推薦できる物がないと話にならないため, 閾値をさげてあるという回答があった.
聴講者より,実験用にアンケートをとったものなのか,実運用で取得したもの なのかという質問があったが,実運用から取ったもので, 評価は良いほうに偏る特徴があるという回答があった.
他の聴講者から,まったく新しいユーザが加わったときはどうなるのか という質問があったが,コールドスタートはまだで,新しいユーザ は評価投票をしていないから何もしない.もし何かを推薦するなら, 人気アイテムの推薦などをすることになる.注目度のアイテムの計算は 閲覧数でしている.
ユーザがやめた場合,使用期間が短い場合はどうなるのか という質問に対しては,まだ行っていないという回答があった.
また,データが更新された場合どうなるのかについては, 現状では履歴をとっているだけであり,古い投票は評価を下げていくなど を今後やっていきたいという回答があった.
疑似投票について同じようなコンテンツに二回投票があった場合は どうなるのかという質問に対しては,その場合平均値をとっている という回答があった.
時系列情報を考慮したモチーフパターン変化の分析
 ○高田寛喜(奈良先端科学技術大学院大学)・斉藤和巳・上田修功(NTTコミュニケーション科学基礎研究所)
概要
複雑な現実ネットワークを特徴付ける指標として,ネットワークモチーフがある.従来研究では,ネットワークモチーフは静的ネットワークのみを対象としていた.しかし例えば,時間とともに新たなページやハイパーリンクが生成されるWWWネットワークのように,現実世界の多くのネットワークは日々変化を繰り返す成長ネットワークである.本研究では,ネットワークの成長過程の分析を目的として,ネットワークモチーフを動的ネットワークに適用するための手法を提案する.
Keywords: モチーフ,複雑ネットワーク,成長ネットワーク,モチーフパターン変化

質疑応答議事録
聴講者より,モチーフとパターンとモチーフパターンは同じものか という質問があったが,同じであるという回答があった.
また,モチーフパターンを分析するときに,3ノードである意味はあるのか 双方向リンクを形成する傾向があるとのことなので, 2ノードでやればいいのではないかという質問に対しては, 2ノードはたった2パターンしかできないため,最低3ノードにしないと 成長が見られない.最初に双方向になるのではなく,最初に別のノードに 単方向を作ってから双方向を形成していくという特徴があるため,3ノードが良い という回答があった.
他の聴講者より,本アプローチは適切なのかどうかという質問があったが, すでに提案されているNNモデルでは,あるノードの3点のクラスタを無効化 してから行っているが,それを有効化したところに意味があると考えている という回答があった.
エンロンのメールを解析しているが,パターンがわかったあと の有用性は何か.具体的なアプリや,解析後の特徴などはあるのか という質問に対しては,調べた後にモデルができあがれば,ウィルスの 伝搬モデルなど,情報の流れをシミュレーションできるのでは ないかと考えているという回答があった.
現実ネットワークの場合リンクが消えたりするときがあるが, この研究ではどうなるのかという質問に対しては, 手法が確立していないので扱っていないという回答があった.
また,グラフとしての解析を行っているのかという質問に対しては, まだ行っていないという回答があった.
他の聴講者より,研究の方向性は基本のノード数を4,5,6と増やしていくのか, 3ノードで固定のどちらのなのかという質問に対しては, 3ノードで必要十分であり,後者のほうだと思っているという回答があった.
11:15-12:15 セッション5(ロング発表):パターンとメディアII
座長:河合由起子(京都産業大学)
副座長:松下光範(NTTコミュニケーション科学基礎研究所)

多重フーリエスペクトル表現に基づく3次元モデルの形状類似検索
 ○立間 淳司・関 洋平・青野雅樹(豊橋技術科学大学)
概要
近年,3次元CADによる機械設計などが広く普及し,3次元モデルの数が増加しつつある.これにともない,大きな3次元モデルデータベースより,目的の形状と類似した3次元モデルを見つける形状類似検索技術の必要性が高まってきた.現在,Web上で普及しているVRMLで頻繁に用いられる"Indexed Face Set"と呼ばれるデータは,形状を3次元の非連結な多角形の集合で定義するため,立体を前提とした解析手法を適用することが困難である.本研究ではVRMLより複数の形状表現を生成し,それらをフーリエ変換により解析することで形状類似検索を行う.比較実験の結果より本手法の有効性を確認した.
Keywords: 形状類似検索,3次元モデル,VRML,複合特徴量,フーリエ変換

質疑応答議事録
デモで、人型の 3 次元モデルをクエリにして検索したとき、検索結果に逆さ まの人型モデルが含まれているのは何故か? との問いに対して、そのモデルは もともと逆さまに登録されており、提案手法がそのような方向の違いを吸収し て検索できることを示している、との回答があった。次に、提案手法は 4 つ の特徴量を重み付けして統合しているが、計算量を減らすために減らしたほう が良いのではないか、との問いに対しては、4 つの特徴量を全て使うほうが精 度が良いし、重み計算に用いている purity 法はそれほど時間がかからないと の回答があった。また 3 次元モデルのクラス分割の理由に関する質問に対し ては、このクラスは事前に人手で与えるもので、その大きさに応じて重みを与 えている、との回答があった。また、実際の場面では粗い形から詳細なものを 検索することが必要になると思うがそれは可能か、との問いには、可能である が形状が似ているものほど精度が高い、という回答がなされた。また、実際の 特徴量計算にかかるコストについての質問には、907 の 3 次元モデルを処理 するのに30分程度である、との回答がなされた。
内容に基づく音楽探索・推薦システムの提案と実装
 ○竹川 和毅・土方 嘉徳・西田 正吾(大阪大学)
概要
近年,インターネット上での音楽データの流通が盛んになりつつある.しかし,流通する音楽の量が増えた結果,これらの音楽データをチェックして,自分の好みに合う音楽を探す労力も大きくなりつつある.このような問題を解決する手段のひとつとして,情報フィルタリングシステムがある.本研究では,音楽の探索インタフェースと,音楽推薦のためのユーザプロファイルの編集インタフェースとを持つ,MIDIデータを対象とした音楽探索・推薦システムを提案する.本システムにおいてユーザプロファイルの可視化と音楽特徴空間の可視化を相互補完的に利用することにより,受動的な推薦のためのユーザプロファイルの編集作業に役立つ情報(音楽属性に関する情報)を提供し,また自分の普段の好みとは異なった音楽を探索するための手がかりを提供する.
Keywords: 音楽推薦,内容に基づく情報フィルタリング,MIDIデータ,ユーザインタフェース

質疑応答議事録
ある特定の曲と似た曲を検索することは可能か、という問いに対して、提案手 法で用いている決定木はユーザが重要視している属性を表現しているものであ り、その属性の観点で似ているものを見付けることは可能であるという回答が あった。また、数量化が難しそうな特徴量は使ってないのではないかという質 問に対して、現在は簡単に獲得できる特徴量及びMIDIデータから獲得できる特 徴量を使っているという回答があった。関連して、平均音調差・音高などがユー ザにとって効果的であるかどうかという質問があり、テンポなどに比べると確 かに分かりにくいと感じているようだ、という回答があった。また、楽曲推薦 をうけるユーザとしてどのようなユーザモデルを想定しているかという問いに 対しては、一般ユーザというよりは、積極的に楽曲選択に関与したいと考える 玄人を想定しているという回答があった。また、「音楽が好きだ」という人は 自分の好きな曲のテンポやリズムを意識していないと思うので好きな曲の特徴 を表現してくれると嬉しいのではないか、WEB 検索みたいに誰もが使うもので はないのでユーザの視点が重要だ、などのコメントがあった。
13:30-14:20 セッション6(ショート発表)
座長:大坪五郎(デンソーアイティーラボラトリ)
副座長:中島伸介(奈良先端科学技術大学院大学)

Blogにおけるオンラインニュース伝播の可視化手法の提案
 ○松村明朗・梶並知記・高間康史(首都大学東京)
概要
本稿はBlogにおけるオンラインニュースの伝播に着目し,オンラインニュース,エントリ,Blogサイトの関連を可視化する手法を提案する.Blog情報はWeb上のトレンド情報や主観的情報の抽出対象として注目を浴びている.Blogの利用方法の一つとして,オンラインニュースをEntry中に引用し,意見したりまとめたりする使い方があり,Blogを介してニュース記事にアクセスする利用者も多く,ニュースが人々の間に広まっていく伝播の様子は多様であると考える.本稿ではこの様なBlogの使い方に着目し,Blog空間でのオンラインニュースの伝播の様子から注目記事の発見,特定テーマのニュースに関連するBlogサイト,Blogコミュニティの抽出を行うことを考える.情報可視化技術を用いる事により,単一の評価指標で扱うことが困難な要素間の関連を直感的にとらえる事が可能となり,注目オンラインニュースやBlogコミュニティ抽出のための評価基準の検討などに利用可能と考える.
Keywords: 情報可視化,Blogマイニング,インタラクション,オンラインニュース

質疑応答議事録
聴講者より,Blogにおけるオンラインニュース伝播の様子を可視化することの目 的は,分析目的なのか,それとも将来的に何らかのサービスのインタフェースと しての用途を考えているのか,という内容の質問があった.発表者からは,分析 目的であり,特に注目されているようなblogサイトなどの発見のために可視化を 行っているという回答があった.また,他の聴講者からは,解析対象のリンクと して,通常のリンクを利用せずにトラックバックに限定している理由は何か,と いう質問があった.発表者は,取得の容易さと,トラックバックによってある程 度のエントリ同士の繋がりを表現できているものと考えている,という回答があっ た.この質問者からのコメントとして,通常のリンクはトラックバックリンクの 3倍程度の数があるという実験結果もあり,通常のリンクを考慮すべきではない か,というものがあった.
BLOGのトラックバック構造における評価の可視化
 ○石川祥・木村昌臣(芝浦工業大学大学院)
概要
近年普及しつつあるブログを利用して個人が様々な話題に関する意見を発信する機会が増えている.こうした意見の中には,商品やサービスに関する評判情報が多く含まれており, ブログを解析することによって有益な情報が得られることが期待される.しかし, ブログ記事の数は膨大であり, 人手で解析し評判情報を抽出するのは困難である.そこで本研究では,ある話題に関するブログ記事をトラックバックを利用して自動的に収集し,得られたブログ記事の本文から話題に関する評判情報の抽出を行う.その上でトラックバック構造上で各ブログ記事の評判情報を可視化し,記事に含まれる評価の分布の空間的な表現を与える手法を提案する.
Keywords: ブログ,テキストマイニング,評判情報抽出,情報可視化

質疑応答議事録
聴講者から,iPODに対する評判を使った実験において,液晶やHDDの容量でクラ スタリングをしているようだが,別メーカーでも似たようなスペックが存在する パソコンを対象とした場合でも問題ないのか,という質問があった.回答として は,メーカー毎の分類など新たなアルゴリズムを考えるつもりである,という回 答であった.また,評価の抽出では,二重否定など紛らわしい文面でも対応可能 か,という質問があったが,対応できていない,という回答であった.別の質問 として,可視化を行っているが可視化を行うメリットを感じない,統計量に基づ いた評価で十分ではないのか,という質問があった.これに対する回答としては, 閲覧システムのインタフェースとしての利用を考えている,ということであった. また,トラックバックがないエントリは解析対象になり得ないのではないかとい う質問に対しては,今後の検討課題である,という回答であった.
ブログコミュニケーション支援システムXappaLinks
 ○岡野真一・松岡寿延・宮田章裕・石打智美・荒川則泰・加藤泰久(NTTサイバー ソリューション研究所)
概要
近年のブログの急激な普及によって,ブログの持つコメントやトラックバックの機能を 用いたコミュニケーション活動が盛んに行われるようになっている.このようなコミュニケーションによって複数のブログからなるコミュニティが形成されつつある.しかし,ブログはコメント・トラックバックという最低限の機能しか持たないため,コミュニティを維持するためにコミュニケーション活動を支援する工夫が必要となる.本稿では,ブログ間のコミュニケーションの様子をユーザに分かりやすく提示し,コミュニケーションへの参加を支援するXappaLinks(ザッパリンクス)について提案する.
Keywords: ブログ, コミュニティ, ソーシャルネットワーク

質疑応答議事録
質問として,クラスタ係数によるつながり密度とは何か,という質問があったが, 回答としては,コメントやトラックバックによるブログサイトの繋がりの強さの 表す指標である,というものであった.「ザッパ」の由来は?という質問に対し ては,元々は“大雑把”から来ているという回答であった.その他,エントリに 対するコメントを行っているブロガーの特定方法に関する質問があったが,回答 としては,同じホスティングサーバ内では,ログイン状態であれば,ユーザの特 定は可能である,そうでない場合には,明示的に自分のブログサイトURLを書い ているものから取得しており,全体の4割くらいはブロガーの特定ができている, という回答であった.
ブログコミュニケーションにおけるユーザ意識調査報告
 ○松岡寿延・岡野真一・宮田章裕・石打智美・荒川則泰・加藤泰久(NTTサイバー ソリューション研究所)
概要
近年のブログやソーシャルネットワークサービス(SNS)等いわゆるCGMの急激な 普及を背景として、我々はブログ間のコメント・トラックバックによるコミュニ ケーションを可視化・分析するブログコミュニケーション支援技術XappaLinksの 研究開発を進めている。その検討段階において我々は「ブログコミュニケーショ ンに対するニーズは存在するが十分満たされておらず、ブログ空間におけるコミ ュニケーション状況の把握の困難さがその阻害要因である」という仮説を立てた 。その検証のため、ブログ及びソーシャルネットワークサービス(SNS)利用に おけるユーザ意識調査を行い、仮説の妥当性を確認した。その概要について報告 する。
Keywords: ブログ,コミュニティ,ソーシャルネットワーク

質疑応答議事録
仮説1で「ブログ空間でのコミュニケーションのニーズがあるが十分には満たさ れていない」とあるが,調査時の質問の仕方に影響されていないですか?という 質問があった.回答としては,対象としてはブログを書いている人に対して行っ ていて,その中でブログ利用の目的を確認しています,相手の想定はしていませ ん,というものであった.他の質問として,ユーザ同士のコミュニケーション手 段として,メールのやりとりがあるが,影響があるのではないか?コミュニケー ション全体で評価する必要はないか?というものがあった.回答としては,ブロ グとSNSにおいてもコミュニケーションに違いが存在するので,まずはブログ空 間でのコミュニケーションに関する調査を行っている,というものであった.さ らに,理由を問うようなアンケートは,聞き手とユーザ側に深い溝が存在し,信 用できないと考えているが,どのように考えているか?という質問に対しては, 今後突っ込んで考えていきたい,という回答であった.
14:35-16:05 セッション7(ロング発表):ソーシャルネットワークとコミュニティ
座長:大向一輝(国立情報学研究所)
副座長:古川忠延(東京大学大学院)

大規模社会ネットワークからのコミュニティ抽出
 ○鶴見敏行・脇田建(東京工業大学)
概要
本稿はNewmanらによる高速ネットワーク解析アルゴリズムの性能上の問題点を明 らかにし、これにコミュニティの合併比率を用いた高速化手法を提案する。ソー シャルネットワーキングサービスから得たデータを元に、提案手法と従来手法を 比較した結果、提案手法は従来法の限界であった50万ノード程度の社会ネット ワークの解析速度を9倍に改善し、従来は解析不可能であった100万ノード程度の ネットワークの解析を3時間程度で達成した。また、分析の優劣の評価指針とな るモジュール性についても若干の改善を見た。
Keywords: 社会ネットワーク,クラスタリング,コミュニティー抽出

質疑応答議事録
聴講者より,合併比率の考慮がなぜ影響するのかという質問があり, 発表者より,同程度のサイズのコミュニティ同士を合併させることで, Clausetらの既存手法においてネックとなっていたモジュール性変化度の 再計算にかかるコストの削減ができるとの回答があった. また,提案手法において処理が重くなっている後半部分から, 既存の手法に切り替えてみてはどうなるのかとの質問があり,発表者より, 改善方法の一つとして考えられるが,途中経過での内部構造が異なっているため, 必ずしも解析時間が向上するとは限らないとの回答があった. 他の聴講者より,解析にJava VMが使用したヒープのサイズについての質問があり, 発表者より,100万ノードで1GB,500万ノードで4GB程度との回答があった. また,聴講者より,提案手法によって高速化することで精度も上昇した理由についての 質問があったが,発表者としても予想外な結果だったため,アルゴリズムを 見直して検討する必要があるとの回答があった.
聴講者からのコメントとして,関連研究として今藤らのMax-Flowの アルゴリズムが挙げられ,比較結果を知りたいという意見があった. また,モジュール性を向上させることで,別の弊害が出ていることも考えられ, Newmanらの手法の欠点を見出せると面白いという意見もあった. 同様に,Newmanらの手法でmixiコミュニティの解析をおこなった場合に 見られるmixi特有と考えられていた特徴が本手法では現れず, クラスタリング手法自体の見直しを考えさせるものになるのではないかとの 見解が示された.
ネットワークコミュニケーションの円滑化を目的としたSNSからの人物分析
 ○神谷友輔(電気通信大学)・川村隆浩・ 大須賀昭彦(電気通信大学・東芝)・前川守(電気通信大学)
概要
近年,SNSが成熟したコミュニケーションツールとして期待されている.しかし,ネットワークコミュニケーションにおける衝突や誤解,希薄化,義務化といった問題が相変わらず解決されていない.そこで,現実世界のコミュニケーション問題解決に定評のあるエニアグラムという人物分析手法を用い,自動的に人物分析を行うネ己分析エージェントを開発し,上記の問題解決を目指す.本稿では,主にネ己分析機能の手法や評価について述べる.実際に30人からなるSNSコミュニティで実験を行い,その結果から精度や分析手法についての評価を行った.結果として,ユーザのタイプをほぼ正確に分析することができた.そして,分析結果の信頼性などについての問題の解決方法を示し,今後の展望とする.
Keywords: SNS,Web2.0,ネットワークコミュニティ

質疑応答議事録
聴講者より,なぜ自己分析の質問表としてエニアグラムを利用したのかとの 質問があり,発表者より,エニアグラムは就活で利用されることも多く, 実社会での信頼性があると考えた,との回答があった. また聴講者より,SNSでの行動だけでは対応できないエニアグラムの質問もあるのでは, という質問があり,発表者より,ある程度予想できていたことであり, 必要に応じてアンケートでの補足を考えているとの回答があった. ネットワークに特化した分析を行う理由については, 発表者より,実際に自己分析をおこなう際には周囲のことを考えながら するだめである,との回答があった. これに対して聴講者より,周囲だけでなく社会全体の中での自分の位置づけを 考えるというのも自己分析であり,その辺りを対比させて考えてみると 面白そうであるとの意見があった. 聴講者からの,分析結果の実際の利用方法についての質問には, 発表者より,例えばSNS内で広告・宣伝的な行動をする際に,性格タイプによって 影響しやすい言葉にも違いがあるため,有効利用できるのではと 考えているとの回答があった. これに関連して,別の聴講者より,相手のタイプを見て対応を変えるというのは 面倒ではないかという質問があり,社内SNSや会議をおこなう場合に 有効と考えているとの回答があった. 今後の方針として学習アルゴリズムを適用することについて,聴講者より, 個人に対しての学習か,それとも全体での学習なのかという質問があり, 発表者より,ユーザごとにSNS使い慣れの差もあるため, ユーザ単位でエージェントが重みを補正するようにするつもりであるとの 回答があった. このことに対し聴講者より,分析の自動化とは反するのではないかとの 指摘があったが,発表者より,新規のユーザに対してはエージェント間で 対話をおこなうことによってよりよい学習をおこなっていくつもりとの 回答があった. また,分析に必要なデータ量についての質問には,発表者より, 満遍なくSNSの機能を使っているユーザであれば,ある程度 少なくても対応できるが,使う機能が偏っているユーザもいるため, 曖昧であるとの回答があった.
聴講者からのコメントとして,分析結果が時系列的に変化していく様子が 見られれば面白そうであるという意見や,背景として挙げていたSNSの 問題点を解決していくことへの利用も考えられそうである,といった 提案もあった.
オープンソースソフトウェア開発コミュニティの発展過程の分析
 ○山田和明(東京大学)
概要
本稿では,オープンソフトウェア開発コミュニティの時間的発展プロセスを理解するために,オンラインコミュニティの活動履歴の分析方法を提案する.今後,コミュニティメンバーの活動やメンバー間の関係の時間的発展プロセスを正しく理解することは,新しいインターネットサービスやオープンソースソフトウェア開発コミュニティの支援方法を考える上で重要である.そこで,本稿では,オープンソースソフトウェア開発コミュニティのメーリングリストログデータからコミュニティメンバーの活動やメンバー間の関係の発展プロセスを抽出することを試みる.
Keywords: オープンソースソフトウェア開発コミュニティ,発展過程,可視化

質疑応答議事録
聴講者より,本発表ではMLでのコミュニティの時間的変化を分析しているが, SNSに適用した場合,どのような違いが見られると考えられるかとの質問があり, 発表者より,コミュニティ間で共有している知識が伝播していく様子が 見られるのではないかとの回答があった. 関連して,聴講者より,本発表では対象が開発プロジェクトであるために 用語や正確な言葉遣いが見られているが,対象によっては うまく抽出できないのではないか,との指摘があり, 発表者より,過去の分析結果として,例えばプログラマーとデザイナー間では, 最初は役割・文化の違いによる言葉遣いの相違があるが, 徐々に統一されていく様子が観測できた事例が示された. また,聴講者より,OSSではコミュニティの活性化に重要な時点で, 局所的に発言が増える段階があったり,また,協力的な別のコミュニティから 貴重な発言が入ることもあり,そういったものも普段の行動と一緒くたに 扱ってしまうことにならないのかという指摘があった. これに対しては発表者より,メールアドレスからそういった重要なユーザが いることは予想できており,どういう影響をもたらすのかを ピックアップできれば面白いとは考えていたが,どう扱えばよいのかが 難しいという回答があり,質問者より,CVSの履歴から 抽出する手法が一例として提案された.
聴講者からの意見として,松村らのNPO内でのML分析を例に, リーダーの貢献度合いとコミュニティの盛り上がりの関連のような, 組織論まで踏み込んだ分析にする方向性も示された.
16:20-17:00 セッション8(ショート発表)
座長:脇田建(東京工業大学)
副座長:熊本忠彦(NICT)

Web-based element recovery in machine translation
 ○Jing Peng ・ Kenji Araki (Hokkaido University)
概要
in this paper, we show how to recover unexpressed elements in Chinese-English machine translation by combining the web and the classical approaches that are rule-based and machine learning approaches. The combination largely relies on the significant improvement of using the web as a rich knowledge source to natural language processing. Two routine tasks addressed in the paper are zero anaphora resolution and article recovery. In both cases, the way how to incorporate the web into the existing approach is described, as well as the results of different experiments carried out to show the validity of the combination.
Keywords: machine translation, web knowledge, zero anaphora, article recovery

質疑応答議事録
座長から,中国語と日本語の共通性,日本語処理への応用可能性について 質問がなされた.これに対し,発表者は中国語にも日本語にも冠詞がないと いう点とゼロ代名詞が多用されるという点を指摘し,日英翻訳においても重要な 役割を果たすと回答した.また,聴講者から,Webを中英翻訳の何に利用する のか,どうやって利用するのか,という質問があったが,時間切れのため,十分 な回答は得られなった.
ソーシャルブックマークからのセマンティクス抽出に向けて
 ○森田想平(内田洋行)
概要
近年、WEB上の情報を迅速かつ効率的に探索する手法の重要性が増している。多 数の情報の中から、ユーザに関連する情報を効率的に抽出・推薦する手法を、情 報フィルタリングと呼ぶ。本研究では、ユーザの興味の変化に敏感に反応し、 「ユーザがこれまで興味を持っていなかったが、いままさに興味を持ち始めた情 報」を推測し、推薦する情報フィルタリングシステムを構築する。システムの実 装に際して、近年急速に普及してきたソーシャルブックマーク(SBM)のデータを 利用する。SBMはユーザの興味範囲を推測するための有益な情報源と考えること ができる。提案システムは、データベース、関連情報推論モジュール、興味範囲 推論モジュールから構成されている。
Keywords: ソーシャルブックマーク,情報フィルタリング,推薦システム,アルゴリズム

質疑応答議事録
聴講者から,ソーシャルブックマークは怖い,optimizationがすぐできて, いろいろな知識を得ることができるというコメントともに,知識の公平性は 保たれるのかという質問がなされたが,発表者からは,重要な問題であると 認識はしているが,現時点ではno ideaであるという回答がなされた. また,別の聴講者から,情報探索時におけるサイトの推薦は,業務の効率化 という点から考えた場合,周辺情報が多くなりすぎると,本業(最初の探索目的) を忘れてしまうという危険性もあるという指摘とともに,探索(推薦)範囲を 拡げすぎない,あるいは業務に関連した情報を選択するといったことに関して 何かアイデアを持っているのかという質問がなされた.これに対し,発表者は, オントロジーや文書分類といった技術を用いれば,探索範囲に制限を掛けることも 可能であると回答した.また,別の聴講者から,デモの処理時間に関する質問が なされ,発表者は180万個のURLに対し,3分程度かかっていると回答した.
PLSIを用いたSBMユーザとタグの関連の可視化
 ○毛受崇,江田毅晴,山室雅司(NTTサイバースペース研究所)
概要
PLSI(Probabilistic Latent Semantic Indexing) を用いて, folksonomy デー タから利用者に興味の近いユーザを発見する手法について提案する.
Keywords: ソーシャルブックマーク, SBM, Folksonomy, PLSI

質疑応答議事録
聴講者から,WWW2006の論文(引用文献[2])との差異に関する質問がなされた. これに対し,聴講者は,手法はほぼ同じであるが,評価可能なものを実装した点, ユーザの類似性を計るアプリケーションに応用した点が異なっていると回答した. また,類似ユーザを発見する手法についての質問に対しては,確率分布用の 距離計算手法であるJS-divergenceを用いているという回答であった.また,従来の 単純一致的な手法に比べて有効かという質問に対しては,有効であり,かつ 応用範囲が広いという回答であった.

「これまでの活動」に戻る
 
本ページに関する問い合わせ
wi2−webmaster@mail,ieice.org