概要 今日のWeb画像検索システムは,検索手法には一般にWebページのHTML情報(画像付近のキーワード等)を用いており,画像そのものの特徴を用いて検索を行うことは少ない.また既存の画像検索システムの結果を元に検索結果を改良する研究も行われているが,その場合も検索結果の返す画像に付随するテキスト情報と画像の関連性を重視しており,画像情報による精度向上の検討は行われていない.そこで筆者らはWeb画像検索システムが返す検索結果に対して画像特徴を用いた分類を行い,画像の類似度が低いものをフィルタリングする手法を開発し,Web画像検索システムの精度向上について検討した. Keywords: Web画像検索,クラスタリング 質疑応答議事録 聴講者より,「K-means法はクラスタのサイズが同じであることを仮定としているため,クラスタのサイズが異なるものでうまくいかないのは自明である.半径を変えられるEMアルゴリズムなどを検討してはどうか.」というコメントがあった.また,他の聴講者から「画像検索結果の正解が多い中で不正解が少ないというのは,どれくらいの割合あるものなのか.」という質問があり,発表者からは,「全てを網羅的にやったわけではないので全体の中でどれくらいの割合かは分からない.画像検索で使われる70個くらいのキーワードで,動物や花などの画像データを調べた.花は,女の人の名前である場合があり,アダルト画像が1件目に出ている場合などを除去できる.」という回答があり,質問した聴講者から,「そのような場合が特徴となる分野を対象として特定すると良いのではないか.」というコメントがあった.また,他の聴講者から「実験結果のトマトの検索結果から,明らかにトマトであるものが,一つ除去されてしまっているのは,なぜか.」という質問があり,発表者から,「提案手法は適当にやるより有意な差はあるのだが,除くべきでないべきものが除かれたり,除くべきものが除かれない,ということがあった.除去されたトマトの画像は,赤色の部分はあるが,白色の部分が多かったので分類としてうまくいかなかったと考えられる.」という回答があった.また,他の聴講者から,「不正解が少ないものを対象としているが,実験の中で不正解の枚数が多いものと少ないものの間で精度との関係はどうなっているか.」という質問があり,発表者から「40件のうち15件〜20件くらいまではうまくいくが,上位20件以上が不正解となると難しい.」という回答があった.また,他の聴講者からの質問として,「画像検索は,画像の周囲のキーワードを使う手法であるとのことだが,『花の名前であって,女の人ではない』といった検索結果は,(1)画像検索結果の特徴からフィルタリングするのか,(2)画像一般を対象とするのか」という質問があり,発表者から,「(1)を考えている,(2)は画像収集から考えないといけないので画像検索結果から考えることとした.ある程度の正解集合があることを前提としている.」という回答があった.
概要 形式的な文書構造を有するHTMLやCSVなどの入力文書を,語の意味と文書構造の意味を条件とする宣言的な文書モデルに基づいて目的のカテゴリへと分類する新しい文書分類方法を提案する.提案手法では,入力文書中の語の意味を意味クラス解析技術と文字列照合によって解析する.また,隣接する部分構造間の類似性に基づいて入力文書の形式的な構造をボトムアップにまとめ上げた後に,ヒューリスティックなルールを適用してまとめ上げられた各部分構造の意味を解析する.これらの解析結果を,適用するタスクごとに詳細に定義された文書モデルと比較することにより,ロバストで高精度な文書分類を実現すると共に,文書モデルを簡単に記述できる可読性の高い記述形式を提供することで,文書モデルの作成やメンテナンスに必要なコストの低減を目指す.本提案手法に基づくシステムを試作し,既存のWebコンテンツや企業内文書を入力とした分類実験を行ったところ,20及び72カテゴリへの分類で,90%以上の分類精度を達成し,本手法の有効性を確認することができた. Keywords: 文書分類,固有表現抽出,意味クラス,文書構造解析 質疑応答議事録 聴講者より「ヒューリスティックで手作業でルールを作っているが,機械学習でルールを作るということとの比較は行っているか.」という質問があり,発表者より「クラスタが複雑なので学習が難しい.今後の課題である.」という回答があった.また,他の聴講者より,「人手でルールベースのようなものを作る場合,その人的コストや費用対効果をどう考えたらいいか.」という質問があり,発表者より「人手で今回ある程度望みどおりの結果が得られることが分かったので,今後は事前にある程度自動処理するなどのサポートが必要になってくる.」という回答があった.また,他の聴講者より「精度95%ということは,20文書に1個は間違っていることになる.業務上,どれくらいの精度があればいいか.」という質問があり,発表者より「今のところどれくらいあればいいという具体的な数値はなく,今回は95%の精度であった.アプリケーションを見ながら精度を高めていく.」という回答があった.また,他の聴講者より,「IT系の文書はWeb全体からみると少ない.他のものにも少ないコストで拡張できるか.」という質問があり,発表者より「今回システムを作って評価するところまでいった.このシステムのモデル自体は出来ているので,モデルを新たに作るコストが無視できるという点では今後,少ないコストで拡張していけると考えられる.」という回答があった.
概要 Doblogにおけるブログ記事とそのユーザに対して行った大規模なアンケート調査結果を対応づけて利用し,ブログ記事から書き手の性別を判別するシステムを構築した.男女を区別しないブログ記事,男性の書いたブログ記事,女性の書いたブログ記事,男性だと判別されたブログ記事,女性だと判別されたブログ記事のそれぞれからキーワードを取り出し,得られたキーワードの違いについて検討した.その結果,男女を区別したウェブ広告,男女別評判情報の収集に利用できそうなことが明らかになった. Keywords: 文章分類,男女分類,blog,SVM,分類困難な文書の事前排除 質疑応答議事録 聴講者より,「男女差は文末表現に現れやすいが,品詞を名詞などに限定したのはなぜか.」という質問があり,発表者から,「この研究は,自立語に限定した男女分類というところから考えている.名詞以外ものとして,記号は顔文字に対応するので面白いと思った.しかし,男女別でどういう顔文字が使われるかの精度が上がらないという問題があった.」という回答があった.また,他の聴講者から「N-gramは,いくつくらいが有効か.」という質問があり,回答者から「せいぜい5,ほとんどが3が有効だった.」という回答があった.また,他の聴講者より,「男女の分布を知りたいのなら,SVMは,feature間の依存が入ってしまうので単語を独立に考えるのならロジスティック回帰を使ったほうがいいのではないか.」というコメントがあった.また,他の聴講者から,「ブログの文章ならではの特徴はあるか.」という質問があり,発表者から「ブログ以外と比較していないので分からない.」という回答があった.他の聴講者から「今後の課題である年代別ということについてアイデアがあれば聞きたい」という質問があり,発表者から「どうすればよいかというアイデアは今は特にない.」という回答があった.また,他の聴講者から「ブログからトレンドを見たいというとき,トレンドはどれくらいとれるか.そのトレンドは広告に使えるか.」という質問があり,発表者から「トレンドが取れるか,またトレンドが広告に使えるかは分からないが,ブログ文章ならではの特徴が出てきている可能性はある.」という回答があった.
概要 語義の曖昧性を解消は自然言語処理お様々な分野で必要不可欠なタスクである.本論文では,特にWebにおける語の曖昧性に着目し,Web上の情報を用いることで,語義の自動識別を行う手法を提案する.検索エンジンを駆使することで,低いコストで関連語の収集,関連度の算出を行う.また新しいクラスタリング手法を適用した関連語のクラスタリングを行うことで,語義の自動識別を実現する.さらにWebデータを用いた実験で手法の有効性を確認する. Keywords: 語義の曖昧性解消,Webマインニング,シソーラス構築,クラスタリング 質疑応答議事録 聴講者より「関連語をGoogleの結果から取るということを考えているが,Googleの結果はそもそもこういう用途に適しているのか.Googleの結果のトップを見るのではなく,下のほうも見ないとうまくいかないのではないか.」という質問があり,発表者から「それは問題として考えている.上位1000件をとってきて,検索結果の下位のものも見るようにする必要がある.」という回答があった.また,他の聴講者より「提案手法はWebページ全体を対象としているが,キーワードの周辺にしている既存の論文もある.提案は語の周辺の共起ではないということか.」という質問があり,発表者より「Webページの全体を対象としているというのが今回やったことである.ページ単位で扱い,候補が多いほうがいいと考えたためページ全体とした.」という回答があった.質問者から「Webページの全体にいろんな話題が含まれる,話題の多いものもある.たとえばニュースのヘッドラインなど.それは問題にならないか.」という質問があり,発表者から「候補の段階で取り出すときはWebページ全体を見るが,関係のないものは後で切られるようになっている.」という回答があった.また他の聴講者から「従来手法との比較はどうするのか.」という質問があり,発表者から「Web検索エンジン使っているので従来手法と単純に比較できないが,snippetでやった場合との比較が可能ではないかと考えている.」という回答があった.また,他の聴講者より,「今回,カイ二乗値を使ったらうまくいったというが,それは,スケールフリー性をもたなくなったためか.」という質問があり,発表者から「そこは調べてみたいとわからないが調べてみると面白いかもしれない.」という回答があった.
概要 情報検索サービスにおけるWebページ分類は,収集した情報をユーザへ体系的に提供するために有用な技術である.我々は,Webページ分類を実現する技術としてサポートベクトルマシン(SupportVectorMachine,SVM)に着目し,我々の提案するNaiveBayesを利用した素性選定法によるWebページ分類を試みた.Web空間において,正例数は負例数と比較して一般に少ない.また,分類器の性能を決定する要因の一つに訓練データの性質がある.本稿では,訓練データ中の正負例数の比率および訓練データ数という観点からクーポンページの分類性能を評価した.また,我々の提案する素性選定法による分類処理の汎用性を確認するため,就職情報ページの分類を試みた結果,良好な分類性能を示した. Keywords: 素性選定,サポートベクトルマシン,ナイーブベイズ 質疑応答議事録 聴講者より,「なぜ検索結果ではなくSVMを使うのか.」という質問があり,発表者より,「ベースラインをどこにおくのかという問題がある.SVMは,いろいろな分野で使われているのでそれをベースとしている.」という回答があった.さらに質問者より,「今は検索の結果というのはもう得られている状態だが,それをもっと難しくしているのではないか.」という質問があり,発表者より,「検索結果の下のほうにあるユーザが求める情報も得られるようにしたい.」という回答があった.これについて質問者より,「検索結果を使うことで,正負の比率が逆転する場合も出てくるかもしれない.」というコメントがあった.また,別の聴講者より「クーポンを探すというのであれば,特徴的な画像を使うということも考えられるか.」という質問があり,発表者より「HTMLタグも形態素として取り出しているのでIMGで指定するファイルなども含まれている.」という回答があった.これについて質問者から「つまり,形態素解析にテキストだけでなく,HTMLを全て使っているのでできるということか.」という確認があり,発表者から「今はHTMLの構造などを考えず,そのようにやっているので,厳密なやり方ではないが,画像なども考慮した結果となっている.」という回答があった.
概要 本研究では携帯電話を用いたWebページ閲覧においてユーザのスクロールを補助するためのアノテーション提示手法を提案する.提案手法では,他のユーザが過去に行ったWebページ閲覧におけるスクロールの履歴を用いてアノテーションを提示する.つまり,複数のユーザ間でWebページのスクロール履歴を共有する.まず,スクロール履歴の解析により,Webページ内のユーザが精読した箇所や,どちらにスクロールすればいいのか分からなくなることが多い箇所を検出する.そして,この検出結果に基づいて多くのユーザが精読したページ内の有用なコンテンツへユーザを導くようアノテーションを提示する. Keywords: 携帯電話,Webブラウジング,スクロール,アノテーション 質疑応答議事録 聴講者より,表示サイズに物理的制約のある携帯を使っているので,物理的な大きさでセルを切っているが,ユーザーが読むときは論理構造を反映したセルを単位として閲覧するのではないかと質問があり,発表者からは現在のHTMLからそうした論理構造が抽出できるとは限らないため,50ピクセルで区切ったとの回答があった.他の聴講者からは,モバイルの場合,観ている最中に中断することがあると思う.しかしこの方式では閲覧状態と解釈されてしまうがどうか,という質問があり,発表者からは今回は実装していないが,センサーの値からそうしたケースを除去できるのではないかと考えているとの回答があった.続けてニュースサイトのように更新の頻繁なページで注目セルというのはどういうふうに扱うのか?と質問があり,今後の検討課題としたい,と回答があった.さらに別の聴講者より,学習したパターンを別のドメインにもっていくことは可能かと質問があり,将来的にはドメイン毎にカテゴライズし,ページのカテゴリーに合わせて提示することが考えられる旨回答があった.最後に「注目」の判定基準としている0.45秒という値ははどこからでてきたか?またアノテーションをつけるのにユーザーの情報を付けているが,それにユーザのプロファイルは考慮しているか?という質問がなされ,発表者からは予備実験の結果から0.45秒を設定した.しかしユーザプロファイル(例えば年齢)によってその時間は異なると考えられるので,将来は携帯のプロファイル情報を用いてそうした変化を反映させたいと回答があった.
概要 近年,携帯電話を用いたWeb閲覧が一般的なものとなっている.しかし,公開されているWebページの大部分がPCでの閲覧を前提としており,小さなディスプレイと貧弱な入力インタフェースしかもたない携帯電話では,そのようなページを快適に閲覧することは困難である.携帯電話を用いたWeb閲覧では,まずユーザはWebページ全体から閲覧するコンテンツを探した後,そのコンテンツの内容を詳細に閲覧するため,コンテンツの特性に応じた細かで煩雑なスクロール操作を行う.そこで本稿では,ユーザが詳細に閲覧したいコンテンツをその特性に応じて適応的に提示することで,細かで煩雑なスクロール操作を解消する手法を提案する. Keywords: 携帯電話,Webブラウジング,オーバビュー,適応的提示 質疑応答議事録 聴講者よりコンポーネントの特性の認識率について質問があり,コンポーネント特性の正解率は98%.誤認識した2%は,例えば空白が多いコンポーネントをリンクではない,と認識したような例である,と回答があった.また自動スクロールの効果を評価するためには,比較システムにもオーバービューの機能を持たせるべきではないかという意見が出された.他にはHTMLの意味的な構造を解析し,もともとのレイアウトに拘束されず分割のサイズを決定,あるいはユーザに見やすい表示を行ってはどうか,という意見が聞かれた.発表者からは将来的には意味を反映した分割を考えたい,文章のレイアウトの変更については今回はWebページのキャプチャ画像を表示しているため実現できていないが,今後ページ内のテキストのみを抽出し,携帯電話上で表示するなどして実現したい旨回答があった.最後に実験の時には被験者が知らない情報を選んだと思うが,知っているページだと自分で行く場所が分かるので自動スクロールが不都合にならないか.また自動スクロールに対する主観的にネガティブな反応はなかったか,と質問があり,発表者から巻き戻し,早送り機能を付けているので,行きたい場所が分かっている時にも自動スクロールが妨げにはなっていないと思う.また実験後にアンケートを実施し,ユーザ ーの感想をとっているが,自動スクロールに対してはおおむね好意的だったと回答があった.
概要 近年,複数のWebサイトにまたがって存在している同一テーマの大量のWebコンテンツをどのように分類し統合して提示するかが大きな問題となっている.筆者らは,複数のニュースサイトから収集した大量の記事をユーザの閲覧履歴に基づいて分類し,そのユーザが使い慣れているニュースサイトのトップページに写像して提示するという新しいタイプのニュースポータルサイト「My Portal Viewer(MPV)」を提案してきた.MPVは,閲覧した記事から頻度情報を用いてキーワード(ユーザが興味のある語)を抽出し,その興味語の有無を基に収集した記事を分類する.この時,新しく生成したカテゴリの名称を興味語そのものとすることにより,各々のカテゴリにどのような記事が含まれているか判別しやすくしている.しかしながら,その一方で,興味語の有無という分類基準だけでは,ユーザの好む記事と好まない記事をうまく分離できないことがあった.そこで,本論文では記事の印象というこれまでにない新たな分類基準を導入し,ユーザの記事に対する選好を印象と興味の両面からモデル化するとともに,提案モデルをMPVに実装し,ユーザが共感(感情移入)しやすい記事を優先的に提示するMPV Plusについて検討する. Keywords: ユーザ選好,ユーザモデル,印象マイニング,個人適応,ニュースポータルシステム 質疑応答議事録 聴講者より印象が良い,悪いではなく,印象があるかないかを分けるのが普通だと思う.また自分の読みたい記事ばかり提示するようになる危険性があるのではないかと質問があり,抽出された興味に対して,バランスのとれた情報を提示するような試みをしているところである,と回答があった.また別の聴講者より尺度の平均値の推移のグラフで前者は片方に収束し,後者は別れているがなにか相関があるのか?と質問があり,元となった感情の分類は円上に配置されているので近い物,遠い物がある.そうしたところが出ているのかも知れないと回答があった.最後にそもそも興味と印象が相関するのか?記事を読むときは内容に興味があるのであり,印象で読むわけではないのではないか?と質問があり,発表者から全体にまんべんなく読んでいる人はDon't Careと判断し,ユーザの興味が偏った場合にこの方法を適用する,と回答があった.重ねてこうした方法には得意,不得意な分野があるのではないか,という意見が出された.
概要 本研究では,Web上の情報を利用して,行動の提案と主観に基づく地域情報による関連情報の提示を行ない,目的が曖昧な場合の行動を支援するシステムを提案する.本稿では,旅行時における場所(スポット)を訪問するという行動を支援の対象とし,現在地を始点とした訪問プランを提案し提示する.Web上には有益な情報が多数存在するが,行動を支援するための情報を取得するという点ではいくつかの問題がある.キーワード検索において文脈の取得ができないことや,検索クエリとして表現が困難な場合があることなどが挙げられる.これらの問題を解決するために,本システムでは目的が曖昧な場合でも満足の行くプランの作成や提示をし,主観情報を利用して場所に関して意外性のある情報を提示する.さらに位置情報を利用した主観情報の信頼性の検証を行なう.提案するシステムを実装し,実験によるシステムの検証とアンケートによるシステムの有用性の確認を行なった. Keywords: 行動支援,位置情報,主観情報,文書の検証 質疑応答議事録 聴講者より地域情報の正答率を考慮しているが再現率はどのように評価しているか質問があり,データを取っていないので正確な答えはないが,あまり高くない,と回答があった.正答率を改善するためにはどのような手法が必要かと重ねて質問があり,文書をより深く解析することで,精度向上が図れると考えていると回答があった.また別の聴講者より地域情報をとってくるときにランキングも重要になると思うが,それをどう考えているか?と質問があり,記事の新しい順に提示するようにしている.回答があった.それに対し目的にあったフィルタリングがあるべきでは,という意見やGoogleのランキングは有益な情報を探すのに大変効果的で有る,考慮すべきといった意見が聞かれた.
概要 本稿ではユーザのWeb閲覧履歴からトピックマップを抽出する方法を述べる.我々の提案するトピックマップの抽出方法は,従来の階層的クラスタリングをWebのリンク構造による制約とリンクの種類に応じた重み付けを用いることで拡張したものである.トピックマップはユーザのWeb閲覧履歴を可視化するだけでなく,履歴ページやその周辺ページから抽出したトピックやトピック間の関係も合わせて提示する.いくつかのWeb閲覧履歴から提案手法を用いてトピックマップを抽出し,提示されるトピックやトピック間の関係について評価を行った. Keywords: Webからの情報抽出,クラスタリング 質疑応答議事録 聴講者から「研究の狙いとして,履歴を使うことで,検索エンジンでは探せないユーザが昔調べたページを発見するという主張があったように思う.そのためには,特定の履歴がどの時間に対応するかという情報が重要である.時間とトピックに関するインデックスがつけられるかどうか.トピックについては分野に対応する単語を区別することが重要」というコメントがあった.発表者からは,「大きなカテゴリではこの分野というインデックスをつけることができればと考えている.時間に関するインデックスは今後の参考にしたい」との回答があった.他の聴講者から「リンクを4ステップまでたどるとかなり多くのページが収集できるが,何かフィルタなどでカットしていないのか?また,今回何ページ集めたか?」という質問があった.発表者から「ページの製作者の趣味でリンクが張られているページからの情報も取るという意味合いで多めに収集している.フィルタは考えていない.今回は1200ページ程度収集した」との回答があった.また,座長から「クラスタ間でリンクを張るか張らないかについて,何本リンクがあったら張るのか?」という質問があった.発表者から「現在は,クラスタが属するページ間でリンクの関係があれば張ってしまう.クラスタの主要トピック間のリンクを張るということは今後の課題としたい」との回答があった.
概要 ディスカッションマイニングは,人間同士の知識交換の場であるミーティングの活動から,映像・音声情報やテキスト情報,メタデータなどの実世界情報を獲得し,それらを半自動的に構造化することによって,そこから再利用可能な知識を抽出する技術である.本研究では,ディスカッションマイニングシステムから取得した実世界に関するコンテンツやメタデータを取得・解析することによって,会議の構成要素間の意味関係を表すディスカッションオントロジーの構築を行う.そしてディスカッションオントロジーに基づき,会議における重要コンテンツや重要議論の発見ならびに会議参加者の行動解析・支援を行う. Keywords: ディスカッションマイニング,会議支援,グループウェアアノテーション 質疑応答議事録 聴講者から「今回の課題である研究室内のディスカッションは意図が明確につけられる課題であるが,意図を明確につけられないような課題はあるか?対象とする意図の定義を明確にした方がよい」とのコメントがあった.発表者から「今回の課題では,意図が明確でない発言は冗長という位置づけで,良い議論を行う上で,参加者が意図を明確にすることを意識している.意図を明確にしないような課題は別のターゲットとなる」という回答があった.他の聴講者から「これを使ってどのようなユーザの利益があるか具体的に知りたい」という質問があった.発表者から「4年ほど運用しており,学生が入れ替わる際に,過去にやったことを新しい学生に伝えるためにこの議事録の内容を見せるようにしている」との回答があった.他の聴講者から「議論の状態遷移図により,新入生や研究室の知識を持っている人などの区別や議論の紛糾などを抽出できるか?」という質問があった.発表者から「今後やってみたい.個人個人の状態遷移図は変わってくるため,新人の議論の稚拙さなども推定できるかもしれない」という回答があった.他の聴講者から「タグ付けは人によってゆれがあるので本当に意味があるのか.また,この研究が何を目指しているのかがわからない.議事録として使うのであれば真っ当だが,この例ではタグは必要ないのでは?会議の構造を明らかにする上ではタグが重要であるが,その場合このタグでいいのか?」というコメントがあった.発表者から「議論グループによって有用なタグが異なるかもしれない.利用方法を考えていきたい」との回答があった.
概要 キャンペーン等のイベントにより生じる,Webサイトの突発的なアクセス増加を,1時間毎ないし10分毎といった時間単位で予測する需要変動予測方式を開発した.本方式は,利用者がイベントを知ってからアクセスするまでの行動に要するタイムラグをモデル化し,モデルに基づき需要変動の予測を行う.商用サイトのイベント性変動予測に適用し,限定された条件下で,本方式の有効性を検証できた. Keywords: 需要予測,Webマイニング,オンデマンド,機会損失,サービス品質,サービスサイエンス 質疑応答議事録 聴講者から「すぐにアクセスしたい即時行動者など特定の行動タイプに絞った場合精度がどれくらい落ちるか?」という質問があった.発表者から「イベントの種類と利用者のコミュニティにより行動タイプの分布は決まると考える.よってタイプを絞って予測に使うことは考えていない」との回答があった.同じ聴講者から「その場合パラメタは人手のチューニングが必要なのでは?また,パラメタの数は増やせるのでは?」との質問があり,発表者から「人手の判断を含んでいる.また,一事例分析した結果から,同じタイプの行動者は同じようなパラメータが多いと考えている.パラメタの数は,どこまでシンプルにできるかと表現力を高められるかのトレードオフがある」との回答があった.他の聴講者から「イベントの存在を知るということもパラメタとして入れられないか?サイト外部で起こる事象にも因果関係をつけるのか?」という質問があり,発表者からは「今後の課題であり,今回はサイト内のイベントにフォーカスしている」との回答があった.他の聴講者から「“いつイベントの告知を行うと予測したようなアクセス数がある”ということがこの研究からわかるのか.また,予測の幅があるが妥当か」という質問があった.発表者からは「本研究は“広告を増やす”などの対策を打つために予測を利用する.予測の幅については1事例のため統計的な妥当性はない.統計的な信頼区間を議論するためにはイベント事例を多数集める必要があるが,まず少ないイベントからモデルを作成している」との回答があった.他の聴講者から「どれくらいの精度があれば実用的か?」という質問があり,発表者から「R二乗値で80%がめど.しかし,波形の精度がずれていてもピークがずれていた場合にはよくない.また,“広告を増やす”“サーバを増やす”といった対策の制約によっても実用性は変わる.ある程度の精度があればこのような対策を設定できるという観点から実用性を議論できる」という回答があった.
概要 ウェブ構造マイニングとは,ウェブページのリンク構造に注目し,ウェブ上のコミュニティの発見などを目指す分野である.リンク構造は通常,ウェブグラフとして表現され,このときコミュニティやその核となるページ集合は,ウェブグラフ内の密な部分グラフと考えられることが多く,その部分構造を列挙することで構造マイニングを行う.本報告では,おもに近年提案された孤立クリークという構造を用い,実際のウェブデータを対象に有用な情報の発見を目指す.その結果,孤立クリークは,そのほとんどが単一のドメイン内部に存在するメニュー構造であることが判明し,リンクファームと呼ばれる人為的で有害なリンクの検出に極めて有効である可能性を持つ.一方,複数のドメインにまたがる孤立クリークの中に意味のあるコミュニティが存在することが判明し,孤立クリークの有用性を確認した. Keywords: キーワードウェブグラフ,ウェブ構造マイニング,ウェブ・コミュニティ,リンクファーム,孤立クリーク 質疑応答議事録 聴講者から「ドメインを横断する孤立クリークを発見する際にノードを縮退する処理は入っているか?」という質問があった.発表者から「そのような処理は入れていない.元のページの点とリンクを保持したまま孤立クリークを列挙する.ドメインを横断した孤立クリークは,すべての孤立クリークを取り出した後,構成するページがすべて同一ドメインに属しているものをのぞいたもの」という回答があった.他の聴講者から「双方向リンクを無向辺とする以外のやり方は試されたか?また,そのことによって実験が容易になったのでは?」という質問があった.発表者からは「それ以外の実験は行っていない.実験が容易になった原因は,枝数が少なくなることが本質的な理由ではなく,孤立クリークは(直感的には)構造同士が排他的に存在し,重複しないので列挙が容易になるため」という回答があった.他の聴講者から「孤立クリークによって取り出せるものとして最初にどのようなものを意図していたか?」という質問があり,発表者から「最初の段階で意図はなかった.むしろWeb全体に対して取り出せる構造を先に探してみたい.これによってどういったものが取り出せるかというものを期待してやったわけではない」という回答があった.
概要 あらまし現在のアノテーションに関する研究のほとんどがコンテンツの種類に依存したものであるため,複数の種類のコンテンツを同時に扱った応用を実現することが困難である.そこで我々は,コンテンツの種類に依存せず容易にアノテーションを生成・利用できるアノテーションプラットフォームAnnphony(アンフォニー)を構築している.本プラットフォームでは,コンテンツの構造と,詳細部分に対する個人の解釈・嗜好に関するアノテーションを扱うために,任意のコンテンツの文節化を実現するElementPointerを提案し,そのプロセッサを実装する.またRDFを一部拡張することにより柔軟なリレーション記述を可能にし,アノテーション定義の共有・利用を実現する.さらにアノテーションやその定義を扱うための機能について述べる. Keywords: スキーマ,アノテーション,デジタルコンテンツ,セマンティックウェブ 質疑応答議事録 聴講者より,コンテンツが変化あるいは更新された場合アノテーションへの反映はどのように処理するのかとの質問があり,発表者からは更新されたコンテンツに対してアノテーションの必要・不要を自動的に判別するのは困難であるため,現状ではコンテンツ変更の通知をアノテータに対して行うことが限界であるとの回答があった.他の聴講者より,アノテーションに対するアノテーションが可能になると無限にアノテーションを行うことが可能になるのではないか,という指摘があり,発表者からはアノテーションは情報の不足を補足するのなら無限に連鎖しても良いものであり,それに対応できるプラットフォームを用意するべきであるとの回答があった.最後に他の聴講者から実装がどこまで進んでいるのかという質問があり,発表者からはElementPointerをRDFSを用いて定義するだけではなく,画像や音楽などコンテンツを処理するためのプロセッサを用意する必要があるが現在は準備段階であるとの回答が得られた.
概要 Q&A機能を備えたTVエージェントシステムの開発を目指し.番組に関連した知識の構造化手法について検討を進めている.本稿では,野球番組における様々な問い合わせを実現するために,野球オントロジーを用いて試合に関する知識メタデータを作成する手法,及びそのメタデータを利用して柔軟な情報抽出を行う手法について述べる. Keywords: スポーツ,オントロジー,知識ベース,メタデータ 質疑応答議事録 聴講者より,試合中に発生したイベントだけでなく,選手の過去やキャリアなどといった試合に閉じていない質問にも対応できるかという質問があり,発表者からは選手の記録に関して,選手に関する情報も構造化知識として用意しているが,実際にはシステムに入力される質問を想定するのが難しく,発散してしまうとの回答があった.また同じ聴講者より,想定する場面が少し席を離れて戻って来た時に試合の現状を知りたいというものなら,最近のHDDレコーダでも可能なのではないかという質問があったが,発表者からは用途に応じた使い分けにより,競合することはないとの回答があった.また他の聴講者より,情報を提供する側の概念体系ではなく,質問者側の概念体系の位置づけはどうなるのかとの質問があり,発表者からは質問者側の概念体系を構築するためには,嗜好と結びついたユーザプロファイルが必要であるとの回答が得られた.同じ聴講者より,複数の情報リソースからイベントが送られてきた場合の統合の方法について質問があり,発表者は自然言語からのメタデータ生成を利用することを検討しているとの回答が得られた.最後に他の聴講者より情報番組におけるノウハウとは何かとの質問があり,発表者からは実際の番組で紹介された情報のオントロジーを蓄積し,ユーザの質問に対応できるような仕組みを考えているとの回答が得られた.
概要 本論文では散在するWebコンテンツ群を自在な編纂によってタスク指向型のWebシステムにおいてインタラクティブかつ目的指向に活用できる新しいWebプラットフォーム技術を提案した.本技術は,コンテンツと利用条件の組で定義されるピースと,利用条件を持ちピース群を収納するパネルの反復再帰構造を持つXML複合文書フォーマットであるXML-P'z,およびWebページを越えたピースのドラッグ&ドロップと連動した利用制御によりデータの可塑性と適正利用を実現するVisual eXcartから構成される.アプリケーションと定性評価により,当該システムがWebコンテンツの情報整理に有効であることが確認できた. Keywords: Web,XML,情報整理,編纂,再利用,知識活用 質疑応答議事録 聴講者より,提案手法においてプラットフォームに対応させて文書を書くための作成コストに関する質問があり,発表者からはRDBに構造的なデータがあれば,それを変換することで容易に出力できるが,セキュリティポリシーの設定などの利用制御にコストがかかるとの回答があった.同じ聴講者より,定量評価のための実運用のプランに関して質問があり,発表者からは具体的なアプリケーションとして,電子カルテのように医療分野でのアプリケーションが有効であるとの回答が得られた.最後に他の聴講者からは,現在のアプリケーションの位置づけや事例についての質問があり,発表者からは研究・開発中であるとの回答が得られた.
概要 近年,インターネット上のコミュニケーション手段としてブログが盛んであり,その情報源としての地位も確立してきている.本稿では,ブログ間の情報の伝播について,「ミュージカルバトン」という,ブログ上の一種の伝言ゲームを題材として取り上げ,この情報伝播を感染症流行モデルに基づいてモデル化することを試みた.その結果,情報を取得してから反応するまでの時間差を考慮し,さらに,この時間差がべき分布に従うことを利用することによってモデルの高度化を試みた. Keywords: ブログ空間,SIRモデル,スケールフリー 質疑応答議事録 聴講者より,対象をミュージカルバトンだけでなくブログ空間へ拡大した情報伝播への適用の可能性についての質問や,ブログ全体を対象とするのであれば,特異な形態であるバトンに特化せずに,範囲を拡大させた方が良いとの意見があった.発表者からは,今回は実データを利用した試みの第一段階としてミュージカルバトンへの適用を行なった.バトンはブログにおいて短期間での流行現象に関する一般的モデリングに有望であると考えているとの回答があった.他の聴講者からは,バトンを受け取るまでの潜伏期間をべき分布にするパラメータを加えてモデルの自由度を上げれば,実測値とのフィッティングの精度が上がるのは自明であるため,同じパラメータ数で別のモデルを立てて検証したほうが良いことや,有意差検定などでモデルの正当性などを検証した方が良いとの意見があった.これに対し発表者は,検証は行っていないが,提案方式では潜伏期間を用いた事で,定性的に実測値と近い動きを示したとの回答があった.この他,流行が流行って廃れるまでの全体を見るのではなく,部分的なものを見て全体の予測ができれば面白いとの意見があった.
概要 本論文では,インターネットの検索結果を利用して関係強度を測定する方法と,その際のノイズを最小にするキーワードの設定方法について述べる.私たちは,これまで放送番組向けパーソナライズCMの精度を向上させるために視聴者の番組視聴履歴だけでパーソナライズCMを選択する方法を検討してきた.この方法では,予め放送番組で使用されているCM同士の関係強度を測定し,それを基に番組同士の関係強度マトリクスを作成しておく.そして,視聴者の視聴履歴にある番組と関係強度の強い番組を見つけ出し,そこで放送されているCMをパーソナライズCMとして提供する.今回は,このパーソナライズCMの選択方法の前処理で行なうCM同士の関係強度を測定する際の,課題の解決方法を検証したので報告する. Keywords: 茶筅,関係強度,放送・通信,マッチング 質疑応答議事録 聴講者より,現時点では文章からの商品名取得は茶筌に依存しているが,商品名の特長によって分類し,取得方法を変えることで精度が上がるのではないかとの意見があった.これに対し発表者からは,商品名を機械的に作り出してしまったが,今後は深く分析していきたいとの回答があった.他の聴講者からは,商品間の関連度測定は,提案方式以外にもAmazonで利用されているユーザの購買履歴や閲覧履歴から取得する方法などがあるが,他の方法を試みたかとの質問があった.発表者からは,試していないとの回答があった.また,提案手法でCM同士の関連強度を上げることができるのかどうか,あげる事ができるならば,その到達目標はどこかとの質問があった.発表者は,目標値の設定が困難で最初は決める事ができなかったが,1万件以上の誤検索が7割程度・正常検索では2割程度の誤検索が含まれているため,これらが1/2になれば関連強度の精度も向上する事ができるだろうとの回答があった.また,聴講者より1〜2%の改善は,このケースでは誤差の範囲ではないかとの指摘があった.発表者は,今回の分析手法は荒い方式だったため,今後は詳細に分析していきたいとの回答があった.
概要 Web検索を行う際,膨大な検索結果を全て閲覧するのではなく,興味のあるページ群だけを概観したい場合がある.また,検索結果を適切な関連語で絞り込みたいが検索語以外のことは良く分からないという場合もある.このため,類似した検索結果をグループ化して,ユーザにそのグループの一覧を提示できることが望ましい.しかし,Web検索エンジンが返す検索結果と,ユーザの興味の対象は必ずしも一致しないため,検索結果をページの類似度でグループ化するとユーザにとって意味の分からないグループが出来てしまうという問題がある.この問題を解決するため,本稿では,検索語の関連語を用いたクラスタリングを提案する.検索語の関連語は,ユーザが検索語と同時に検索エンジンに入力した語であり,ユーザにとって馴染みのある語であることから,関連語を用いた検索結果のクラスタリングにより,ユーザにとって分かりやすく見やすい検索結果の表示が行えると期待できる.評価実験により,ページクラスタリングの結果と比較して関連語を用いたクラスタリングの結果は見やすいというユーザ評価が得られた. Keywords: クラスタリング,シソーラス,連想計算,検索エンジンAPI 質疑応答議事録 聴講者より,関連語として新しい語句への対応はどの程度可能かとの質問があった.発表者は,利用頻度の多い語句を関連語として用いているため,利用頻度の低い語句やほとんど検索されない語句との組合せは良い結果が得られないとの回答があった.また,関連語として,多くの人が検索語として入力しやすい語句が上がってしまうのではないか,また検索キーワードの対語句は必ずしも関連語にならないのではないかとの質問があった.これに対し発表者は,結果は目的別やユーザ層別に別れており,関連語も有意に働いているとの回答があった.これに関連し,聴講者より「無料」などの出現しやすい語句は,IDFなどの分布を利用し重み付けを行えば良いのではないかとの意見があった.発表者は,ストップワードなどを利用し不要語句を省きたいが,例えば「無料教材」などの「無料」を除去すると良いクラスタリングができなくなる問題もあり,不要語句との閾値が現時点では明らかではないとの回答があった.その他,文書クラスタリング以外のクラスタリング方法との比較は行ったかとの質問に対し,他は実施していないとの回答があった.
概要 ウェブコミュニティとはある共通のトピックに関するウェブページの集合である.ウェブコミュニティを抽出する手法の1つにHITSアルゴリズムがある.しかし,HITSアルゴリズムは2階層間の関係のみからページの性格を表わす属性値を求めるので,複数のリンクを隔てたページ同士の関係を表現できない.そこで,本報告では複数のページからリンクを受けて,なおかつ複数のページにリンクを出しているページの抽出のための属性(値)を導入して,間にページが入っている3階層以上のリンク関係を表現し,それによりコミュニティを抽出する方法を提案する.提案手法によりHITSアルゴリズムでは表現できないウェブコミュニティの階層的な構造を抽出することが可能であることを実験により確認する. Keywords: ウェブコミュニティ,ウェブグラフ,HITSアルゴリズム 質疑応答議事録 聴講者より,mediumノードの直感的な意味について質問があり,発表者よりHITSアルゴリズムにおけるauthorityとhubとの間にクッションの形で挟まるノードがmediumノードとして抽出されるとの回答があった.別の聴講者より,提案手法をN階層に拡張することは可能なのかとの質問があり,発表者より可能であるとの回答があった.また,提案方式の計算効率に関する質問があり,HITSと同様のアルゴリズムを採用しているため計算効率も同等であるとの回答があった.さらに,ループが存在する場合と複数パスが存在する場合のそれぞれケースにおける計算値の収束に関する質問があり,これに対してループが存在する場合については値は収束しないことが確認されており,複数パスについてはまだ確認が取れていないとの回答があった.
概要 近年,社会ネットワーク分析の支援としてWeb上から人間関係ネットワークを抽出する研究が注目されている.従来の研究では,Web上から人間関係の強さをどのように計量化するかについて議論してきたが,ネットワークを構築する際に一貫した基準で関係の有無を判断していたので,アーティストのようなバラツキが大きい関係性をもつ人間関係の場合,多くの社会的弱い関係が漏れてしまう.本研究では,客観的にみて弱い関係であってもその人にとって重要な人々を見つけていく,という新たな人間関係抽出手法を提案することで,従来手法では抽出できなかった弱い関係も抽出可能にする.さらに,個体間の関係を用いてグループ間の関係を同定する手法も提案する. Keywords: WWW,社会ネットワーク分析,情報抽出,弱い関係,関係抽出 質疑応答議事録 聴講者より,提案手法の再現率はよいが精度が悪いのではないかという指摘があった.これに対して発表者より,研究全体として人間関係ネットワークの抽出を行う第1段階と,抽出されたネットワークを元に個体間の関係を同定する第2段階が存在し,今回の発表内容はこのうち第1段階にあたり,ここでは弱い社会関係の抽出が目的であることより精度よりも再現率を優先しているとの回答があった.この他に,聴講者より,今回XとYの関係の強さの定義をSimpson係数を用いて行っているが,例えばXから見たYとの関係の強さとYから見たXの関係の強さは必ずしも同値であるとは言えないことを加味し,他の数値化手法についても比較検討してみてはどうか,というコメントがあった.
概要 近年のWebにおける情報の爆発的な増加を受けて,Webから有用な情報や構造を抽出するWebマイニングに関する研究が盛んに行われてきている.本研究では,Webマイニングの一手法として,エンティティとエンティティの間の関係をあらわすような情報をWeb上からキーワードとして自動的に抽出する手法を提案する.提案手法では同じ関係を持ったエンティティペアは同様の文脈でWeb上に表れるとの仮定に基づき,エンティティペアの出現文脈を重要語でモデル化する.エンティティペアモデルをクラスタリングすることで,生成されたクラスターから関係情報を抽出する.提案手法を用いた実験では政治家と地名のエンティティペアに対して適切な関係情報が抽出できることを検証した. Keywords: 情報抽出,Webマイニング, 検索エンジン,エンティティペアモデル,クラスタリング 質疑応答議事録 聴講者より,提案手法の実験において政治的な用語が採用されているが,これらの用語が使用されているWebページはニュース等の「まじめ」なサイトが多く,これが高いクラスタリング性能の一因になっているのではないかという指摘があった.これに対して,発表者より,今回説明したもの以外に[研究者]-[組織]というエンティティで実験を行ったがあまりよい性能がでなかったとの報告があり,性能が出なかった原因として研究者が明示的に自身の所属組織の名前をWebページに書いていないことが考えられるとの回答があった.他の聴講者からは,評価実験において関係のラベル付けが行なわれているが,本来関係は自動的に抽出されるべきものなのではないかとの指摘があり,発表者よりラベル付けはあくまで評価を行うために行っており,研究本来の目的は指摘の通り多様な関係を自動的に取得することにあるとの回答があった.さらに,エンティティのペアの作成方法について質問があり,発表者より人物のリストを元にキーワードを抽出することも可能だが,今回は人手作成であるとの回答があった.この他,詳しい情報が記述されているWebページに絞った解析をしてみてはどうかというコメントがあり,発表者より1次検索の結果を受け,詳しい情報が記述されていそうなWebページに対して2次検索をかけるなどのブートストラップ的な方法があるかもしれないとの回答があった.
概要 Web閲覧者の関心をログデータから抽出することは,Web利用マイニングの興味深い研究テーマの一つである.Web閲覧行動は,サイトや検索キーワードを頂点,時間順序を辺とみなすとグラフ構造として表現できる.我々はこれをサイト・キーワードグラフと呼ぶ.本稿ではWeb視聴率データから得られるサイト・キーワードグラフにPageRankを適用して関心キーワードを抽出する手法と,閲覧者の巡回行動を表す部分グラフを抽出する手法を述べる.分析を容易にするために,抽出された部分グラフの視覚化も行なう.その結果,サイト・キーワードグラフから関心キーワードやPageRank上位を多く含む部分グラフを抽出することに成功している. Keywords: Web利用マイニング,視覚化,Web視聴率データ,PageRank,サイト・キーワードグラフ 質疑応答議事録 聴講者より,ニュースサイトの場合,実際にどのジャンルに関する情報を閲覧しているのかがグラフには現れないのではないかとの質問があり,発表者より検索語がグラフに現れるため,この語がラベル的な役割を果たすことになるとの回答があった.また,巨大サイトの近傍でグラフ構造に特徴的なパターンは見受けられたかという質問に対しては,今回の実験ではスパイウェアと巨大サイト(検索エンジンポータル)は取り除いて視覚化を行っているため巨大サイトの影響は分からないが,グラフ構造の解析は非常に面白そうなので今後調査をしてみたいとの回答があった.さらに,ある時間帯における巡回行動のクセ(e.g. 繰り返し)などをグラフより抽出できるのかという質問に対して,今回のグラフは1ヶ月分のパネルログを一つのグラフにしているため残念ながらそのようなクセは抽出できないとの回答があった.これ以外に,アクセス数に応じてノードのサイズを大きくしてはどうか等といったコメントが寄せられた.
概要 近年のブロードバンド化から,Web上にある画像を検索するWeb画像検索のニーズが高まりつつある.一般的にWeb画像検索はユーザが入力する文字列と画像に関連付けられたテキストインデックス(以降 周辺テキスト)とを比較して,所望と推測される画像を提示する.そのWeb画像検索の一つであるMultiMedia Meisterでは,ユニーククエリの約85%が一語のクエリで,そのほとんどが有名人の人名やグループ名等の固有表現で検索される.本研究では入力された固有表現が周辺テキスト内でどの程度注目されているのかを固有表現と画像の出現パターンに着目して学習することで,その周辺テキストを持つ画像を検索対象とした時の検索精度が向上することを確認した. Keywords: Web画像検索,情報検索,データマイニング,機械学習 質疑応答議事録 聴講者より,画像の意味を知りたいのであれば,統計的な分析だけではなく,テキスト解釈などに代表される文の構造を利用した手法も検討してみてはどうかという指摘があり,発表者より確かにその通りだが,周辺テキストは実際は一語のみである場合が多いのが現実であり,今回はこのような現状の元でどのような手法が有効であるかを追求してみたかったとの回答があった.また,画像解析による人物画像の判定は比較的容易だと思うがこれは採用しないのかという質問があり,これに対して発表者より確かに人物画像判定ツールがフリーソフト等として公開されていることは認識しており,採用についても検討中であるとの回答があった.さらに,ユーザによる過去検索結果等を利用することで精度を上げることができるのではないかというコメントがあり,発表者より例えばユーザが実際にクリックした検索結果の履歴を利用するなどの方法を検討したが,抽出された知見は,例えば検索結果の1件目をクリックするユーザが大半であるなどといったあまり有効なものではなかったとの回答があった.