概要 複数のWebサイトを定期的かつ詳細に分析する場合,サイトが持つ多量のWebページをどう閲覧するかが問題になる.多量のWebページを表示方法として,流れるように連続的に事柄を表す伝統的な巻物の表示インターフェイスに着目する.洋の東西を問わず,昔から様々な巻物が作成されてきた.日本でも古来絵巻物の文化的伝統があり,源氏物語絵巻,鳥獣人物戯画などの様々な絵巻物が現在に伝えられている.本論文では,多量のWebページの閲覧および分析に,巻物風インターフェースの適用と,試作したシステムについて述べる. Keywords: Web分析, Webからの調査, 定点観測, 巻物, 表示インターフェイス 質疑応答議事録 聴講者より,発表中に示された利点はクローラーによる自動収集に主によるものであり,収集したページを巻物化した効果ではないのではとの指摘があり,発表者および共著者より,「文系の研究者からの依頼で研究開発したシステムであり,調査用途においては大量データを収集・保存し,じっくり読めることが重要であるため現状のシステムで十分効果があること」,および「新しい動向が起こったときでも後から収集済みのデータを異なる観点で分析することが可能である」との回答があった.また,Webサイトの中身の変化の解析にはサイトマップなどの,木構造の方が適しているのではとの指摘があり,発表者より,「今回の用途(バーチャル大学の調査)ではサイトの構造変化はそれほどなく,コンテンツとしての文字列の変化だけ見ることができれば十分であった」との回答があった.また,通常の巻きものではデフォルメが施されているが,時間軸などに関するデフォルメなどを今後導入していく予定があるのか,との質問に対しては,「情報系の研究者は要約などの処理を入れたがるが,文系の研究者は要約よりもじっくり見る方が好むようだ」との回答があった.単に並べるだけだと使いやすさの面で限界があるのでは,インタラクションしながら適切な分類を行うなどの機能が必要では,との質問に対し,当面はコメントなどのBlog的な機能の導入を検討しているとの回答があった.
概要 近年,インターネットにおいて地域情報の提供が相次いで行なわれている.著者らは出発地点と目的地点,およびその間の経路が設定された際に,それら周辺にある寄り道可能な情報を表示するサービスを検討している.本稿では,外出先で余裕時間が生じた場合に,ユーザがどのタイミングでどのような行動をとるのかをアンケート調査した結果を報告する.この調査から,ユーザが選択する行動は余裕時間によって変化すること,初めて行く場所と詳しく知っている場所では事前に見込む余裕時間が異なること,仕事とプライベートでは行動が異なること,などが明らかとなった.これらの結果をもとに,寄り道おすすめサービスの実現に向けた考察を論ずる. Keywords: 地域情報サービス,寄り道,ナビゲーション,余裕時間,レコメンデーション 質疑応答議事録 聴講者より,携帯電話でのサービス提供,およびユーザプロファイルの利用による個人適応を考えているのか,との質問があり,発表者より「携帯電話でのサービスを検討していること,プロファイルの収集コストなどのデメリットもあるのでどの程度利用するかは検討中だが,利用履歴により利用者に適応していくような機能を導入したい」との回答があった.また,プライベートの時に経路途中で時間をつぶす人が多いのはなぜか,レコメンデーションとして,意外性のある情報を提示する方がよいのでは,との質問に対しては,「追跡調査をしていないので理由については不明であるが,プライベートの時は多少遅れても大丈夫との考えがあるのではないか,提示すべき情報については,思いがけない情報の提示と,ユーザプロファイルに基づく情報提供のどちらを優先するかなど今後の検討課題である」との回答があった.プライベートだと最初から時間調整ができる場所を目的地としているのでは,との質問に対しては,「仕事とプライベートであまり差がなかった」との回答があった.また,目的地に到着して初めて余裕があることに気づく場合もあるので,どの時点で時間が余ることを本人に自覚させる予定なのか,という質問に対しては,「余裕時間の推定方法を検討し,経路途中でどの程度余裕があるかを提示できるようにしたい」との回答があった.アンケート項目(選択肢)はどのように決定したか,自由記述の方が選択式よりよかったのでは,との質問に対しては,「社内での予備実験に基づいている.アンケートには自由記述も用意してあり,車内で時間をつぶすとか,パチンコなどの回答があった」との回答がされた.コメントとして,ユーザ適応は実際困難であり,それよりもいろいろな情報を見やすくする機能を入れた方がよいのでは,目的地に行くまでより,帰り道の支援の方がビジネス的には良いのではなどの意見があった.
概要 情報検索サービスにおいて,Webページ分類は,収集された情報を体系的にユーザーへ提供する際に有用な技術である.我々はWebページ分類にサポートベクトルマシン(Support Vector Machine, SVM)を用いた.SVMに対する素性選定は,WEBページ分類を行う情報分野の拡大や.分類処理の効率化によるサービス向上のために有効かつ効率的であることが望ましい.本稿では,いくつかの一般的な素性選定方法と,我々の提案するNaive-Bayesを利用した素性選定方法について評価実験を行った.その結果,我々の提案する素性選定方法が良好な分類精度を示すことを確認した. Keywords: 素性選定,サポートベクトルマシン,ナイーブベイズ 質疑応答議事録 聴講者より,Paul Graham法自体をベージフィルタリングに使ってみたのかとの質問があり,発表者より「提案手法と同様の素性で予備実験として行ったが,全素性利用の場合と同様の結果であった」との回答があった.また,ページコンテンツだけでなくURLも利用できるのではとの質問についてはすでに利用している旨回答があった.また,より少ない素性でも分類は可能ではないかとの質問については,「『クーポン』という文字列を含んでいないページがあったり,関係ないページに含まれていたりして,いろいろな素性を入れないとうまくいかないことが予備実験の結果よりわかった」との回答があった.クーポンページの分類は,スパムメールの分類ほど効果的な素性がないと思われるが,具体的にどんな素性が得られたか,との質問については,「『併用不可』,『有効期限』,『※注』などがあった」と回答があった.また,ナイーブベイズでうまくいかない理由について質問があり,「SVMやナイーブベイズ単独だとほぼ同じ結果であり,組み合わせることにより性能が向上した」旨回答があった.また,求人情報を収集し,提供する企業などが米国にあり,参考になるのではとの意見があり,これについては「就職ページの分類は日本でもいくつかの会社が取り組んでおり,Webラッパーや,帝国データバンクから購入したデータなどが利用されている」との回答があった.
概要 近年,Web上には一般のユーザが記述した情報が大量に存在している.例えばe-マーケットプレースには,大量の売り手が多種多様な商品の情報を提供している.このためこのようなサイトから商品の情報を収集し統合してユーザに提示する技術が望まれている.精度の高い情報収集・抽出を行うためには商品についての知識を用いることが有効であるが,その入力には人的コストがかかる.実用的なシステムの開発にはシステムの構築に必要な知識を入力する人的コストとそれによって実現される精度・再現率のバランスが重要となる.そこで我々はe-マーケットプレースを想定した複数の情報収集・抽出方式を実装し,精度・再現率と人的コストの関係を調べる比較実験を行った. Keywords: 情報統合, 情報抽出, 文書分類,人的コスト, e-マーケットプレース 質疑応答議事録 聴講者より,利用者の情報収集活動は実際には反復的であり,検索要求・嗜好の時間変化がありうるが,静的な設定の元で得られた今回の知見はどこまで生かせるのか,との質問があり,「実験ではドメインや目的を定めて行わざるをえず,他のドメインや時間変化がある場合などに対して必ずあてはまるとは言い切れない.ユニバーサルな知見というよりも,ある程度の参考として利用できるのでは」との回答があった.また,e-マーケットを対象とした理由について質問があり,「商品がカテゴリ分けをされていても,関係ない商品は結構含まれており,それらをフィルタリングにより除去することは重要と考えている」との回答があった.学習ベースの手法が辞書ベースの手法よりもフィルタリングにおいて良い結果が得られた理由についても質問があり,これについては,「様々な出品者による多様な文書が存在し,その中では多様なキーワードが用いられている.そのため,キーワード周辺の情報を利用する方が,最終的に多様なパターンに対応できると考えられる」旨回答があった.また,コメントとして,情報抽出法としてCRFを用いると人的コストを抑えたまま,よりよい結果が得られる可能性があるなどの意見があった.
概要 人間がもつ常識推論の能力をコンピュータに付与することは,人工知能において興味深くかつチャレンジングな研究トピックの一つである.常識推論を行うシステムを構築する試みとしてはCycやOpenMindなどがあり,またそれらの持つ知識をより豊かなものにしようとする研究も行われつつある.本稿ではそれらの研究を概観するとともに,膨大なWeb情報を用いて常識推論のための知識を獲得するための可能性について検討する.OpenMindにおいては,多くのボランティアが自分の持つ常識を自然言語で与えることで知識の収集を行っている.Webを用いてこの部分を自動化できれば,知識獲得におけるボトルネックを解消できると期待できる.常識獲得のための文を収集するための第一歩として,名詞と動詞の組からなる単文の収集手法について議論する. Keywords: Webマイニング, 常識推論, 単文 質疑応答議事録 常識推論の研究は20年前からあるのに,常識データベースができていないのは何故か,という質問に対し,社会がどれだけ人とお金をかけるのかによる.現在は,Webという大量なインフラがあるという点が20年前と違う,との回答があった.別の聴講者から,こういう常識があったとき,こんなアプリケーションがあるとうれしいというものはないのか,という質問があり,それに対し,メールで文書を書いている時に自動的にフェースマークを入れてくれるアプリケーションの例(OpenMind)がある,という回答があった.この他,「鳥は飛ぶ」といったような常識を書いて,どのような状況で役に立つのか?やはり,アプリケーションが重要なのではないか,といったコメントや,「犬には足が4本ある」は常識だが,実際にそういう文自体が,Web上にはおそらくあまりない.Webに根ざした情報というものがあるのではないか,といったコメントがあった.
概要 本論文では掲示板サイトから注目すべきスレッドを発見する方法において,スレッドを特徴付けるイベントを抽出する分類モデルの獲得法を提案する.提案法においては,イベントに関連する表現に基づいて冗長な負例を識別することにより,少数の正例と多数の負例からなる学習データから抽出性能の高い分類モデルを獲得する.掲示板サイトから抽出した記事に対して提案法を適用し,従来法との比較を通してその効果を検証する. Keywords: テキストマイニング,負例への偏り,掲示板サイト,評判情報 質疑応答議事録 機械学習の際,負例をランダムに正例と同じ数だけ選んで使うという方法もあるのではないか,という質問に対し,正例がどのように分散しているのかわからない.ランダムにサンプリングすると偏る可能性がある,との回答があった.別の聴講者から,例えば,ある表現が入っていると間違いなく正または負になるものと,微妙なものがあるが,0か1かではなく,このような表現の強さといったものは使わないのか,という質問があり,それに対し,今回は機械学習にSVMを用いているが,確率を出すような学習器だったら,そういう方法も考えられる,との回答があった.また,会社が倒れそうだ,という風説やうわさは不満ではないが,会社としてはそういうものは重要ではないのか?という質問に対し,今回はそういうものをやっていないが,対象にすることも可能であるという回答があった.
概要 本研究では,主観情報に焦点を当てた複数文書要約について,複数の作成者による要約を分析し,そのテキストの構造を明らかにする.要約については,作成者により,内容が異なることが,多くの研究で指摘されている.人間が作成した要約との比較を行う要約評価手法においては,1人の作成者による要約だけを正解要約とした場合,作成者ごとに内容が異なることが問題となる.また,主観情報の表明ではテキスト構造が重要であるのに,従来の要約評価では取り上げられてこなかった.本稿では,著者らが提案する主観情報に焦点を当てた複数文書要約について,DUC 2005 で使用された人手作成要約を分析し,そのテキスト構造を明らかにした.日本語についても独自にデータセットを作成し,同様の分析を行った.また,複数の要約作成者間のゆれについても検討し,主観情報に焦点を当てた要約の評価に必要な点について検討した. Keywords: 主観情報,テキスト構造,ピラミッド型要約評価法 質疑応答議事録 今回は,人手作成した要約を分析した結果,主観情報の近くにはそれにあわせた根拠が記述される,という構造があるとのことだが,元のテキスト中での出現個所については調査したのか?という質問に対し,まだ調査していないという回答があった.複数テキスト要約における情報の提示順序に関しては,例えばBarzilayらのsentence orderingの研究などがあるが,これらの研究との関連性についてどのように考えているか,という質問に対し,既存の研究では,主観情報に焦点を当てていない,という回答があった.また,どれくらいの割合で前の方に主観情報があってその後に根拠がどのくらいあるか,といった割合の数値化はやっていないのか?という質問に対し,今回分析に用いた日本語要約は3つ,英語の方も4つで,数が少ないので今のところ出していない,という回答があった.
概要 Blogger のコメントやトラックバックを用いたコミュニケーションの様子をプロファイリングすることによって,そのBlogger のコミュニケーション活動における特徴を抽出し,その特徴に応じて各Blogger の役割を判定する手法を提案する.また,得られた各Blogger の役割を提示する手段として,「コミュニティ・ピンバッジ」と名づけたBlog パーツを用意し,これを用いた参加型Blog コミュニティ構築支援システムの実装を行った. Keywords: Blog,オンラインコミュニティ,コミュニケーションプロファイリング 質疑応答議事録 聴講者より,今回採用している「情報伝播的側面」と「対話的側面」という2つの軸は対立しないのではないかとの質問があり,発表者より,確かにその通りであり,例えば両側面において高い特徴値を持つユーザも存在したと回答があった.また,トラックバックを多数受けるユーザほど,お礼コメントをつける暇がないため,対話的側面の特徴値が低くなってしまうのではないかとの指摘に対して,発表者よりこの問題は認識しており今後の課題としたいとの回答があった.評価対象のターゲットを小規模コミュニティに絞っている理由についての質問には,既存のランキングでは上位にランクインしないbloggerに対してインセンティブ付けをしたかったとの回答があった.さらにコメント・トラックバックの量と質との相関関係に関する質問があり,発表者より残念ながら相関はないように見受けられたとの回答があった.提案されているコミュニティ・ピンバッジに関して,このバッジにおけるblogger判定時にはバッジをつけているblog群のみが解析対象となるのか,それともblog群全体が解析対象となるなのかという質問があり,発表者より解析対象の整理については現在検討中だが,システム的にはどちらも対応可能であるとの回答があった.またバッジ普及へ向けた施策についての質問に対して,ポータルサイトにて宣伝を行い利用を促進する方法などが考えられるとの回答があった.この他,ブログの関係を示したグラフを時系列に眺めることにより,コミュニティの成長過程を視覚化することができるのではないかという提案があった.
概要 筆者らはblogにおける注目語を予測する方法を検討している.製品・サービスの普及経過を説明する理論としてマーケティング分野にはロジャースの普及理論があるが,blogに現れるキーワードを製品・サービスの一種と見なせば,blogの注目語もこのモデルと同様の時間的推移を示すと思われる.そこで,検索ポータルサイトが提供する注目語に関して注目度の時間特性を調査し,ロジャースの普及曲線に沿って推移する注目語が存在することを確認したので報告する. Keywords: blog分析,注目語,注目度,時間特性 質疑応答議事録 聴講者より,ある瞬間に爆発的に利用されはじめた語を抽出する技術としてbursty miningという技術があり,これについていくつかの先行研究が存在するとのコメントがあり,特にType1(普及曲線型)とType2(突発型)の中間的な特徴を持つ語(e.g. 長期的に利用される語)の取り扱いには注意が必要であるとの指摘があった.また,bloggerによって得意な分野が異なるため,ある語においてイノベータ・アーリーアダプタであると判定されたbloggerが他の語においても妥当なイノベータ・アーリーアダプタである保障はないのではないかとの質問があり,これに対して発表者より,すべての語に対してイノベータ・アーリーアダプタとみなす代わりに,判定した語に関連・類似する語の範囲でイノベータ・アーリーアダプタであるとみなすことにより,語の注目度の未来予測ができると期待しているとの回答があった.この他,提案方式をマーケティングに活用する場合,incremental innovationの発見には利用できるが,radical innovation の発見には利用が難しいのではないかとのコメントがあった.