概要 WebアノテーションとWeblogを統合し,Webを利用した個人の情報発信をより活発にするための新しいメディアを提案する.Webアノテーションは自らの情報を発信する場合や多くの情報を扱う場合に適さないが,これはWeblogで補うことができる.また,Weblogにはトラックバックと呼ばれる双方向のリンクを作成する仕組みがある.これは対応しているWebページに対してしか行うことができないが,Webアノテーションを用いることによって任意のWebページを対象とすることができる.そして,プロキシサーバを用いたWebブラウザ非依存のシステムを実装した. Keywords: Webアノテーション,Weblog,トラックバック,メディア 質疑応答議事録 会場より,アノテーションを不用意にクリックしていると、気がつかない間にフィッシングサイトに連れて行かれる問題が起こるのではないかという質問があり,利用者が利用の仕方を事前に十分理解する必要があると思われるとの回答があった.また,発言内容が伝播していくうちに伝言ゲームのようになり、当初の発言の意図が誤解されやすくなるのではないかとの質問には,ユーザーに任すべき問題との回答があった.会場より,プロキシサーバをなぜ必要とするのかとの質問があった。これに対しては,できるだけ簡単な利用を可能にするため(プロキシを使うとブラウザに好きなものを利用できるようになる)との回答があった。また,悪意のある利用を抑制するために、利用者の限定をどうするかという質問に対しては、サーバを立ててID制にするという回答があった。会場より,使う人の人数はどのくらいを想定しているか。かなりの人数がないとBlogの良さが発揮できないが、かといって多すぎると前出のフィッシングの問題が出てくるとの質問があった。これに対して、実験では数人でしか実行していないが、今後増やしていきたいとの回答があった。会場からは,フィッシングの問題などが起こりにくいような有効なアプリケーションを考えることが必要だと思うなどのコメントがあった.
概要 ディスカッションマイニングは,人間同士の知識交換の場であるミーティングにおける活動を記録し,構造化された議事録データを半自動的に生成し,そこから再利用可能な知識を抽出する技術である.本研究では,対面式の会議を記録しアノテーションの付与によって議論を構造化し,映像・音声情報がリンクされた議事録を半自動的に生成する.そして,付与されたアノテーションから機械学習によって重要発言を判別するためのルールを抽出し,そのルールを用いて重要発言を発見する.また,会議の参加者・資料・発言内容の重要度計算を行うことで,議事録閲覧者の知識発見支援を行った. Keywords:ディスカッションマイニング 会議支援 グループウェア アノテーション 質疑応答議事録 会場より,個々の具体的な発言者ではなく、発言者のグループを関連付けきないかといった質問があり,指導教官やその学生などの情報をオーソリティー度としてを定義することを考えているとの回答があった。会場より,スライドと人物の重要度には違いがあると思われるが、相対的に違いがあるか。また、重要度の計算は収束するのかとの質問があった。これに対して,人物が重要かスライドが重要かは最初からは区別していない。そして、実験では重みを変えることで収束したが、今後は、収束しない場合は途中で計算を打ち切ることも必要だと考えているとの回答があった。スライドで使われる絵は人によって、うまさが違うが、その差は影響しないのかという質問に対しては,その問題は当然考えられるが、最近ではプレゼンのソフトウェアが進歩しているので、その差はそれほど気にする必要はないと思われるとの回答があった。会場から,C4.5を使うと当たり前のルールしかでないのではという質問があり,その問題は考えられるが今後の課題としたいとの回答があった。会場から、持っている背景知識が違うために、同じ用語が違う意味で使われる問題があるが、そのような事例が見られたかとの質問があった。これに対して、そのような例は今のところ見られないとの回答があった。会場から、発言が重要かどうかは人によって違うのではないか。その基準はどのように決めているかとの質問があった。これに対して、本研究では、発表者を基準に重要度を決めているとの回答があった。
概要 近年の相次ぐ食品事故や食品偽装問題などを通して、商品の特性を適切に見出すために幅広い情報を扱い、またそれらを消費者に向けても公開する必要性が高まってきている。しかし、現在POSやEDIで用いられているデータバンクは、非常に多品種のデータを一元的に収集するために、ブランド名、メーカ名、定価、サイズ、重さといった包括的な情報のみを登録し、また消費者の利用を前提としていない。そこで、生産者が多種多様な商品情報をRSSを用いて記述して公開し、様々な目的に応じてそれらを収集したデータベースから、必要な情報を販売者や消費者に提供するシステムを提案する。 Keywords:RSS、RDF、weblog(blog)、商品情報、トレーサビリティ 質疑応答議事録 会場より,データを収集する側はオンデマンドであるが、データを発信する側には義務が生じる。加工レベルの発信者が発信することは容易だと思うが、原材料レベルの発信者は難しいと思われるがどうか(例えば、農家のレベルでは、農作物に関する情報を発信するのは難しいと思う)との質問があった。これに対して,農協などのレベルで発信することは可能だと思われるとの回答があった。この回答に対して、さらに、それではデータセンターの問題がおこるのではとの質問があった。これに対し、そのような問題が起こるが、情報の深さに差ができることによって、そのことが消費者に選択の材料を与えることができると考えられるとの回答があった。会場より、システムを作ることと利用することによる発信者側のデメリットがあるのではとの質問があった。これに対して、このシステムの利用者が増えることによって、利用が促進され、情報発信の義務化が進むと思われるとの回答があった。会場より、記述すべき述語が最初に定義されているがそれは誰が記述するのかとの質問があった。これに対して、基本的な情報以外は何を書いてもかまわないとの回答があった。この回答に対して、さらに、必要に応じて変わるのではないかとの質問があった。これに対し、それぞれのサーバが名前空間を公開して、相互に情報を交換しあうようになるので、その問題は解決できると考えられる。また、サーバを複数置くことで、使用できる述語が固定されてしまい、寡占状態を防ぐ効果が期待できるとの回答があった。会場からは、原材料だけではなく、工場内の別の場所で作られている食品を表示する必要があるとのコメントがあった。
概要 Online Documentは,紙では実現し得ないハイパーテキストやオンライン検索可能な資料空間の増大が長所である.しかし電子メディアが必ずしも万能ではなく,紙に印刷してから読む人も多い. Online Documentの読みを促す情報,その情報の提示・操作方法を分析することにより,読みを妨げることなく能動的な読みを支援できるOnline Document Interfaceを提案する.本研究では色彩の心理的効果に着目しこのインタフェースを実現する.また,提案手法に基づいた色,ランダムな色,無色の3通りのブラウザでの文章の読みを比較する実験を行い,提案したインタフェースの基本的な有効性を確認した. Keywords: オンラインドキュメント,読み,色,Overview+Detail,情報視覚化 質疑応答議事録 聴講者からブラウザでの文章の読みを比較する実験に用いるテキストの長さはどれくらいが適切かという質問に対し,発表者は短編では提案手法を利用する必要がなく長編では章立てがしっかりしているため,比較的に長めで章立てが曖昧なテイストが良いと回答.聴講者から人が段落の具体度、重要度を決めているが将来的には自動化するのかという質問に対し,発表者は重要度は人によって異なるためユーザが変更できるようにしたり,誰かがアノテーションを付けたものを見るという方向性が有用だと考えていると回答.聴講者から具体度、重要度はどのように求めているのかという質問に対し,発表者は固有名詞の割合から求めていると回答.聴講者からランダムな色付けの結果が無色より悪いのは色彩の効果を無視したミスリードのためかという質問に対し,発表者はランダムな色付けより無色の結果が悪い場合もあり一概にランダムな色付けが悪いと証明できないが,ユーザが自分なりに色に意味付けをして使用している場合,ランダムな色付けがユーザをミスリードする場合も考えられると回答.聴講者からユーザによって色の感じ方が異なることを考慮する必要があるのではという質問に対し,発表者はユーザの色の感じ方だけではなく色の好みも考慮する必要があり,また,テキストに色を付けてまで利用したいというモーティベーションを高めることが重要だと考えていると回答.
概要 単一系列のデータベースを対象としてデータマイニングを行う場合,パターンが複数の系列に含まれる割合を頻度として利用することが出来ない.本研究では,先行研究で提案した逆単調性を満たす頻度を用いることで,大規模な時系列データを対象とし,効率的に頻出時系列パターンを高速抽出するオンライン型のアルゴリズムを提案する.そして,アルゴリズムに関する正当性を示し,評価実験や先行研究との比較実験の結果から本アルゴリズムの有用性を示す. Keywords:データマイニング,系列パターンマイニング,オンラインアルゴリズム,ストリーム 質疑応答議事録 要約の希望がありませんでした.
概要 本稿では,ユーザが情報獲得の際に辿った一連のWebページのリンク情報に基づいてリンク先Webページの最重要箇所を同定する手法を提案する.一般にユーザがWWW上で情報獲得を試みるとき,目的の情報が得られるまで,複数のリンクを辿りながらWebページを移動することになる.ここでユーザが目的の情報に辿りつくまでに選択した一連のリンクには目的の情報に関する情報が含まれていると考えられる.リンク先Webページの最重要箇所を同定する際に,先行研究ではリンク元Webページのコンテキストのみを考慮していたが,我々はユーザがリンク元Webページ以前に閲覧していたWebページのコンテキストも利用することで最重要箇所同定の精度向上を行う.評価実験の結果,本手法が先行研究の同定法よりも的確な最重要箇所の同定を行うことが可能であることを示す. Keywords:多重リンク,ブラウジング支援,プロキシサーバ,重要箇所同定,ハイパーリンク 質疑応答議事録 要約の希望がありませんでした.
概要 ユーザがWeb検索エンジンの結果から効率良く目的のページを探し出すことを支援したり,検索結果の鳥瞰図を与えたりすることを目的として,情報検索分野のクラスタリング技術が用いられている.クラスタリングに用いるWebページの特徴としてテキストが使われることが多い.しかし,Webページはテキスト以外にも,画像,URL,レイアウト等の非セマンティク情報も多く含んでいる.そこで我々は,ユーザがページを分類する際に視覚的印象が類似するWebページは関連がある,という意識が潜在的に働いていると考えた.この考えに基づき,Webページのサムネイル画像から特徴を抽出し,クラスタリングに用いる手法の提案した.Google の検索結果に対して提案手法を適用し,その有用性について検証した. Keywords: Web検索,分類,特徴抽出,固有Webpage,階層的クラスタリング 質疑応答議事録 聴講者からWebページの特徴抽出に用いている主成分分析は事前処理あるいはリアルタイム処理なのかという質問に対し,発表者は,主成分分析は時間が掛かるため事前に用意したサムネールに対し主成分分析を行い,その他の計算をリアルタイム処理すると回答.聴講者からWebページのレイアウト情報は利用しているのかという質問に対し,発表者はレイアウト情報も画像に含まれていると考えていると回答.聴講者から一般的なkmeans法では階層を作らないが階層構造を作るために工夫はしているのかという質問に対し,発表者は階層ごとにkmeans法を繰り返し計算していると回答.聴講者からクラスタリング結果は意味のある分類になっているのかと質問に対し,発表者は画像だけでユーザに役立つ分類ができるとは考えておらず,今後テキストによる検索結果を付加していきたいと回答.聴講者からGoogleなどのイメージ検索エンジンとの比較の必要性およびWebページのデザインに著作権があるなら模造ページの検索に応用できるのではとの質問に対し,発表者はフィッシング詐欺の発見に利用できるのではないかと回答.聴講者から東工大の村山,齋藤,奥村[1,2]らがWebページの色とトピックの関係について報告しているが,将来的にWebページのレイアウトと色を使って見つけられるものと見つけられないものを調べると面白いのではという質問に対し,発表者はテキストだけでは見つけられなかった情報をクラスタリングできるようにしたいと回答.聴講者から研究の目的がよく分からないという質問に対し,発表者はユーザが目的のWebページに早く到達できるように,検索結果の鳥瞰図を作成するなどの支援が目的と回答.聴講者から関連研究として東大五十嵐研のレイアウトを使ったWebの検索[3]が紹介され,また,関連研究のようにWebデザインの参考になるレイアウトを検索するなどの目的に使ってはどうかとコメントがあった. [1] 村山紀文, 齋藤豪, 奥村学, "Webページの色彩に関するデータマイニング", 第2回情報科学技術フォーラム(FIT), 2003. [2] Norifumi MURAYAMA, Suguru SAITO, Manabu OKUMURA, "Are web pages characterized by color?", The 13th International World Wide Web Conference, 2004. (http://www.www2004.org/proceedings/docs/2p248.pdf) [3] 橋本 泰成, 五十嵐 健夫, 「レイアウトによるWEBページ検索」インタラクション2004, 情報処理学会, 2004年3月, pp.113-120. http://www-ui.is.s.u-tokyo.ac.jp/~takeo/papers/gyasu-Interaction2004.pdf
概要 クラスタリングは,類似度や距離の概念が定義できるデータ集合をグループ化する手段として広く用いられている.情報検索技術は,検索対象データ間の類似度や距離の概念に基づいて,検索質問と類似するデータを検索する手段である.文書データとその属性である単語データが与えられたとき,それらのデータの出現関係の間に局所的に高い相関がある場合,「文書クラスタリング」と「単語クラスタリング」を同時に行う「双クラスタリング」(co-clustering)の有効性が期待される.本論文では,前処理として,「双クラスタリング」を複数回,異なるクラスタ粒度で実行し,「クラスタ粒度階層構造」を作り,このデータ構造を検索実行時に用いて検索質問拡張を行うことで,検索性能を向上させる仕組みを報告する. Keywords: クラスタリング、検索質問拡張、概念検索 質疑応答議事録 聴講者より,クラスタリングの際の粒度として,どのくらいのクラスタ粒度(クラスタ数)が性能が良かったのかについて質問があった.発表者からは,今回の結果はクラスタの粒度ごとの性能はバラバラであったため,どのくらいの粒度で性能が良くなるかは現在のところ確認できていないという回答があった.また,聴講者より,一般的にPrecision-Recallの曲線は単調増加のグラフになるのではないかという指摘があった.これに対して,回答者からは,今回,上位の200件を用いて再現率・適合率を調査したため,単調にならないという回答があった.また,聴講者から,co-clusteringの訳語は,双クラスタリングではなく,共クラスタリングの方が適しているのではないかというコメントがあった.さらに,聴講者から,検索質問によって,クラスタ粒度を動的に決めるというところに提案手法の特徴があるのか,という質問があった.発表者からは,クラスタリングの方法そのものと,粒度を動的に決めているところの両方に特徴がある,という回答があった.
概要 現在Web上には膨大な量の情報が蓄積されている.Web上の商品やサービスを比較するため,異なるサイトのデータを比較したいという要求は一般的なものである.本研究では,ユーザが情報を比較する際の労力を軽減させることを目的として,特定分野に関するWebページの自動統合システムの作成を行った.提案する手法は,対象分野に特化した関連語彙テンプレートを利用することで,複数ページの比較・統合を安定した精度で可能にするものである.高精度な比較統合を行なうために,Webから対象関連ページとそれ以外のページを大量に収集し,それらページの出現語彙の差分をとることで対象関連語彙を自動選別し,そこからテンプレートを自動生成した.テンプレートの作成には自動選別した語彙の共起情報を利用した.このテンプレートを用いた比較・統合システムを実装し評価を行ったので報告する. Keywords: 情報統合,共起 質疑応答議事録 要約の希望がありませんでした.
概要 本論文では,イベントの時系列的関係を表す辞書(時系列コーパス)の自動生成を目的として,新聞記事をイベント想起語と呼ぶ形式で表現する手法を提案する.時系列パターンマイニングの技術を用いて新聞記事データベース中に頻出するイベント時系列パターンの抽出を試みるが,このとき新聞記事の表現形式が抽出結果に大きな影響を及ぼすため,適切な表現形式は非常に重要である.我々は,新聞記事に含まれるイベントを想起し易くするために,記事の第1文を要約したイベント想起語及び想起語群と呼ばれる形式に変換する手法を提案する.評価実験の結果,記事をキーワードの集合として単純に表現した場合と比較して,より分かりやすいパターンが得られたので報告する. Keywords:テキストマイニング,時系列コーパス,係り受け解析,クラスタリング 質疑応答議事録 要約の希望がありませんでした.
概要 本論文ではアンケートの自由記述を分析する方法を提案する。提案法が対象とする自由記述では、良い評価、悪い評価、要望といった異なる観点で記述された複数の意見がひとつの自由記述に記述されている。提案法は、観点ごとに自由記述が当該観点を含んでいるかどうかを識別する分類モデルを、2クラス問題を解くことにより学習する。また、学習した分類モデルに基づいて分析対象となる自由記述の分類を行う。最終的には、分類された自由記述から抽出される表現の頻度を観点間で比較することにより、特定の観点と関連の深い表現を抽出する。本論文では、提案法の効果をホテル宿泊客から得られたアンケート自由記述の分析に適用しその効果を検証する。 Keywords:2クラス問題、SVM、テキストマイニング、差分解析 質疑応答議事録 会場より、SVMをした後に頻度を使ってクラス分類を行っているが、マージンの幅でどの次元が分類に効いているか分かるので、そうすれば直接結果を出せるのではないかと質問があった。これに対して、今回はやっていないが、今後、検討したいとの回答があった。会場より、サービスの向上に着目した場合、悪い(Badな)少数意見をピックアップした方がいいのではという質問に対して、今回はgood,bad,requestを均等に扱ったが、badに絞った解析にすれば可能と回答。学習データは人手でgood,bad,requestを入力しているが、入力者が客観的に判断がつかない場合はどうするのかという質問があった。これに対して、今回は5,6人で大まかな判断基準の基に入力を行った。したがって、個人差はあると思う。ただ、あまりこの点についてシビアになっても、性能の向上に結び付くとは考えてない。それならば、もっと入力するデータの量を多くした方がいいと考えると回答があった。会場より、goodの中にも程度があるので、「少し良い」「凄く悪い」などを扱えるようにする改良を考えているかとの質問があった。これに対して、要望にも、強弱があるという話はあり、それについては、もう少し細分化して点数をつけていくという方法はあると思うと回答があった。会場より、構文解析は使わないかという質問があった。これに対して、理由はアンケートは自由文なので文になっていないものもあり、構文解析をしてもあまり良い性能を得られないために使っていないと回答があった。会場より、辞書を作るよりも学習データを入力する方が楽だというのは客観的な事実かという質問があった。これに対して、客観的とは言えないが、辞書の場合は形態素解析の正規表現を書くのにある程度の知識が必要だが、学習データは○×なので入力者のスキルがなくても簡単にできると回答があった。
概要 In recent researches, an anchor text and texts near the anchor in the original pages are used for the purpose of summarizing or classifying the target pages. No research considers these text parts as the people’s views about the target page and tries to classify them. In our research, we try to extract the descriptions about the target pages from the original pages. We then classify these descriptions. In other manner, we classify the people's views about the target pages into the hierarchical directory. We call the result the Multi-People’s Views Web Directory. In this paper, we concentrate on describing our preliminary survey of semantic text portions. We also explain our method for extracting semantic text portions. The experimental results show that our method achieves high accuracy. Keywords: Web directory, document categorization, people's views, semantic portion, anchor 質疑応答議事録 会場から、local semantic portionはたしかに、色々な情報を抽出できるように思うが、それに比べてupper-level semantic portionはあまり重要な気がしないとの質問があった。これに対して、より多くの情報を集めるためにはupper-level semantic portionも必要であり、良い例もいくつかあったと回答があった。local semantic portionとupper-level semantic portionから抽出された情報は意味が異なるのではという質問に対して、同じ意味だと考えており、upper-level semantic portionも重要な情報であると回答があった。
概要 近年,蓄積された映像コンテンツの検索性・再利用性を向上させたいというニーズからコンテンツにメタデータを付加することが検討されてきた.一視聴者でも大量のライブラリの構築が可能になりつつある現在、コンテンツの検索には客観的記述に加えて,他視聴者の反応や盛り上がりといった主観的な情報を基準にした検索が有用になると考えられる.本研究ではこの主観的な情報の源として既存のネットコミュニティを利用し,ここで交わされる話題や盛り上がりの様をメタデータとして抽出する.さらに視聴者のフィードバックを取り入れることによってメタデータを洗練化していく.本稿ではパブリックオピニオン・メタデータと呼ぶこれらメタデータの抽出と洗練の手法を詳説し,実放送番組に適用して評価した結果を報告する. Keywords: エージェント,ネットコミュニティ,メタデータ,コンテンツ管理 質疑応答議事録 話題が盛り上がっている所には必ずアスキーアートがあると思うのですが、アスキーアートはどのように扱っているかとの質問に対し、今回は1行のアスキーアートのみを対象にしたので、顔文字だけです。複数行にまたがるものについては今後の課題ですとの回答があった。また、NTTドコモや筑波大の方がドラマについてやってる研究や、NICTがスポーツについてやっている研究が参考になるとのコメントがあった。