概要 本稿では,映像コンテンツに関連したブログコミュニティから,映像コンテンツ に関する意味情報をアノテーションとして抽出し,それらに基づく応用システム を提案する.具体的には,映像シーンを引用したブログエントリーをユーザが手軽に 編集可能なWebベースのツールを提供することによって,その編集履歴から 映像の任意のシーンとブログエントリーの文書構造とを関連付け,アノテーション として蓄積することが可能な仕組みである.また,アノテーションから映像シーンの 内容を表現するタグの抽出を行い,その評価を行うことによってアノテーションの 有用性を検証する.さらに,それらのアノテーションに基づくアプリケーションの 例として,映像シーン検索,ビデオスキミング,映像コンテンツ推薦システムを提案する. Keywords:セマンティックWeb,ビデオブログ,コミュニティ支援,マルチメディアアノテーション 質疑応答議事録 アノテーションを付与するシステムは従来から提案されているが,なかなか普及していないように思われるが,映像に対するシステムならば,普及すると考えられるかとの質問がなされ,本質問に対して,一般的なWebページに対しては確かにアノテーションを付与するシステムは普及していないが,ソーシャルブックマークのようなものは普及しているため,その利便性を伝えることができれば普及すると考えられる,映像を対象としたシステムの場合,自分の知っていることを他の人にも知らせたいという,エンターテインメント的な要素もある,との回答がなされた.また,会員の方が良いコメントを書くというのは,定性的には分かるが,数値評価はしているのかとの質問がなされ,本質問に対して,数値評価は現在のところ実施していないが,コメントの重要度を評価しない他システムのものよりは,有用なコメントが付与されていると感じているとの回答がなされた.
概要 近年,教師信号を必要としないブートストラッピング・アルゴリズムを用いて, Web上から情報抽出を行う研究が行われている.しかし,これまで提案されてい る手法には二つの問題がある.一つ目の問題は,従来手法は前後の文字列をテン プレート化するためWeb上の表や箇条書きからは抽出できないという点である. 二つ目の問題は,Web上の文書は多様性が高いため決まったテンプレートでは微 妙な差があるだけで抽出できない場合が多い点である.本研究ではこれに対し, WebページのDOM構造を解析するテンプレートを作成することで表や箇条書きから も抽出を行い,生成したテンプレート同士を交叉させてテンプレートを増やすこ とで微妙な記述の揺れに強い抽出手法を提案する. Keywords:情報抽出,ブートストラッピング,情報統合,半構造データ 質疑応答議事録 多様性を保つためにテンプレート数が多くなり過ぎることはないのかとの質問がなされ,本質問に対して,ほとんど利用されないテンプレートも存在するので,不要なテンプレートを破棄する仕組みや,多様性がある程度増えた段階で,多様なものを纏め上げる操作を検討する必要があるとの回答がなされた.また,本手法が上手く動作するには,テンプレートに対する評価値の設定が重要になると考えられるが,評価値が予め設定できるとするならば,その方向に網羅的に探索した方がよいのではないかとの質問がなされた.本質問に対して,教師データをドメインごとに作成するのは困難と考えられるため,少数の語彙とテンプレートから発展させていくという現在のアプローチを取っているとの回答がなされた.加えて,確信度の式は既に見つかっているものに良い値を与えるものになっているが,評価指標とあっていないのではないかとの質問がなされた.本質問に対して,実際上のところ現在問題は起こっていないとの回答がなされ,それよりも初期シードの選び方の影響が大きいため,そちらの方を検討したいとの回答がなされた.
概要 PC向けWebページを携帯端末向けに変換するなどの応用に向け,DOMツリーの画面 レイアウトに基づくWebページのセグメンテーション手法を提案する.提案手法 は,画面レイアウトを,その基本要素に対応するDOMノードを抽出し,Webブラウ ザのレンダリングロジックに従いまとめ上げることで解析し,Webページをセグ メント化する.提案手法を主観評価実験により評価したところ,評価ページ200 ページ中177ページで普通以上―5点評点で3点以上―の結果を得た.低評価のペー ジについて問題と原因を分析し,対応を検討した. Keywords:Web,セグメンテーション,DOM,レイアウト,モバイル 質疑応答議事録 内容的に同じものになる以外に各セグメントが持つ情報量はどの範囲にあればよいかとの質問がなされ,本質問に対して,分割がすくな過ぎるところの問題と分割が多過ぎるところの2点の問題があり,前者に対してはキーノードの設定ルールを緩くすることにより,細かく分割できるようにする,後者に対してはテキスト数の上限を参照することにより,分割のし過ぎを防止しているとの回答がなされた.また,NECで開発しているセマンティックズームとどういった関係にあるのかとの質問がなされ,セマンティックズームのレイアウト解析に本手法が利用されているとの回答がなされた.加えて,ページが厳密に記述されていないと解析が難しいのではないかとの質問がなされ,DOM構造そのものを利用して解析するのではなく,Webブラウザーに一度表示してみてから解析を行っているため,それ程厳密にページが記載されていなくても解析が可能であるとの回答がなされた.
概要 近年,多局化とデジタルレコーダの普及によるタイムシフト視聴の増加と共に, 時間×局で表される従来の番組表はあまり意味のないものになりつつある.そこ で,オントロジーを用いて番組群をその関連性に基づいてグラフ化することで, 関心のある番組をより探しやすくする新しいユーザインターフェースを提案す る.また,各番組にタグ付けしネットワークを介して他ユーザと共有すること で,視聴者相互の番組推薦機能を提供する. Keywords:グラフ,メタデータ,オントロジー,EPG,タギング 質疑応答議事録 EPGは表記の揺れが大きいため,関連度を計算する意味があるのか疑問 であるという質問が会場からあったが,EPGが信頼できないかもしれな いというのは正しく,表記の揺れを吸収するための辞書整備を検討し ているという回答があった.また,TVのユーザはだらけておもしろい ものをみたいと思っているはずであり,本システムは凝りすぎなのでは ないかという質問に対しては,TVの前でだらけているというのは正しく, パラメータ調整はしないかもしれないので,ユーザが興味を持つ ようなインタフェース作成を考えるべきであるという回答があった. グラフで表現すると,実際に繋がっている意味を考えるが,ユーザに とって興味が近いものだけを軸にして関連度が近いものをだすと良い のではないかという質問については,現在のインタフェースで良いかは 考えているところで,違うインタフェースも検討するという回答があった. ルートノードからの距離を持っているのかという質問があったが, 実際にはパスのリストを持っており,集合演算をして残っているものの 数を計算するという回答があった.また,パスが二つあるときはどうする のかという質問に対しては,二つあるときは両方計算するという回答が あった.画面は木構造になっているがデータも木構造なのか,その場合, 複数の番組に対応している場合はどうなるのかという質問には,データも 木構造で,両方にあるという回答があった.
概要 本論文では, 掲示板サイト分析に伴う作業量の分析法を提案する.提案法においては,分析者にとって興味あるスレッドを注意スレッドとして発見する際に,スレッドに含まれる不満記事の件数を基準にして,その候補を発見する.また,スレッドを構成する記事に含まれる不満記事の抽出性能に基づいて,本来の注意スレッドに対する候補の割合をモデル化する.提案法を14,860件の記事からなるスレッドに対して適用し,掲示板サイト分析システムにおける分析性能の向上に伴う変化を観測して検証する.加えて,本システムの運用時における作業量を評価する. Keywords:作業量分析,SVM,掲示板サイト,評判情報 質疑応答議事録 会場より,作業量は人間の分析の作業量であり,本システムを使用すると不満が あるものだけをチェックすれば良いようになるのかという質問があり,その通り という回答があった.指数分布なら平均値をβに入れれば最尤推定になるのでは ないかという質問に対しては,可能性はあるがそこまでは行っていないという回 答があった.また,Nc > Nmin になると解が不定になるので場合分けをしなけれ ばいけないのではないかという質問があったが,プログラム上では0で終了して いるので問題なかったという回答があった.N個あるうちから,Nc個の不満 イベントが入っているならば特定の分布になるはずで,式が簡単になるかもしれ ないというコメントがあった.
概要 Keywords: 質疑応答議事録 聴講者より電話帳は全国規模で40万件なのかという質問があり,発表者からは色々なエリアで調べた店舗の合計であるという回答があった.次に,40万件のうちのどれくらいが適応できるかという質問があり,これに対して,今回の実験では40万件のうち1.2万をサンプルとして行い,その結果,変更全体の20%程度に適応が可能だと思われるという回答がなされた.最後に,英語だと先行研究で見たことがあるが,日本語だとあまり無いと感じる.色々参考にしたら面白いと思うというコメントがあった.
概要 近年,我が国の小売業界は経営の転換期を迎えておりマーケティング手法にも革新が望まれている. 情報技術を用いた効果的なサービスに対する潜在的なニーズは大きい.そこで本研究では, 情報技術の利用を前提とした現代の購買意欲促進モデルを提案し,このモデルの枠組に沿って, 速効性が高くインタラクティブなモバイル情報推薦サービスを提案しシステム構築を試みた. Keywords:マーケティング,AIDMAモデル,レコメンデーション,モバイル,メールマガジン 質疑応答議事録 聴講者より地域活性化に携帯電話を使った理由と携帯電話を使う人は若者であり彼らは大規模なショッピングモールに行く傾向が強いので携帯電話を用いる手法に問題があるのではという質問があり,発表者から,やり方次第であり大規模なショッピングモールよりも中小規模の商店街の方が携帯電話を使ったサービスがやり易いと思うという回答があった.次に,提案手法(AIDMAAS)の実用化に携帯電話を用いているが,それが妥当だと思う理由について質問があり,これに対して,提案手法の実用化のデバイスは何でも良いのだが,ユビキタス環境で比較的扱いやすい携帯電話を今回の提案では用いたという回答があった.最後に,AIDMAモデルの次のモデルもいくつか提案されているが,それとの比較を行ったのかという質問があり,発表者から詳細な比較は行っていないが,この手法は中小規模に対して優れていると思うという回答があった.
概要 近年携帯端末によるインターネットへのアクセスは普及しており, Web上様々な情報を得られるようになった.しかし,携帯端末の表示制約によって, RSSの様なリアルタイム情報はまだ簡単に閲覧することができない. 本研究では,携帯端末向けにRSS情報変換システムとRSSリーダーiアプリを作成した. それによって,多くの携帯端末がRSS情報を閲覧可能となった. 汎用連想検索エンジンの導入し,検索表示に適した類似度計算方法の検討も行った. Keywords:携帯端末,RSS,類似度,GETA 質疑応答議事録 聴講者から検索対象はRSSタグなのかという質問があり,発表者からRSSのディスクリプションであるという回答があった.同じ質問者から,そうだとするとほとんどの計算結果が0になってしまうのではという質問がされ,発表者から今回はある程度の長さがあるものを厳選して計算を行ったので,ほとんどが0ということは無いという回答がなされた.また,提案手法では一般記事への適応は困難なのではないかという質問があり,現状では困難であるので今後はリンク先の内容についてもやってみたいという回答がなされた.最後に,商用やフリーの検索推薦システムはあるのかという質問があり,発表者からGETAを用いたシステムはいくつかあるという回答がなされた.
概要 『過去にみた』という体験を思い出し,その体験で得られた情報を想起しようとすることは多いので はないだろうか.我々は,Webページの内容だけでなく,Webページ間の関係,およびWebページから得た知識と いったWebページの閲覧体験によって得られた情報を想起させるための,コンピュータ上の過去の行動を検索する 手法『Memory-Retriever』を提案してきた.本稿では,Memory-Retrieverの概要を述べた後,評価実験により,従来 手法に比べMemory-RetrieverはWebページの閲覧体験によって獲得した重要な知識を短期間で効率的に想起できる ことを示す. Keywords:履歴,行動検索,記憶想起,評価 質疑応答議事録 聴講者より,リンク構造ではなく時系列構造を用いた理由が質問され,発表者より, リンク構造よりも時系列に履歴を並べた方が思い出すことの支援につながるとの仮説に 基づくとの回答があった.この回答に対して,さらに聴講者より,リンク構造と時系列構造 との比較実験を行って欲しいとのコメントがあった. 聴講者より,被験者実験において被験者に思い出させるタスクであることを事前に知らせたのか という質問があり,発表者より,事前に知らせたとの回答がなされた.この回答に対して, さらに聴講者より,知らせずに実験を行った方が現実に即していると思うとのコメントがあった. 聴講者より,複数の閲覧タスクを同時並行に行った場合はどうなるのかという質問があり, 発表者より,閲覧履歴からクラスタを作る研究を別途行っているとの回答があった. 聴講者より,後から見たいという要望がどの程度あるのかという質問があり, 発表者より,調べていないが昔見たページをもう一度見ることが8割程度という研究が あるとの回答があった. 聴講者より,思い出させることも興味深いがそこから重要なことをどれだけ発見できたのか ということにも興味があるとのコメントがなされた.
概要 ウェブの閲覧は,閲覧者の目的の発生と,それ充足する行動と いうサイクルから構成されていると考えることが出る.ウェブ閲覧履歴には閲覧 者の行動を表す情報が含まれている.閲覧時にとった行動や,閲覧したウェブ ページの内容を概観することが出来れば,ウェブ閲覧履歴を有効に活用すること ができると考えられる.本稿では,ウェブ閲覧履歴に含まれるウェブページのテ キスト内容や,URL,閲覧時刻,ウェブブラウザのウィンドウIDといった情 報を用いてウェブ閲覧履歴をクラスタリングする手法を提案し,実験により提案 手法が人の手によって整理したものに近い結果を出すことが出来ることを示す. Keywords:履歴,文書クラスタリング,操作情報,提案 質疑応答議事録 聴講者より,正解分割数が多いと実験結果が悪いとあったが分割数を少なくすれば良くなるのか という質問があり,発表者より,行っていないので分からないという回答があった. 聴講者より,私は複数のタスクを並行して閲覧し,ウィンドを新しく開いて読めば閉じるので 仮説には納得できないというコメントがなされた. 聴講者より,k-means法を採用した理由と,kを固定している理由が質問され, 発表者より,他の手法は試していないとの回答があった.この回答に対して, 聴講者より,ボトムアップクラスタリングを試して欲しいとのコメントがなされた. 聴講者より,検索エンジンのキーワードの変遷を使わない理由が質問され, 発表者より,検索エンジンのキーワードの変遷を見てもタスクの切れ目の判定が難しいとの 回答があった.この回答に対して聴講者より,検索キーワードのクラスタリングを行えば よいのではというコメントがあった. また聴講者より,サーベイするものによってクラスタの広がりが異なるとの指摘や, 思考プロセスの変遷に使いたいとのコメントがなされた.
概要 近年SNSと呼ばれるコミュニケーションを取ることを目的としたサービスが爆発的に流行している.最近では多くのユーザが,現実世界の社会ネットワークを再現するに留まらず,SNS上で出会った人と積極的に交流を深めている.そこでSNSにおいて,ユーザを中心としたコミュニティ支援を行うシステムを提案する.SNSを利用するユーザの行動履歴を収集・利用し,そのデータからユーザのタイプを分類した.その結果,ユーザが興味を持つようなユーザコンテンツの提示が効率よく行えた. Keywords:SNS,Web2.0,ユーザ支援,行動履歴 質疑応答議事録 聴講者より,ユーザタイプ判定の条件はどうのように決めたのかという質問があり, 発表者より,主観で決めたとの回答があった. 聴講者より,アクティブユーザとノンアクティブユーザの分類が現状を反映しているのか, データを分析してくださいとのコメントがなされた. 聴講者より,友達の友達を見ると莫大な数になるが,大規模運用できるのかという質問があり, 発表者より,現状のままでは難しいと思うと回答があった. 聴講者より,SNSはもう十分活性化していると思うので,逆に使用を制限することも 必要かもしれないというコメントがなされた.
概要 探索的データ分析は,データの明確な利用方針を予め持っていない分析者が, 試行錯誤を繰り返しながら興味深い特徴や有意義な知見を見つけ出す際の分析 手法のひとつである.我々はこのような分析を行うユーザの「探索行為」と 「振り返り行為」を支援するシステムについて研究を進めている.本稿ではこ のシステムを用いたユーザ観察を実施した.その結果,被験者は振り返りの際 の手がかりとして,付箋機能のような直接的外在化と同様に位置の移動やサイ ズ変更といった暗示的外在化を用いている様子が観察された. Keywords:探索的データ分析,ユーザ観察,自然言語入力,直接操作 質疑応答議事録 発表中に聴講者より,ここでの分析の意味が質問され,発表者より, POSや人口統計などのデータを分析しマーケティングなどに活かすことと回答があった. 同じく発表中に聴講者より,メタコメントとは何かの質問があり, 発表者より,グラフの中ではなく説明戦略に関わるコメントであると回答があった. 聴講者より,言語の背景にある基盤が,形式言語と比較して自然言語は柔軟であるので, 自然言語を用いるからこその評価基準が欲しいとのコメントがあった. 聴講者より,機能の操作回数と重要度との関連に対して,セーブ機能を持ち出すのは 理解できない旨のコメントがあり,発表者よりセーブ機能は例として適切でなかったことと, 操作の回数と重要度との関係はよく考えるべき問題で,観察できるものがすべてという立場から, 観察できるものを整合性をとって並べたいという意味だったとの回答がなされた. 聴講者より,エンジニアリングとアートを分離する必要はなく,現象学を用いた解釈の基盤も 使える範囲で使用すればよいとのコメントがあり,発表者より,仰るとおりで研究成果に対して アートだからと評価することから逃げないで欲しいという趣旨だったと回答があった.
概要 近年,ブックマークや写真などに「タグ」を付与することでデータを管理する 「タギングシステム」が大きな注目を集めている.しかし,これら従来のタギン グシステムでは自然言語を利用してタグを付与するため,語彙の曖昧性に起因す る検索精度の低下や,語彙同士の関係性を考慮した検索ができないといった問題 があった.そこで,本稿では膨大なコンテンツ量を誇るWikipediaのエントリを タグとして利用し,情報検索に活用するシステム「Wikipediaタギング」を提案 する.Wikipediaタギングでは,語と語同士の関係性を定義したWikipediaシ ソーラスを利用して情報検索を行う仕組みを提供しており,語彙同士の関係性を 考慮した検索が可能となる. Keywords:Wikipedia,タギング,情報検索,シソーラス 質疑応答議事録 聴講者より,タグは付与者により異なり,特にWikipediaのタグは,一般語や長いものもあることから,十分に検索ができるインデックスになるのかどうか,という質問があり,発表者から,一般語の検索については,一般的な名詞から固有名詞への関連性をシソーラスから定義しているという回答があった.また,シソーラスもWikipediaだけから作っており,固有名詞が多くなる点を考慮し,説明文まで見てインデックスをつけるようにする工夫を検討しているとの回答があった.別の聴講者より,情報検索の精度の評価尺度が,よい/悪いとなっている点について質問があり,聴講者より,現在数値化することまではできていないが,今後定量的に評価することを考えており,連想される語をピックアップして,別のユーザに検索してもらうこと等を検討しているとの回答があった.
概要 実世界での行動決定に関係する情報に着目すると,現在では,交通機関の時刻表, コンサートホール等におけるパフォーマンススケジュール,店舗の特売情報など 現在では紙媒体による伝達される以上の情報が提供されている場合もあるほどに, 実世界関連情報のWebによる提供が進んでいる.このような現状で,実世界での 行動決定のためにWeb情報を参照することはごく当たり前の行為になっていると いえ,モバイル環境において「次の行動」を決定するための情報をより的確に検 索するための枠組みを構築することが必要であると考えられる.本稿では,実世 界上の各個人の「滞在施設から次の滞在施設への移動」に着目し,その行動履歴 を他者と共有することにより,人の往来の頻度の視点から見た滞在地間のつなが りの強さを検出し,それを情報検索に利用する手法について述べる. Keywords:実世界行動,Web,情報検索,GPS 質疑応答議事録 (希望なし)
概要 本稿では,適合性フィードバックの評価式の再利用によって,検索目的に基づい たベクトル空間に検索質問や文書を投影し,以降の検索質問だけによる検索の精 度を向上させる新手法を提案した.提案手法は,NTCIR3コーパスの学習時と異な る表現の検索質問に対して,ベースとした検索システム(15.44%)や疑似適合性 フィードバック(17.66%)よりかなり高い平均適合率(23.36%)を達成した.提案 手法は,複雑な行列演算が不要なため,WWWの様な大規模なコーパスに対する実 用性が高い.毎回関連文書を選択する必要も無いため,省入力性・カスタマイズ 性・実用性をバランスさせた,学習型の検索手法として有望である. Keywords:適合性フィードバック,学習,検索,高速化,永続化 質疑応答議事録 聴講者より,比較している対象には過去の適合判定の情報が入っていないので,この様な情報を利用している手法も比較対象とすることを検討してみては,というコメントがあり,発表者から,提案手法には利用者と計算機の双方の手間を少なくする特徴があるため,その点が似ている疑似適合性フィードバックと比較したが,手間が多いが精度が高い手法(検索モデルの学習や適合性フィードバック)とも比較して,いかに少ない手間で精度の上限に近づけるか,というような評価を検討したいとの回答があった.同じ聴講者から,単語ベクトル空間との併用で,,どちらの値を重視するかの重みを変更しても良いのか?という質問があり,発表者から,そのような構成を取ることは可能であるが,ベースとする検索システム等の外部環境に大きく依存するため,最適なパラメータは推定する必要があるとの回答があった.また,NTCIRのデータについて確認の質問があり,発表者から,NTCIR-3のデータ(Webタスクの主題検索サブタスク/FormalRun)を使用し,検索語としては,1語から3語の<TITLE>中の単語のみを使用したとの回答があった.別の聴講者から,利用者は上位の文書を利用する手間も惜しいことを考慮し,クエリを入力した場合に期待される回答を分けて提示するようなインタフェース的な工夫があるのではないかとのコメントがあった.
概要 Webサイトに蓄積されたログを分析し,ログの中からキャンペーン等のイベントに起因するアクセス変動異常を抽出し,異常の原因となったイベントの種類を推定する技術を開発した.本技術はイベントの種類によってアクセス変動の時系列波形が異なることを知識として利用する.アクセス変動異常日の時系列データに対して,4種類のテストを適用して時系列波形の特徴を抽出する.テスト結果に対して判定ルールを適用することで,原因イベントがサイト内部のイベントかどうか,予告されたイベントかどうか等を推定できる. Keywords:イベント検出,Webマイニング,需要予測,サービス品質,計画可能性,サービスサイエンス 質疑応答議事録 会場から,使用方法はユーザが殺到する場合の処理や,ユーザニーズの予測や推定することを考えているのかという質問があり,計画されたイベントでの来訪予測が主目的だが,インターネットの構造変化が起きたような場合,予兆を検知することも今後重要と認識してると回答された.続いて,今回の結果を使用してどのようにユーザ行動を予測するのかと疑問が寄せられ,過去のイベントを分析して特徴を抽出し,共通の特徴に対してラベル付けを行い,予測時にラベルを指定することで需要予測に使用すると返答された.今回の分析結果以外に,異常の検出,例えば影響力のあるメディアが起こしたような事件の影響といったような際だった例外の検出に使うこともできるのかと質問があった.発表者からは,異常が検出されたときの変動波形とそのときWebで流行っていたキーワードの検出からルールを抽出する方向が考えられると答えがあった.別の質問者から,アクセスパターンだけを見ても現実の事象は分類できないのではないか,そのため現実世界で何が起きたのかと照らし合わせることが必要なのではないかとコメントされた.それに対して,ログに現れるもの(URL,リファラー,ユーザID,時間)でどこまで把握できるかを調べることが目的であると回答された.大きな事件が合った場合,検索エンジンを使用してアクセスする.そこで,検索キーワードを見れば現実のイベントのリンクを分析することは可能ではないかとアドバイスがなされた.今回使用した,イベントの種類,分類の決め方,ルールはどうやって決めたのかと質問がなされ,今後ログの分析対象を増やしていき,今回用意したもの以外でどのようなものが当てはまらないのかを分析すること考えていると返答された.
概要 ウェブ,とりわけブログにおいては,個人によって発信される評価や評判など, 意見に関する情報が大量かつ無秩序に存在しているが,それらを活用するため の手段が十分に提供されているとは言い難い.そこでは,対象とするテキスト に関するトピックと意見極性が,機械的な処理が可能な形で示されていないこ とが多いため,文書または文をトピックと意見に関する適合性にしたがってラ ンキングする機能は重要である. 本稿では,筆者らが提案した確率的言語モデルに基づく意見情報検索モデルを 紹介する.本手法は,利用者がクエリ語でトピックを表現し,また,関心のあ る意見極性を特定することを前提とし,意見言語モデルとトピック言語モデル を組み合わせることで意見のトピック依存性を考慮する. Keywords:確率的生成モデル,言語モデル,意見検索,情報検索 質疑応答議事録 聴衆から,文書分類の言語モデルにおいては,トピックが複数文から構成される.その際,トピックは文章を総括的に計算される.一文単位で見ると分析に必要な単語が入ってこないこともあるはずだが,それはどのように処理しているのかと質問があった.評価データ(正解データ)も同様に,トピックについて直接書かれていないものもあると考えられるが,どのようなデータが正解データなのかという2点が質問された.一つ目の質問に対しては,確率値が0にならないように,文における確率分布に対して,文書コレクション(コーパス)の確率分布を用いて補間するというスムージングを使っていると回答された.二つ目の正解データの質問については,文書レベルで定義されたトピックの情報が付与されたコーパスを使用したため,文レベルで本当に分類できているかどうかについては今後検討すべき課題であると述べられた.続いて,正解データとして必要な意見極性はポジティブなものとネガティブな意見があるが,複数文でひとつの意見極性を表現しているようなものは処理できないのではないかと質問された.これに対して,実験では文レベルを想定したが,提案手法は文書レベルやPassageレベルにも適用可能であるとの答えがあった.別の質問者から,トピックの粒度を検討するとどうなるかと聞かれ,トピックの粒度については今回考慮していないので検討課題であると回答された.また,意見を極性ではなく強度を与える方法は考慮しないのかという質問には,シードワードを用いる方法では難しいと思われるが,提案手法のもう一つの実現方法である訓練データを用いる方法を用いることで実現可能であると回答された.
概要 本稿では,日本語のWebニュース記事を対象とし,5つの手がかりを用いて信頼度を判定する手法を提案する.5つの手がかりは(1)推測表現を考慮した記事の客観性,(2)記事の長さを考慮した情報の量から推定した記事の詳細さ,(3)複数のニュース配信元間の記事の内容の共通性,(4)記事内で報道された数値の一致と矛盾,(5)記事中に書かれた情報源の有無である.提案手法については,6つのニュースサイトから記事を収集し,2つの実験を行った. (A)56のニュース記事を28のペアとし,どちらが信頼できるかをシステムが判定した結果と,被験者4名が判定した結果を比較したところ,一致率は64.3%であった. (B)123のニュース記事について,3段階の信頼度を設定し,システムが判定した結果と,被験者3名が判定した結果を比較したところ,一致率は62.5%であった. (B)の結果については,乱数に基づき信頼性を判定した結果との比較も行った.この場合の平均一致率は,33.6%となり,t-検定を用いて有意差検定を行ったところ,ほぼすべて(300通りのうち299通り)の結果について,1%の有意水準で有意差があることを確認した. Keywords:Web文書の信頼性,RSS,客観性,詳細さ,情報フィルタリング 質疑応答議事録 事実が書かれていて,客観的な意見が書いてあれば信頼性は高くなるべきではないか.客観性の手がかりを抽出する際に,係り受けなどは考慮しているのかという2点について質問があった.登壇者から,係り受けを考慮して分析しているものもあるが,深い分析までは行っていない,そのような分析を行えば精度は向上するだろうとの見解が示された.続いて,科学技術報道と通常の事件記事を分けることは考えなかったのか,新聞の記事の種類と信頼性を考慮すべきではないかと質問があった.今回は考慮していなかったが,提案した尺度の重みを変えることで対応できると回答された.記事の中には,大元の配信社から配信されたものがそのまま報道されるようなものがあるが,それは問題にならないかという質問に対しては,その通りであるが,その大元の配信社がそれだけ信頼されているということを意味するので問題ないと述べられた.また,大元の配信社が間違っていたような場合は,提案した尺度を調整することで対応するとコメントされた.政治的な立場により報道が変わるが,信頼性は揺らぐのではないかという意見には,意見の偏りがあるものは信頼できないので,意見の見方を分析する枠組みが必要であるが,現状では実現困難であると回答された.複数の観点を含んだものを信頼できるとする方法はあるとの解決案が出された.さらに,誤報はどのように判断するのかという質問があり,誤報が多いであろう事件当初の記事内には推測情報が多く含まれるはずで,その情報を使用すれば分析はできるだろうと回答された.信頼できそうでウソだったというものについてはどうするのかという質問には,誤報についての履歴を取り,配信社の信頼性により分析すると回答があった.