概要 デザイン作業とは,造形だけでなくデザインコンセプトの立案までを含む.デザイナーは効率的な造形作業を行うために重要なデザインコンセプト立案作業に多くの労力を費やしている.しかし,その作業を支援するシステムは少ない. そこで,本研究ではデザインコンセプト立案作業の初期段階である既存製品のポジショニングマップの作成支援を行うシステムの開発を目的とした.具体的には,まず目標とする製品キーワードと感性ワードを用いてWEB上から既存製品の画像を収集する.次に,デザイナーの各画像に対する感性ワードの評価値を利用して主成分分析を行い,作成されたポジショニングマップを提示する. Keywords: デザインコンセプト立案,支援システム,画像検索,感性ワード,ポジショニングマップ 質疑応答議事録 課題認識に対する質問として,「Webから関連する画像を取ってくるとのことだが,デザイナーはそのような作業を実際に行っているのか,その場合,このようなシステムに対するニーズはあるのか」という質問があった.これに対して,「現在は関連製品を雑誌から集めているが非常に時間を要している,この問題を解決する方法として本システムが役に立つと期待している」との回答があった.また,「雑誌には比較的整理された情報が載っているのに対してWebの画像は質にばらつきがあるが,その点は問題ないのか」という質問があった.これに対して,「確かにそのような側面はあるが,雑誌よりも多種の情報を収集できる点がメリットと考える」との回答があった.方式に対する質問として,「感性ワード抽出ルールはどのようなものを使用しているか」という質問に対しては,「形態素とパタンを用いた10種類のルールを用いている」との回答があった.コメントとしては,「特許庁の意匠のDBが利用できるのではないか」という意見があった.
概要 巨大掲示板サイト“2ちゃんねる”を様々な観点から分析するためのプラットフォームAna2chを開発した.Ana2chの最大の特徴はシステムをフレームワークと分析モジュールとに分離することで,分析機能の拡張性と自由度を高めたことである.Ana2chは2ちゃんねるの投稿データを利用して日本語の自然言語処理, データマイニングなどの技術を応用する研究プラットフォームを提供すること,2ちゃんねるで起こる様々な事象を継続的に分析・記録し,その分析結果をアーカイブ(保存記録)として公開することを目的としている. Keywords: Web分析,オンライン・コミュニティ,2ちゃんねる 質疑応答議事録 プラットフォームの利用方法に関する質問に対して,現在は分析モジュールを直接実装する方法であり,将来的にAPIでの提供も考えていきたいとの回答があった.望ましい利用形態に関する質問に対して,利用して頂くことで新しい分析方法が生み出されることが理想との回答があった.プラットフォームの設計方針として,分析重視(基礎的な分析関数を多く提供する)と,収集重視(文書をリアルタイム収集できる環境を提供する)のどちらかを明確にさせたほうが良い,現状ではどちらを考えているかとの質問に対して,分析重視で考えているとの回答があった.
概要 人と人との繋がりを促進・サポートするWebサイトであるSNSでは,日記や掲示板等のツールが提供されている.議論が白熱し,短時間に頻繁に意見交換される場合があるが,これらの非同期型ツールではコメントの確認のためにリロードしなければならず,意見の行き違いが生じる場合がある.本研究では,リアルタイムコミュニケーションツールの一つであるチャットをSNSで活用することを提案する.単にチャット機能を導入するだけではなく,チャットに関する情報をSNSに反映させる等,SNSとチャット機能を連携させたシステムを設計・開発した.評価実験を行ったところ,SNSにおける意見交換支援の拡大に繋がる可能性が示唆された. Keywords: SNS チャット リアルタイムコミュニケーション アウェアネス 質疑応答議事録 「非同期と同期型のコミュニケーションメディアを連携させるという試みは良い.この時,両者がスムーズに連携できているかに関する評価も行ったほうが良いのではないか」という質問に対して,「今回は時間と人数が限られていたのでその評価は十分にできていない.今後の課題である」との回答があった.また,「SNSは友人間のクローズドなコミュニケーションであることに対し,チャットは参加しているユーザ全員の情報が見れるオープンなコミュニケーションである.両者は必ずしも相性がよくないのでは?例えば,チャットの公開範囲はどうなっているか?」という質問に対し,「本来はアクセス制限すべきであるが,現在は実装していない」との回答があった.さらに,「コミュニティのタイプによって受け入れが違う.例えば,目的があるかないかとかは重要.評価はどのコミュニティを対象したのか?有効性の分析は慎重にやったほうがいい.」との質問に対して,「今回は,SNSの運営者を対象とした評価を実施した」との回答があった.
概要 ある事象に関してWeb上に散在する大量の情報を効率よく閲覧する手段としてまとめサイトがある.自分の興味のある事象に関してまとめサイトがあれば便利である.しかし,まとめサイトを作成するには多大な労力が必要であるため,ごく少数の人しか興味を持たない事象に関してはあまり作成されない.そこで,多数のユーザからWebページのURL及びWebページ間の関係の情報を収集し,中心としたい話題を扱うURLを入力すると,そのURLを中心としたまとめサイトをインタラクティブに生成できるシステムを提案する.本稿では,まずシステムの概要を説明した後,入力を集約してまとめサイトを生成するアルゴリズムを述べる.最後に実験を行い,実際に提案方式を適用して生成されたまとめサイトを検証する. Keywords: ソーシャルまとめサイト, RSSブラウザ, Webサービス, まとめサイト 質疑応答議事録 「生成されたまとめサイトのカテゴリにばらつきがあるが,カテゴリの精度に対する評価はあるのか?」という質問に対して「今後の課題であり,アンケート等を考えている」との回答があった.次に,「ニッチなトピックに関するまとめサイトを作りたいという課題は,人数に基づく閾値で切り捨てる現在の集合知的な方法で解決できるのか?」という質問に対して「閾値も含めまとめサイト作成管理者が調整できる枠組みを考えている」との回答があった.また,「2つのURLの関係を入力する際に,自由入力ではなくセットから選択する方法にして,関係の種類の発散を防ぐという方法もあるが」との質問に対して「自由入力の方が面白い結果がでると思ったためであるが,セットから選択する方法でも良い」との回答があった.最後に,「関係の向きがあるが,向きを入力することで面白いことはあったか?」との質問に対して,「潜在的にはありそうだが,同じような概念でも向きに人によってばらつきがでてしまうので,今回の実験では使用しなかった」との回答があった.
概要 多種多様なデータプロダクトがデータベースに格納され,一般的に公開されている.地球観測分野を例に挙げると,観測衛星による全地球規模での気象観測や,気象予測モデルなど多数の機関による成果物の開発,公開が行われている.一方,気候,水循環,農業,生態系など専門分野の類似したデータセットであっても,分野を超えたデータ統合が行われていない.データ活用を促進するためには,データを説明する良質なメタデータを作成し,維持管理し,メタデータの検索ができるメタデータレジストリを構築する必要がある.本稿では,地球観測データのためのメタデータレジストリを例に挙げ,長期間メタデータを運用するために必要なメタデータレジストリフレームワークについて述べ,実装中の利用者に優しいメタデータ入力インターフェースを紹介する. Keywords: メタデータ管理, 入力用インタフェース, 科学DB 質疑応答議事録 「実際に運用されているシステムか? よほどのインセンティブがないと,データを記入してもらえなかったり,本人しか分からない省略記号が増えたりするように思われるが,実際の運用にあたって,そうさせないような巧い手段があったか?」という質問に対し,「試験運用中で狭い範囲であるが利用されている.インセンティブは重要であり,課題として認識している.コラボレーションに関連して研究コミュニティのようなものをつくることや,メタデータを入れないと損をするような仕組み作りができないか検討中である.」との回答があった.また,「使いやすさ,入力しやすさは,利用してもらうためには重要な要因である.入力方法をナビゲーションをするようなアプローチもあると思うがいかがか?」との指摘に対し,「実際に,空欄に何を入れたら良いか分からない,人によっては求められているものと違うデータを入れてしまう,などの意見がある.入れるべきデータを例示データとして入れておくなどが必要である.」と回答があった.更に,「具体的にどのようなものを提示するとどのようなメリットがあるか?」という追加質問に対し,「地理空間中での位置を示す "phisical location" という項目にファイルの位置を入れてしまう事例があった.このような,多義性などによる誤解が生じるような状況を減らすことができる.」と回答があった.
概要 近年のブログ利用の広まりとWebニュース配信サービスの普及により,事件事故報道に対する意見が多数発信されるようになった.Web上の意見は,事件事故のニュース内容を分かりやすく理解するための手がかりとして利用できると考えられる.ブログ専用検索システムによって意見情報の収集が容易になった一方,その量は膨大であり全てを精読することは困難である.本研究では,そういった場面に対し,ニュースに対する意見のおおまかな傾向を短時間に掴め,かつ利用者が詳細に読みたいと思うブログまでより手早くアクセスできるインタフェースの構築を目指す.本稿では,ブログの意見文を収集する方法,トピックを抽出する方法,ブログ意見文を提示する可視化の検討を行った. Keywords: ブログ,意見マイニング,CGM,トピック抽出,情報可視化 質疑応答議事録 はじめに,「主体の類似度の計算方法は,主体とペアとなる述語について出現頻度を用いてベクトルを作成し,コサイン類似度で計算する」ことの確認が行われた.次に,「ブログ記事には口語体が多いが,CaboCha を用いた場合の係り受けの解析精度はどれくらいか? 改善手法があれば教えて欲しい」という質問に対し,「ニュースに関する記事では,2ちゃんねるの掲示板などに比べると整った文が多い印象がある.無茶なものは多少あるものの,特別な対処はしていない.」と回答があった.また,「ニュースでは主体・述語がはっきり書かれていることが多いが,意見を述べる側では『××についてはどう思う?』のような主体のみで述語がない場合もあるのではないか?」との指摘に対して,「ニュースに関するブログ記事では,述語のみで主体が省略されることが多い.他のブログから,主語と述語の高頻度なペアを抽出するなどにより,省略されている主体を補えないか考えている.」との応答があった.
概要 我々が開発してる撮影地探索システムの概要について説明する. そのシステムは風景写 真への撮影地というメタデータの付与を支援するシステムである. 風景写真にそういったメタデータを付与することは, 位置指向検索システムのコンテンツの作成や, 撮影地の説明が付いた写真のライブラリの構築などに役立つ. さらに, 報道写真が説明どおりの場所で撮影されたのかを検証するのにも役立つと考えられる. 最後に, 撮影地探索システムの課題について述べる. Keywords: ジオコーディング, メタデータ生成, 写真, 遺伝的アルゴリズム
因果と識別子の2部グラフの伝播計算による因果抽出 ○下山洋一, 鈴木瑠梨, 茂呂佳令, 高木友博(明治大学) 概要 テキスト情報から因果関係を抽出することを目的とする.これまでの研究では因果関係を明確に示す識別子をあらかじめ決めておき,それに基づき因果関係を抽出する手法が大半であるが,これでは抽出できる因果関係が最初に与える識別子により限定されてしまう.本研究では,より明確な因果候補はより明確な識別子を持ち,また逆により明確な識別子はより明確な因果候補に用いられていると仮定し,コーパス中に因果例が発見されるたびに,互いの因果度を高めるようなイテレーションを繰り返す方法を提案する. Keywords: 因果関係抽出,識別子,2部グラフ,伝播計算 質疑応答議事録 「表3 の動詞の組を見た範囲では,因果関係を見出せないのではないかという感想を持った.縮約度合を変えて比較したりしたか?」という質問に対し,「実験は未実施.」との回答があり,「意味が広い動詞ではなく,一意的な動詞に対してであれば巧くいく場合があるかもしれない.」との補足があった.また,「ウェブは有効グラフだが,有効グラフか? 入リンクに限定すれば重要な識別子が得られると思うがいかがか? リンク元が重要なのかを知りたい.」という質問があったが,時間の都合上,回答は休み時間に持ち越された.
概要 ニュースは,インターネットで最もよく利用されるコンテンツの一つである.利用される素材や発信者の観点の違いから,ニュース報道の多様性がよく見られる.さまざまな視点の情報を得られる利点があると同時に,偏った情報や,相互矛盾の情報なども多く,知的情報の理解に関するデジタルデバイドが新たに生まれつつあるというリスクがある.そのため,ニュース報道の多様性や偏りを検知してユーザに提示することが重要である.ユーザのニュース理解を支援するため,我々は,話題と視点に基づくニュースコンテンツの多様性分析システムTVBanc(Topic and Viewpoint based Bias Analysis of News Content)を提案する.TVBancは,ニュース報道の多様性を分析するため,まず,対象ニュース項目の話題と視点を抽出する.我々は,Content Structureという新しい概念を提案し,それを用いてニュースコンテンツの話題と視点を推測する.次に,TVBancは,関連ニュースコンテンツをメディア横断して収集し,関連情報の分布や話題・視点の違いに基づいてニュース報道の多様性を分析してユーザに提示する. Keywords: ニュース,多様性,話題,視点,Content-Structure 質疑応答議事録 「ニュースコンテンツの話題と視点の抽出に,構文解析も用いた方がいいのでは?」という質問に対して,「コンテンツ全体での各語の登場頻度を扱うことを優先したいので,今回は構文解析を行わなかった.ニュースコンテンツは比較的文や文章の構造の質がよいので,今後は構文解析の利用も検討する.」という回答があった.また,「評価実験において主観評価の評定値の方がキーワード抽出による評価値より高いのだが,視点抽出が記事の後半部分を中心に行われているから後者の値が低いのか,それとも主観評価の際に評定値が上がる要因があったのか?」という質問に対しては,「両方の要因がある.他の記事の情報やユーザの事前知識によって評価対象の記事に不足した知識を補完した上で評価している可能性がある.」と回答した.また,「ニュースコンテンツは配信元が違えど内容が似たり寄ったりのところがあるので,むしろ別のソースを加えた方がいいのではないか? たとえば個人のブログなどは分析対象に加えないのか?」という質問には,「今回の研究の手法は,マスコミの配信するニュースであれば構造がはっきりしており,かつコンテンツ間で共通している点に注目している.ブログの評判情報への応用も可能かもしれないが,コンテンツの構造を考慮する必要がある.」と回答した.
概要 近年,レビューサイトに書き込みを行うユーザ(レビュア)が増加している.しかし,レビュアの中には価値ある情報を提供する信頼できるレビュアだけでなく,あまり価値のない情報を提供する信頼できないレビュアも存在している.そこで,本研究ではレビュアの信頼性を自動で評価することを目指す.レビュアの信頼性を評価する方法として,2つの方法が挙げられる.1つ目はレビューの内容をもとにレビュアを評価する方法であり,2つ目はレビュアが過去にレビューを行った履歴をもとにレビュアを評価する方法である.しかしこれらの研究は個別に行われてきたため,それぞれの手法間の比較は行われてこなかった.そこで本研究では,レビューの内容に基づく手法とレビュアのレビューの履歴に基づく手法との比較を行うことで,レビュアの信頼性を評価する際どのような方法を選択すればよいかを決定するための知見を得ることを目指す. Keywords: レビュー,Web Trust,情報の信頼性,評判情報
概要 現在,Web上でのトピック追跡やバーストしたトピックの発見をする手法は提案されている.しかしながら,あらかじめ将来トピックが盛り上がるかどうかを予測する研究は少ない.そこで我々はある種のユーザを利用し,掲示板の未来の盛り上がりを予測する手法を提案する.その予測に利用するある種のユーザのことを「目利き人」と呼ぶ.「目利き人」とは他人より早い時点で盛り上がるスレッドに登場する傾向の強いユーザのことを指す.我々はその目利き人が初期段階で多く存在するスレッドほど盛り上がる可能性が高いと考える.そして過去のデータから各ユーザの目利き人の度合いを解析し,そのデータを用いてスレッドの盛り上がりを予測する.本稿ではYahoo!掲示板1のデータを用いた実験を行い,提案手法の有用性を示す. Keywords: 掲示板,盛り上がり,予測,目利き人 質疑応答議事録 「盛り上がりにはユーザ同士が楽しく盛り上がるよい盛り上がりと,いわゆる『荒らし』のような悪い盛り上がりがあると思うが,分析の上では考慮しないのか?」という質問に対して「今回の手法では盛り上がりは考慮しない方針である.」と回答した.これを受けて「たとえば2ちゃんねるのような掲示板であれば『荒らし』を生み出すユーザの特定につなげられるのでは?」というコメントがあった.また,「複数のスレッドをまたいで全般的に『目利き人』になれているユーザは存在するか?」「新しい話題に何でも飛びつくユーザがいるように思うが,このようなユーザの貢献はありそうか?」といった質問に対しては「これから分析を行う.」と回答した.さらに,「『目利き人度』の算出において,盛り上がらなかった(=目利きを外した)スレッドの影響はあるか?」という質問について「盛り上がったスレッドの正答率には影響するものの,直接『目利き人度』の算出には影響しない.」と回答した.そして,「直近のデータに絞った分析をしない方が,する方より『目利き人度』のPrecisionが高いが,これはスレッドへの参加ユーザ数の影響もあるのでは?」という質問に対して「スレッドのコメント数により『盛り上がり度』の重み付けは行っているが,スレッドへの参加ユーザ数は考慮に入れていない.また,『盛り上がり度』については逆に直近のデータに絞った分析をした方がPrecisionが高くなる.」と回答した.ほかにも,「先行研究でも指摘されているような,盛り上がりを生むユーザの役割分担に注目する方が面白いのではないか?」「『目利き人度』のパラメータ決定の手法(論文中のBasicConnosseurの決定方法)は再検討の余地があるのではないか?」「掲示板トピックに対するユーザの知識の程度や,ユーザの知識獲得の時間変化の影響もあるのではないか?」「WWW2008のSWSM2008というワークショップで研究の狙いがよく似た発表があるし,社会ネットワーク分析で関心の近い研究が多いので,参考になるのではないか?」といったコメントがあった.
概要 本研究では,課題の志向性と利用者の経験の違いが情報探索行動に与える影響について検討した.図書館情報学を専攻する大学院生5名と,他専攻の学部生11名が実験に参加した.実験では,世界史のレポートを作成するための情報を収集するInfomationalな課題と,国内旅行の計画を立てるTransactionalな課題を設定した.被験者は2つの課題に15分間ずつ取り組んだ.課題遂行中の被験者の発話や画面,ブラウザログ,視線の動きを記録した.行動データと眼球運動データを分析した結果,課題や経験の違いによって,ページの閲覧数や閲覧時間,行動数,注視する情報の種類やランキングの見方が異なることが明らかになった. Keywords: Webの情報探索行動, exploratory search,課題の志向性, 経験, 眼球運動,ユーザ実験 質疑応答議事録 会場より,被験者群の区分が専門知識の有無によるものかWeb探索の経験年数によるものかについて質問があり,今回の実験では院生・学部生の区別のみがなされているとの回答があった.次に,2種類のタスクの違いが明確ではないとの指摘があり,実験結果からタスクの種類が異なることが明らかであるという回答があったが,質問者からはタスクがどのように異なっているのかについての検討・考察が必要であるとのコメントがあった.また,被験者にタスクの内容自体を決めてもらうという実験設定を行った理由についての質問があった.これに対しては画一的なタスクを与えると被験者の事前知識や興味のあり・なしによって結果にばらつきが出ることを避けるためであるとの回答があった.
概要 近年,携帯端末技術や通信技術の進歩により,いつでもどこでもWeb上の情報にアクセスすることが可能であるユビキタス環境が現実となりつつある.そのような環境では,実空間を移動しているユーザに対する情報獲得支援が重要な研究課題となる.そこで我々は,実空間を散策しているユーがその場で興味を持った地理施設についての情報を,ユーザの利用目的を用いてフィルタリングを行い,携帯端末で閲覧するためのシステムの開発を試みる.そこで,常識データベースから地理施設に応じた利用目的の抽出,地理施設に関するユーザの利用目的の獲得,ユーザの利用目的に関連のある文章の獲得,表示が可能なシステムを実現する. Keywords: 目的指向な情報フィルタリング,常識データベース,モバイルコンピューティング,GIS
概要 Amazon.comをはじめとするインターネットサービスにおいて,ロングテールが成立す ることが広く知られている.しかしながら,モバイルビジネスにおいてはロングテー ルが成立しない可能性が高い.なぜなら,ロングテール成立には顧客が積極的に商品 を検索することが求められるが,モバイルにおいては日常の隙間時間に顧客が接触す るため,商品を検索するための十分な時間が確保できない.従って,最初に目に付い た商品を購入する可能性が高い.本研究では,モバイル向け電子コミック配信サービ スを対象に3種類(商品の売れ方に対するABC分析,ケータイコミックの利用シーンに 関する調査,推薦順位が購買行動に与える影響の調査)の調査を行い,このようなモ バイルの特性がロングテール不成立の要因となっている可能性を示した Keywords: ロングテール,モバイル,電子コミック,ユーザ行動分析 質疑応答議事録 会場より、電子コミック配信サービスで取り扱う作品の総数がロングテール現象の有 無に影響するのではないかという質問があり、この点については継続的な分析が必要 であるとの回答があった。また、各商品の価格の分布による影響についても指摘が あった。研究目的に関して、デジタル化されたメディアのロングテール現象を確認す ることの意義について質問があり、顧客満足度を計測する手段の一つであるとの回答 があった。また、コンテンツ推薦について、カバー率を上げることが目的なのか少数 の商品を集中的に推薦することが目的なのかについては、顧客の要求に応じたバラン スのよい推薦が重要であるとの回答があった。最後に、商品特性に応じた分析が必要 ではないかとの指摘があった。
概要 本稿では,あるトピックにおいてブロガに注目されているWebサイトやブログなどの複数の情報源からのブログ空間内の情報伝播経路を抽出する手法で得られたネットワーク構造について,現実のいくつかの事例を取り上げて分析する.まず,得られた情報伝播ネットワークの成長を可視化し,実際に発生した出来事と照らし合わせてネットワーク構造の違いを調べる.次に,情報源の種類ごとの被リンク数の時系列的変化を調べる.最後に,本手法が既存の手法では得られなかったような, ブログ空間の状況の把握に有用な特徴を示す. Keywords: Blog,情報伝播,ハイパーリンク
概要 JSONは,JavaScriptの文法を基としたデータ記述言語であり,Webブラウザ上でXMLの代替としてよく使われている.しかし,大規模なJSONデータを読み込もうとするとデータの読み込み・解析に時間がかかってしまうという問題点がある.我々の研究グループはその問題点に対してJSONファイルを事前に分割し,参照するという方法を提案した.本研究では,それを発展させ,分割ファイルの冗長さを減らす方法とイテレータによって分割ファイルへのアクセス回数を減らす方法を提案する.提案手法によって従来よりも高速に分割ファイルにアクセスできることを,実験で示す. Keywords: JavaScript,JSON,半構造データ
概要 Web上には大量の半構造化文書が存在するが,それらに書かれた情報はデータベースのように整形されていない.そこで,属性と属性値の形でそれらの情報を抽出する研究(情報抽出)が盛んに行われてきた.具体的な課題としてはスキーマ(属性名の組)の抽出と属性名に対応する属性値の抽出の2つがある.それらのうち.属性値を抽出する手法として教師信号を必要としないブートストラッピングアルゴリズムが注目を浴びている.本研究では,ブートストラッピングアルゴリズムにより属性名を獲得し,スキーマ抽出を行うことを目指す. Keywords: 情報抽出,スキーマ,ブートストラッピング,半構造データ 質疑応答議事録 「本研究の目的と入力と出力は?」という質問に対して,「情報統合である.Web上での情報は,色々な人が書いているので,一般的でないものもある.そういうもの(普通には思いつかないような属性名)も網羅的に獲得したい.入力は,任意の有効なWebページ.出力は,データベーススキーマ.実際には,属性名の組み合わせのみをスキーマとして獲得する.」との回答があった.これに対して「過去にスキーマ抽出を試みたときに,正規表現や繰り返しが出ると難しかったので,その問題を解決できる方法に向けて頑張って欲しい.」とのコメントがあった.また,「属性名と属性値の多様性,多義性について,オントロジーを用いるのはどうか?」との質問に対して,「語の多義性はオントロジーなどを用いて解決できるかもしれないが,現在はそこまでやっていない.単に属性名を抽出して羅列するのが当面の課題.将来的にはやりたいと思っている.」との回答があった.次に,「Web上のあらゆる情報から属性名のセットを得たいのか? それとも,分野ごとに限定して得たいのか?」との質問に対して,「実際には,分野を限定して得ることになる.ブートストラップでは分野を限定して教師しないといけないので.ただし,手法としてはどんな分野にも適用できる.」との回答があった.さらに,「任意の繰り返しパターンと,テーブルのような形式の繰り返しと,どのような割合か? どちらを抽出したいのか?」との質問に対して,「本研究では,任意の形式から抽出するのが目的である.ただし,確かにテーブルのような構造に着目すると効率化はできそうである.」との回答があった.最後に,「キー抽出をしているが,貯まったキー情報の使い方などは? 何に使うか,アイデアがあるのか?」との質問に対して,「それについては色々な研究があるが,本研究では現在,直接テーマとしてはいない.」との回答があった.
概要 近年web上の情報量が爆発的に増大しているのに対し,大量の情報から必要な情報を探し出す情報技術に大きな変化や進展はない.本書では,インターネットの検索結果を,年表上に俯瞰させることの価値と,実現に向けての課題,およびその解決アプローチについて述べる. Keywords: 検索エンジン,情報編纂,情報俯瞰
概要 文書群を整理するために縦軸と横軸の2つの分類軸をもつ表形式で分類する方式を提案す る.分類軸は文書とあらかじめ対応付いた概念構造内の語彙から選択する.概念構造は語彙の上下関係などを示した階層構造である.分類軸を選択する際,概念階層での語彙の 係や詳細さと文書分布を基準に選択を行なう.これにより,文書群の概要を把握できる分類軸を選択する.特許分類階層を概念構造として特許文献の分類実験を行い,特許技術者が作成した特許マップとの比較により評価を行なう Keywords: 文書分類, オントロジ 質疑応答議事録 概念の分類項目において極端に階層が深いものがあるとき,具体性の指標が高くなり過ぎるのでは?との質問に対し,具体性を高くなりすぎると網羅性が下がるため,バランスの取れた分類項目が選択されると考えている.現在,4つの指標の線形和で評価しているが,今後,線形和の重みを調整することで対応したいと考えているとの回答であった. ユーザの概念構造と特許庁が作成した分類項目は異なるのでは?との質問に対し,本研究では,ユーザの概念構造ではなく,一般的な概念構造の利用を考えている.今後,自動的に分類した後でユーザがインタラクションしながら構造を変更できるようにしたいと考えているとの回答であった.
概要 本稿では,MathMLで書かれた数式を対象とした,数式の内容に基づく類似検索方式を提案する.我々は,数式を木構造で表現したとき,その木構造の浅い階層にある要素ほど,数式の特徴を表す指標として重要であると考えた.そこでまず,MathMLで書かれた数式から,数式の内容に基づく木構造を構築する.そして各ノードに木構造の深度に応じた重みを与え,それに基づく類似度計量を行う.また,数式を木構造として記述する際に,数式が表す内容を適切に反映するための考察を行う.これらにより,数式が示す内容に基づく類似検索方式を実現する. Keywords: 数式検索,MathML,木構造 質疑応答議事録 コンテントレベルのMathMLデータがあるのか?との質問に対し,現在,それほどWeb上にデータはないが,将来的に役立つと考えている.現在,Mathematicaを開発しているWolframがデータを公開しているとの回答であった.演算子の重要度の順番をどのように決めたのか?との質問に対し,関係演算子はMathMLにおいて最初に分割するため上位にしているとの回答であった.演算子の順位付けが類似度計算にどの程度影響しているか?との質問に対し,MathMLの木構造を一意に書けるようにすると演算子の順位付けの影響が低減するのではないかと考えているとの回答であった.応用分野は?との質問に対し,キーワードとの複合検索の精度向上に応用できると考えているとの回答であった.
概要 現在,様々なWBTシステムが開発・運用されているが,コンテンツの作成の費用やコストが大きいという問題がある.我々はWeb上に存在する様々な用語解説サイトに着目し,Web上の知識情報を抽出し,ネットワーク用語についての日本語によるWBTの問題を自動作成する試みを行った.我々の提案するシステムは,1)検索エンジンを用いてWeb上からある用語について記載されているWebページのデータを取得,2)そのデータへテンプレートを適応して用語の説明文とキーワードを抽出する,3)抽出されたキーワードから 適切なものを選択する,4)選択されたキーワードから作問を行う,というもの である. Keywords: :e-Learning,WBT,係り受け解析,自動生成 質疑応答議事録 IT用語をまとめている辞書サイトを使用しせず,Yahoo検索を用いた理由は?との質問に対し,辞書サイトに記載されていない情報もあるため,広く一般から検索することにしたとの回答であった.IT用語を出題する順番は考慮していないのか?との質問に対し,用語を抽出することに注力している.今後,出題の順番も考慮したいとの回答であった.
概要 BlogやSNSなどのCGM(Consumer Generated Media) と呼ばれる新たなメディアの普及により,誰でも手軽に自らの日常や意見を発信することが一般的になった.CGMで発信される消費者の貴重な生の声を分析・可視化し企業のマーケティング活動やコンテンツ活性化に役立つ形にして提供するための手法も多く提案されている.我々は,このようなCGMを分析する新たな手法として記事に書かれている行動を表す語に着目し,周辺情報の 5W1Hと共に抽出する手法を提案する.また実際のBlog記事約10,000件を使って5W1Hの一部を抽出可能かどうか検証し,特定のパターンについては抽出可能であることを実証した.さらに抽出できないパターンの原因を特定し,今後の検討策を検討した. Keywords: CGM,5W1H,行動分析,情報抽出,マーケティング支援
概要 本研究では,大学がインターネットで提供している授業シラバスを自動的に分類する方法を開発した.そのために作成した専門用語辞書に対して,手動による精査を加えることで講義シラバスの分類精度が改善されるかどうかについて評価した.その結果,分類精度を4.1%向上することができた. Keywords: LOM,メタデータ,講義シラバス,文書分類 質疑応答議事録 聴講者から精査はどのようにされたのか?という質問があり,発表者から精査は私一人で行いましたとの回答がなされた.他の聴講者から解釈の揺れはあったのか?という質問があり,発表者からは解釈の揺れはあり,あきらかに違うものは削除し,判断に迷ったら残したという回答があった.また,同じ聴講者からプラスやマイナスに寄与した単語の解析はしたのか?という質問もあり,発表者から今回の実験結果の解析はしていないが,予備実験では「授業で一般的」「研究で一般的」などがプラスに寄与した部分が大きかったという印象があったという回答がなされた.他の聴講者から推測だが電気電子で悪くなったのは電子回路や電気数学が要因で,情報で悪くなった理由も情報理論や情報数学などの単語が寄与していると感じたというコメントがあり,発表者からは電気電子について原因を良く調べた結果,「交流」という語が「地域交流」など他の分野で全く意味が変わってしまい誤判定が多かったという回答がなされた.
概要 我々は,Web上で配信されるニュース記事からの情報抽出について研究している.記事本文に出現する地名は,"事故の発生場所"や"容疑者の住所"といった情報を持っており,視覚化の際にはこれらの情報も提供することが望ましい.本研究では,記事本文から地名を抽出し,地名の持つ情報を,(1)発生場所,(2)被害所在地,(3)加害所在地,(4)中立所在地,(5)その他,という5つの地名参照情報(RI)として定義し,各地名が持つRIの自動抽出を試みた.具体的には,予め人手によりRIを付与した訓練データを用いて,各RIにおける手がかり語を収集し,独自のスコア付けによって,処理対象地名のRIを抽出した.実験結果から,RIの抽出において有効な手がかり語の素性が得られ,RIの抽出が可能であることが確かめられた. Keywords: Webニュース,情報抽出,地名参照情報,手がかり語 質疑応答議事録 聴講者からこの結果を積重ねていくとハザードマップができるのではないかと感じた.その場合,場所だけではなく,事件または事故等の情報や,凶悪性などのデータが必要でなので,それらのデータを纏めて抽出することが必要だと思うというコメントがあり,発表者からデータを人手で付与することで辞書を構築することができるので,そのような応用も可能であると思うとの回答がなされた.他の聴講者から例えば,インターネットや住所不定など,地図でマッピングできない場所を扱う予定はあるか?という質問があり,発表者からは本システムでは住所特定プログラムを使っているので現在はできないが今後の検討としたいという回答があった.また,他の聴講者からどういう風に使うのか?応用例はあるのか?という質問があり,発表者から現在すでにハザードマップという応用例があるが,その例は事件の発生場所だけである.このシステムでは発生場所や加害者,被害者などの位置情報がわかるので,より有用なハザードマップになると思うという回答がなされた.他の聴講者から分類方法は確率を使っているが,機械学習など他の分類法などは試したのか?という質問があり,発表者から今後は色々やっていきたい.前の実験の人手の手法より悪いので,今後は精度を上げていきたいという回答がなされた.
概要 国会会議録は,Web上で一般に公開されており,会議の全発言内容を閲覧することができる.しかし,ユーザが自分の知りたい内容についてどのような議論がなされているかを閲覧するためには,膨大なテキストの中から該当する議論箇所を探さなければならず,大きな負担となる.そこで本研究では,ユーザが知りたい内容(クエリ)に関連する議論がなされている領域を抽出することを目的とする.会議録を文間類似度をもとに緩やかにまとめ(セグメント化),セグメント間の関連性を考慮に入れたクエリと各セグメント間の関連度スコアを算出することによって,ユーザが求める内容と関連性の高い議論のなされている箇所を提示する手法を考案した. Keywords: 国会会議録,文間類似度,セグメント,関連度 質疑応答議事録 聴講者から例えば討論がシドロモドロな大臣の場合はピークが立たないなど,特定の政治家で抽出が困難な人などいないか?という質問があり,発表者から年金が問題になったときの会議などの例では,野党の議員が白熱してしまって同じ事を何回も繰り返してたり,「ちゃんと言ってくださいよ」を連呼したりして,感情的になってしまい文章がメチャクチャになり,全く抽出できない例があったとの回答がなされた.他の聴講者からこれを他の分野のドキュメントに適応する予定はあるのか?また,計算時間はどれくらいかかるのか?という質問があり,発表者からはこのシステムでは国会会議録特有な技術を用いていないので他の分野でも適応できると思う.今後は他の長い文章でも試してみたい.計算時間は入力が10万文字程度の会議録で前処理は10-20分程度,クエリを投げてからグラフを生成するまでは一瞬であるという回答があった.また,他の聴講者から評価が難しいと思うがどうする予定か?という質問があり,発表者から評価実験は現在進めている.システムが生成したグラフをユーザに見せて,クエリに合っている回答領域であるか判断してもらう方法で行っているという回答がなされた.他の聴講者から既存の研究との違いのポイントは?という質問があり,発表者から既存のものは会話には対応していない点が新しいと思う.会話は主語の省略や指示語が多いので既存の手法が適応しづらいという回答がなされた.
概要 モバイル端末においてデスクトップPC向けにデザインされたWebページを利用する要求が高まっているが,画面サイズに制約があるモバイル端末で効率的にページを利用することは依然として困難である.多くのWebページは1つのメイントピックと多数の付属情報によって構成されている.利用者の主目的はメイントピック部分の閲覧であるが,付属情報部分に含まれる情報や機能が有用であることも多い.既存のモバイル端末向けページ変換手法では,付属情報部分を効率的に利用することが考慮されていない.本稿では,ページ分割によって得られた付属情報ブロックをその役割に応じて分類するモデルを用いることで,付属情報の利用を損なわずかつ画面の小さい端末に適したWebページ変換手法を提案する. Keywords: Webページ部品分類,Webページ分割,モバイルWebブラウジング 質疑応答議事録 聴講者から今回提案されている「付加情報のプラス」ということについてもう少し説明してくださいという指示があり,発表者からプラスは普段からサイトを読んでいる経験則やサイト製作者向けの書籍など,ガイドライン的なものを参考に定義を行ったとの説明がなされた.同じ聴講者からクラスを分けるときに曖昧性や困った事例などはないのか?という質問があり,発表者からは曖昧性はあると思う.現在は例えば被験者の半分以上が同じものをつけたものに対してのみ評価するなど考えているという回答があった.続けて,関連トピックか非関連トピックかを分けるのは難しいのでは?という質問があり,発表者からメイントピックとのデザイン上の位置関係などを使って分けられると思うとの回答がなされた.他の聴講者から目的は何か?これはモバイル端末でPC用のWebページを使うことが目的なのか,それともモバイル端末で見るために情報を極端に減らすことを目的にしているのかをお聞きしたいという質問があり,発表者からモバイル端末でPC用のWebページを見るには問題が多いと認識しているという回答がなされた.同じ聴講者から今の潮流はPCと同じブラウザをモバイルにも載せてCUIでカバーするという方向に完全に行っていまっている.日本の携帯では遅れをとっているがiPhoneなど先進的なモバイル端末がある.また,Webページをパーツ毎に表示させるブラウザは昔あったが非常に使いにくかったというコメントがなされた.
概要 近年,地球温暖化や異常気象などの問題が顕在化し,地球科学関連研究の重要性が一層増してきている.今後,地球環境への理解をさらに深め,地球環境問題の解決や災害対策につなげるには,気候や水循環,農業などの多様な分野で観測が行われているデータを共有し,分野を跨いだデータの統合解析を行うための基盤が必要である.しかし,地球科学データの多くは機関やプロジェクトによってアドホックな形態で保存されている場合が多く,研究者が専門外のデータを検索,利用するためには個々のデータに対する十分な理解が必要となる.そのため,各種データの利用方法などが把握できるよう,メタデータを充実させる必要がある.本研究では我々が開発している地球観測データ統融合システムにおいて登録されているデータとメタデータを関連付けるアノテーションシステムについて議論する. Keywords: メタデータ,アノテーション,データ系譜,科学DB 質疑応答議事録 スキーマ抽出にNASAのオントロジを使用しているということは,日本人が書いた英語に使えないのではないかという質問があったが,現在は人手で全て抽出しているので問題 ないが,今後データ量が増えたときに発生する可能性はあるという回答があった.また,利用してもらわないとメタデータが増えないというが,ユーザは利用の仕方がわからないという意見もあると思う.災害予測に役立てたい,海水温の変化が知りたいなど,科学者側からの利用提案を取り入れてからメタデータの設計をすることは考えているのかという質問に対しては,とりあえずこのシステムでできることを示してから科学者達に聞くのが良いと考えているという回答があった.アノテーションの作者情報が重要になってくる時があるが,ユーザ登録制にすると,所属などを記載されているために書くのを躊躇してしまう場合があるのではないかという質問には,メタデータ毎に柔軟なアクセス制限があれば良いのではないかという回答があった.会場より,アノテーションの品質に対する評価はどう考えているのかという質問があったが,現時点ではまだ考えていないという回答があった.また,一般の方がアノテーションできるのかという質問に対しては,当初は研究者のみが対象だが,将来的には一般の方も利用できるようにしていきたいという回答があった.その他には,アノテーションは自然語による記述のみかという質問があり,現在は自然言語のみだが,今後はマークアップやタグなどの仕組みは必要であるとの回答があった.
概要 気候変動や温暖化現象が我々の生活に様々な影響を与えるようになってきた.特に豪雨,洪水や干ばつ,森林火災などが頻発するようになり災害防止のためには地球観測データを国境を越えて共有し,活用する必要性がますます高まっている.リモートセンシング技術によって全世界的に観測されている衛星観測データに比べ,地上観測データは古くから観測されているにもかかわらず,各観測機関あるいは各国の観測網において主に利用されているのが現状である.アジアモンスーン地域を対象とした水循環機構の解明と防災,対象地域の水環境に関する情報の共有をめざし2005年にアジア水循環機構(Asian Water Cycle Initiative :AWCI)が創設された.現在我々はAWCI参加国が保有する地上観測データの統融合利用の基盤整備を行っているところである.我々は各国が保有する地上観測デー タを我々が保有する地球観測データ統融合コアシステムに投入し,参加各国が相互に利用できる体制を構築する一環としてデータの送付,データ品質管理,メタデータの登録を行う一連のシステムを構築しているところである.本稿では,我々が構築した地上観測データに関するメタデータ登録システムについて紹介する.地上観測データに関するメタデータは,地理空間情報を対象として標準化されているメタデータISO19115:2003を土台に拡張した独自のメタデータを利用している. Keywords: メタデータ,XML, XForms, ISO19115, E-サイエンス 質疑応答議事録 メタデータを付与する対象は何かという質問があったが,現在は河川観測単位でメタデータを付けており,他データについてはまだ未定という回答があった.また,全属性に対してメタデータを付ける必要はあるのかという質問には,メタデータは使用目的に併せて最低限の情報を付けるべきという回答があった.また,データの入力画面について,うまくデータの可視化をしてまとめてメタデータを入力してもらうのか,それともデータ毎によって質が違うので個別に行っていくのかという質問があった.それに対して,指摘の部分はデータの品質管理画面であり,今回対象の部分ではないが,品質調査の結果部分がメタデータになる.データ入力方法、メタデータの入力方法については個々のデータによって性質は異なるので,ツールは変える必要があるという回答があった.会場より,アジア以外で,世界的に同様の動きはあるのかという質問に対しては,他地域でもプロジェクトが始まろうとしているという回答があった.メタデータは誰でも利用可能なのかという質問については,水情報はプロジェクト参加各国において重要な情報であるため,現状はプロジェクト参加者のみになる.まずはデータを整備することで,提供者と利用者が共に良い関係になることを目指しているという回答があった.河川が氾濫して観測地がずれた場合はどうなるのかという質問に対しては,観測地が移動した場合は別データにするが,河川自体が変化した場合については未考慮という回答があった.会場より,データが多量になった場合どうなるのかという質問と,大きい川と細い川など,地理的な粒度の問題があるのかという質問があった.スケーラビリティについては,ネットワーク帯域だけの問題であり,現在扱っているデータ自体は観測地点データでありたいした量ではないので問題ない.地理的な粒度については,地域によって観測体制の差はあるという回答があった.それに対し,どの粒度に合わせるのかという質問があったが,現在それを補完するためのアプローチを考えているという回答があった.プロジェクトの進行具合によってメタデータのばらつきがでてくると思うが,メタデータの利用者としては同じ品質であって欲しい,何か対処しているのかという質問に対しては,現在はまだ考えていないが,メタデータの品質も今後考える必要があるという回答があった.