Integrated Search Engine of Web Content and TV Programs

A search engine that can handle TV programs and Web content in an integrated way is proposed. Conventional search engines have been able to handle Web content and/or data stored in a PC desktop as targeted information. However, in the future, the targeted information is expected to be stored in various places such as in hard-disk (HD)/DVD recorders, digital cameras, mobile devices, and even in real space in the future, and a search engine that can search across such heterogeneous resources will become essential. As a first step towards developing such next-generation search engine, a prototype search system is proposed in this paper that can handle Web content as an information source with hyperlinks and TV programs as another without them, that performs integrated search of those content, and that can sequentially search for content related to each ranking result, if required. The integrated search is achieved by generating integrated indices based on keywords obtained from TV programs and Web content and by ranking them, and the chain search for related content is done by calculating similarities and ranking between the contents described by the integrated indices. Also, the zoom-based display of the results enables to acquire information efficiently. In this paper, testing of a prototype of the integrated search engine validated the approach taken by the proposed method. Keyword Search engine, information retrieval, information integration, Web content, TV programs, integrated search, chain search 1. はじめに 近年のウェブ関連技術の発展に伴い,さまざまなウ ェブ検索が実現されている.最近では,ウェブ上の静 止画といった特定のメディアや,ブログなどの速報性 の高いウェブコンテンツに限定した検索も普及しつつ ある [1][4].従来,サーチエンジンといえばこれら膨 大なウェブコンテンツを検索対象としてきた. また,コンピュータ内に保存されたさまざまな種類 のファイルを全文検索するデスクトップ検索が実現さ れている [5] [6].電子メールやその添付ファイル,さ まざまな形式の文書ファイル,チャットなど,ファイ ル名だけでなくその中身を考慮した検索が可能であり, サーチエンジンの検索対象は,ウェブだけでなく個々 のコンピュータのデータへ徐々に拡大しつつある. 一方,近年のさまざまな家電製品の性能向上に伴い, 一般利用者が記録・利用できるコンテンツは身の回り のさまざまな場所で格納できるようになってきている. 例えば,現在,1TB の容量をもつハードディスク (HD) レコーダが登場し,画質モードによっては 1700 時間 以上の録画が可能である.また, 1300 万画素を超え る画素数での撮影や 2GB 以上のメモリを使った写真 記録が可能なデジタルカメラや,60GB の容量をもち 音楽・写真・動画といったさまざまな種類のコンテン ツ再生が可能な携帯プレイヤが次々と実用化されつつ ある.将来的には,バスの時刻表や駅の広告など身の 回りの実空間に各種コンテンツが埋め込まれることも 期待されており(ユビキタスコンテンツ),それらとの インタラクションによって利用されるコンテンツ種別 も必然的に多様化していくものと予想される. しかし,格納場所やデータ種別が多様化したとして も,人間が限られた時間で情報取得するには物理的限 界があり,有効に情報取得するには,メディアの種別 や格納場所を越えた横断的な検索を行えるサーチエン ジンが今後不可欠になると考えられる.特に,従来の サーチエンジンはリンク解析や全文検索に基づいてい るため,それらだけに依存しない様々なコンテンツを 場面に応じて統合的にランキングし検索するための手 法が重要となる. 本稿では,そのような次世代サーチエンジンの実現 に向けた第一歩として,ハイパーリンクをもつコンテ ンツであるウェブと,ハイパーリンクをもたないコン テンツであるテレビ番組を対象として,これらを統合 的に検索し,検索結果の各項目の関連コンテンツを必 要に応じて連鎖的に検索できるサーチエンジンを提案 する.統合検索は,テレビ番組とウェブコンテン ツから得られるキーワードに基づく統合インデ ックスを作成しランキングすることで実現され る.また,関連コンテンツの連鎖検索は,統合イ ンデックス内の各コンテンツ間での類似度計算 によるランキングを行なうことで実現される.こ れにより,例えば, • キーワードクエリにマッチしたウェブコンテ ンツと録画番組を同時に検索する, • 今閲覧中のウェブコンテンツの内容に関連し た内容の録画番組を探す, • 今視聴中のテレビ番組に関連した内容のウェ ブコンテンツや別の番組を検索する, といったことが実現できる.本稿では,統合型サーチ エンジンのプロトタイプを実装することで,提案する 方式が有効に機能することを示す. 本稿の構成は以下の通りである.2 章では,統合型 サーチエンジンの概要について述べる.3 章では統合 型サーチエンジンの処理手順と実装について詳しく説 明する.4 章では考察を示し,5 章で関連研究を整理 する.最後に 6 章でまとめを述べる. 2. ウェブコンテンツとテレビ番組の統合型サ ーチエンジンの概要 図 1 に,統合型サーチエンジンの概要を示す. 図1.ウェブコンテンツとテレビ番組の 統合型サーチエンジンの概要 まず,サーバ側では,ウェブページを保持するデー タベース(ウェブページ DB)と録画番組を保持する データベース(録画番組 DB)の各コンテンツに対し, ベクトル空間モデルに基づく統合インデックスが予め 生成され,データベース(統合インデックス DB)に 格納される(統合インデキシング). 次に,クライアント側のユーザによって入力された 検索要求(クエリ)をサーバが受け付けると,統合イ ンデックスが参照されることで,ウェブページと録画 番組を混在させた検索が実行される(統合検索). さらに,必要に応じて,統合検索の結果の各ウェブ ページあるいは各録画番組を新たなクエリとして,そ れぞれに関連するウェブページまたは録画番組を連鎖 的に検索することができる(連鎖検索). 検索結果の表示方法としては,初期検索結果として 統合検索の結果だけをまず一覧表示し,ユーザにより 特定のコンテンツが選択されると,そのコンテンツの 内容とともに,関連したコンテンツ(連鎖検索で得ら れる上位結果のコンテンツ)がズーミング操作を介し て,随時,一覧表示されるようにシステムを構成した. このようにするのは,関連したコンテンツ同士が適宜 まとまった形でユーザに提示されるため,ユーザの興 味に合った内容をより的確に提供できる可能性が高く なり,効率のよい情報取得が実現できると考えられる ためである. 3. ウェブコンテンツとテレビ番組の統合型サ ーチエンジンの処理手順と実装 2 節で述べた統合型サーチエンジンの各処理手順と そのプロトタイプの実装について述べる. 3.1. 統合インデキシング ここでは,ウェブページ DB と録画番組 DB の各コ ンテンツに対し,統合インデックスを生成する.