風
 
 
 
 
 
 
[知ることの価値と楽しさを求める人のために 連想出版がつくるWEB マガジン
Googleはすべてを集めてはいない! (3)
3
7. グーグルのページランクは操作できてしまう?!
8. グーグル泣かせのブログ・サイト
9. キーワードからキーワードを生み出す「連想検索」
7
グーグルのページランクは操作できてしまう?!
――
グーグルが検索エンジンとして一般に認知されて、みんなが使い始めると、逆に問題も出てきましたよね。例えば、グーグルの検索結果を恣意的に操作したりできないのでしょうか?
高野
 そうですね。ページランクの話にもどりますが、信頼度は、Webページ一つひとつをかなり平等に、1ページ1票みたいな方法で考えています。そこにリンクを張っている元のページの信用度を加味して、リンクが張られている信用度を計算しています。そうすると、次第に信用度が一部のページ群に集中したり、信用されているページ同士が結託すると、信用度を仮想的に上げることも技術的には可能になります。いったん信用されると、それが新たな信用度を生むカラクリですから。
  だから、そうした技術を逆手にとって、ページランクを上げるSEO(検索エンジン最適化)という商売が成立しているんです。Web上の論調のようなものを、ある程度自由に作れてしまう。どれだけリンクが張られているかというのが根拠ですので、内容の良し悪しの客観的な基準というよりは、商業ベースの思惑が反映された人気投票のようになってきているのが実態です。
――
グーグルで検索すると、「スポンサー」という検索結果が、通常のWebページの検索結果とは別に右側に出ますね。キーワードによっては、Webページの検索結果より上に、色で区別されて「スポンサー」サイトが出ます。例えば「中古車」と検索すると、「中古車探しのガリバー」と「オリックス自動車」が、検索結果より上位に水色の帯で区分けされて表示されます。これはどんなカラクリなのでしょうか?
高野
 そもそもグーグルは広告会社です。検索窓という、まさに窓口を用いて、世界中の“欲望”が聞こえてくる訳ですから、広告会社として大成功するのは当たり前です。ユーザーが検索したキーワードを用いて、ターゲットを絞り込んだ広告を出せるメディアとして認識されています。広告はオークション方式です。特定のキーワードが検索されたら、誰の広告をいちばんトップにもってくるか、それをオークションにかける訳です。検索語の組み合わせでも広告を打てるので、2語にすると少しは安く広告を出せるようです。
  しかし、そうした広告的な部分は、通常の検索結果には影響させないようにしています。お金を払っているスポンサー・サイトが、検索結果の上位に来る様になったら、誰もグーグルを引かなくなりますからね。そこは石にかじりついてでも守ると思います。
  ただ逆にいうと、だからこそ通常の検索結果の上位に出れば、そのサイト、ひいてはそのサイトを運営する企業や団体、個人に対する信用があがるのですから、SEOのビジネスチャンスの余地があるわけです。
――
グーグルはそうしたSEOに対して、対応はしていないのですか。
高野
 もちろんしています。ある意味、恣意的にページランクを変えられてしまうわけですから、グーグルとしても一生懸命対応しています。でも、基本的にイタチごっこだと思いますけど(笑)
  グーグルは検索結果の順番をページランクだけでなく、いろいろな情報を使って決定しています。ページランクのアルゴリズムの詳細やその他の情報の使い方は秘中の秘ですので、グーグルは決して公開しません。それを明かせば、必ず裏をかかれますから。SEOとの勝負はずっと続くと思います。
<< PAGE TOP
8
グーグル泣かせのブログ・サイト
――
信頼性が揺らいだら致命的ということですね。しかし、例えばブログなど、現在あまり情報の確度が高くないと思われるものが、検索結果の上位に来ていることもあると思いますが...?
高野
 ブログは、人気があるから上に来るのかというと、決してそうではない。もちろん人気のあるブログもありますが、ブログというシステムがそもそもグーグル泣かせなんです。
  どうしてランクが高くなってしまうのか。ブログは、自分のブログ用に単独でWebサーバを立ち上げているのは稀で、普通は大きく有名なプロバイダやポータルサイトが提供している機能を使って書かれています。ですから、個々のブログページは小さなまとまりでも、そのブログをホストしている大きなサイトの一部として見えることになります。さらに、ブログの特徴として、お互いのブログページがトラックバックやコメントを付けあって、多数のリンクで他のブログと結びついています。システムには、このリンク構造はページ間の相互リンクとして見えます。だから、ブログ同士がリンクされていることが、ニフティとライブドアとか、大きなサイト同士がリンクされているように見えてしまうのです。大きなサイトから、特定のブログページへリンクが何本も張られているのですから、自然とページランクは高くなります。
  ですから、ブログを他のページと同様に扱っちゃだめだということで、ブログ検索を別機能にする検索エンジンも現れ始めました。例えばグーグルの「ブログ検索」はブログのみを検索する機能ですし、gooでは「ブログフィルタ機能」が提供されています。マーケティングで、ユーザーの生の声を聞きたい場合には、ブログだけを引きたいでしょう。逆に、公式的な情報のみを知りたいときは、ブログは除きたいと思う場合もあります。
  つまり、目的に応じて、情報源のどの範囲について検索するかをコントロールしたいという欲求が、今度は生まれてきていると見るべきでしょう。
――
情報の確度という面では、紙媒体とは違うのだということをアタマに入れておく必要がありますね。
高野
 紙媒体の場合は、活字にするまでに相当な努力をする。後で修正できないので、印刷するまでに何回も推敲を重ねます。しかしWeb上のサービスの場合、出すだけなら簡単に出せちゃうし、修正も瞬時です。このようにいつも修正可能で定まっていない電子情報の確かさについては、紙媒体とは別の感覚が必要だと思います。一つの手がかりは、ある種の状況証拠を使うことでしょうか。
  例えば100人くらいのコメントがついているブログで、そのコメントに対して筆者も回答しているのを、最初から最後まで読めばある程度情報の信用度は判断できる。あるいはウィキペディアみたいに、間違いが修正できる形で多くの人が協力して作成したコンテンツは、ある程度信用できると考えられます。
  そのページがいつ書かれたか、何回修正されたかということも重要な情報だと思いますが、きちんと書かれているWebページは案外少ないのが現状です。そういう情報の生い立ちをきちんと表示することは作る側のエチケットだし、インターネットを有効なものにしていこうという姿勢なので、ぜひ守りたいものです。
  このように、現状では、Webの情報について信頼性を確保するのは、紙媒体と比べてひどく難しいと言わざるを得ません。World Wide Webが紙媒体に匹敵する知識流通のためのメディアとして定着するためには、この信頼性の問題を解決することが大きな課題で、現在も多くの研究者が取り組んでいます。
9
キーワードからキーワードを生み出す「連想検索」
――
グーグルが“ものを調べる”ツールとして、たいへん役に立つことはよく分かるのですが、一方で、どんなキーワードで検索すれば、必要な情報が得られるのかが分からない場合があります。それに対しての工夫はないのでしょうか?
高野
 現在、Web検索サービスの主流は、いわゆるキーワード検索です。単語やフレーズを指定すると、それを含んでいるページを探し出してくれます。単語1個ではヒットするページが多すぎるので、何個か単語を指定して、それらをすべて含むページを探すことになりますが、この単語選びが難しいのです。求めているページに書かれていそうな単語を思いつくままに追加していく訳ですが、自分の頭に浮かんでくる単語というのは、どうしても偏ってしまいます。5個くらい単語を選ぶと検索されるページ数が急激に減って、あっというまにゼロ件になってしまうことをよく経験します。きっとどこかのページに求めている情報があるはずなのに、という不満を感じることになります。この問題への対策として、検索語を1個入力すると、その単語と一緒によく検索されている単語やフレーズの候補が示されるという機能も提供され始めています。しかし、あまり一般的でないトピックについて検索する場合には役に立ちません。
  これに対し、ちょっと裏技的ですが、連想検索という新しい検索エンジンを使ったWebcat Plus()というサービスが役に立ちます。これは本来、図書を探したり確認するためのサイトで、文章を丸ごと張り込んで検索すると、内容的に近い本がでてきますが、それに加えて検索結果を要約する言葉(関連ワード)30語が表示されます。この関連ワードがグーグルを引くのにピッタリの言葉なのです。実はこのサービスは私たちの研究成果を使って作ったものですが、検索結果から上位40冊の目次や概要をその場で要約して関連語を抽出しています。集まった本のリストを敏感に反映する言葉がバランス良く選ばれるので、グーグルでWebを検索するのにも適しているのです。

Webcat Plus:国立情報学研究所が運営する図書情報検索サービス。和書300万冊と英語書650万冊の連想検索を提供している。
――
グーグルを検索するための言葉の拡げ方は良く分かりました。そうやってWebから得られた様々な情報の信頼性を確認するのに役立つツールがあれば教えてください。
高野
 これも私たちが構築して公開しているものですが、「想-IMAGINE Book Search()」というサービスがあります。Webページを直接検索することはできませんが、上記のWebcat Plus(和書300万冊)、Wikipedia(23万項目)、新書マップ(1000テーマ)、神保町の古書データベース(30万冊)など、情報の信頼性が保証された各種データベースを検索できます。Webcat Plusと同じく、文章を丸ごと張り込んで連想検索することにより、多様な情報源から関連情報を一気に収集できます。Webで得た情報に関連する本や情報を発見して裏づけを取るのに役立ちます。また、検索結果を要約して抽出された単語のリストを使って、グーグルやgooを使ってWebを検索することもできます。

想-IMAGINE Book Search:複数データベースを連想検索できるサービス。国立情報学研究所と連想出版が運営。
3
<< PAGE TOP
Copyright(C) Association Press. All Rights Reserved.
著作権及びリンクについて