検索エンジンの仕組み

(『Newton2021年8月号』から抜粋)

「検索」は、コンピュータを使う時に必ず使う機能である。

例えばネット・ショッピングをする時には、利用者にはID(識別番号)が割り当てられており、IDとパスワードを入力することで、(検索して)個人情報や購入履歴が表示される。

これは、サービスを提供する企業のデータベースから、入力されたIDを検索している。

検索における基本的なアルゴリズムは、次の2つである。

1つ目は「線型探索」で、ある言葉を国語辞典で1ページ目から探していくような方法である。

2つ目は「二分探索」で、まず辞書の真ん中を開き、探している語がそこよりも前にあるか、後ろにあるかを調べる。
例えば前にあったら、今度はその真ん中を開いて、探す語が前にあるか後ろにあるかを調べる。
そうやって絞り込んでいく。

もちろん二分探索のほうが、線形探索よりも効率が良い。

二分探索は数字情報を検索するのにはとても有効だが、文字情報を検索するには「ハッシュ探索」が優れている。

コンピュータは、文字よりも数字のほうが扱いやすい。
そこで文字情報を「ハッシュ値」という数値に変換し、決まった場所に格納しておく。
この変換を行うのが「ハッシュ関数」である。

文字情報を「書類」、格納場所を「引き出し」、ハッシュ値を「引き出しに書かれた文字」と考えると分かりやすい。

ハッシュ関数をうまく設計すると、検索の効率がとても上がる。

インターネットでキーワード検索をする時、使われるアルゴリズムが「逆引き」である。

各ページにどの単語がどれくらい出てくるかを、あらかじめ調べておき、逆引きのリスト(これを逆引き索引という)を作っておく。

そしてキーワード検索で単語が入力されたら、その単語が高頻度で出るページのリストを表示する。

この時に単語とハッシュ値を紐づけておけば、効率よく逆引きできる。

検索エンジンの代表はグーグルだが、グーグルを有名にしたのが「ページランク」という技術である。

ページランクは、キーワードと関係の深いページたちを、重要度でランク付ける。

インターネットにできたリンクの形状を見ていき、「他のページから沢山のリンクが付けられているページは重要に違いない」と考えて、リンクの多いページを優先して表示する。

グーグルはページランクで特許を取得し、一躍有名になった。

だが現在では、ページランクの技術は使われず、検索結果を表示した後の(そのページを表示した後の)利用者の挙動などを参考にして、ランキングを作っている。

最近では、ネット・ショッピングで「この商品を買った人は、この商品も買っています」と他の商品を勧めてくるが、これは「協調フィルタリング」という技術が使われている。

(2022年8月5日に作成)

(※以下は2022年9月7日に加筆)

ネットで調べものをしていたところ、ドメイン(そのサイト)のパワーを調査できるツールがあると知りました。

要するに、そのサイトが検索でどれだけ強いか(上位に来やすいか)を、確認できるツールです。

「ドメイン・パワー」が高いほど、検索エンジンで上位に表示されるとの事。

グーグル検索の2019年のアップデートでは、ドメイン・パワーが重視されるようになったそうです。

ドメイン・パワーを上げるには、良質のコンテンツを作るだけでなく、被リンクの数を増やしたり、SEO対策が重要とのこと。

サイトのドメイン・パワーを調べるには、まず「SEO Domain Analysis Tool」というのが無料であるのですが、私のサイトのアドレスを打ち込んで調べたところ、検出できないとのエラーになりました。

理由は不明ですが、私のアドレス(ドメイン)の最後が.infoなのが原因っぽいです。.comとかじゃないと厳しいらしいです。

で、もう1つ無料ので、「アクセスSEO対策ツールズ」というサイトがあり、私のサイトのアドレスを打ち込んだところ、きちんと調べてくれて、パワー・ランクは100点満点で26.5点でした。

これが平均より高いのか、それとも低いのかは、分かりません。

今回、初めてパワー・ランク(自分のドメイン・パワー)を確認したので、正直なところ26.5が妥当なのかや、パワーの変動具合や、努力でどれほど上げられるのかが、さっぱり分かりません。

メモ的なものとして、「アクセスSEO対策ツールズ」における、このサイトの細かい評価を書いておきます。
参考になれば幸いです。

「弊社独自配点」は5。
サイトの専門性を高め、ユーザーに評価されるサイトにしましょう、とのアドヴァイスでした。

「ドメインエイジ」は6。

このサイトは10年の歴史がありますが、それに対して、運用歴もあり、キーワード・コンテンツ次第では検索上位に食い込むことも可能との評価でした。

「被リンク元サイトのスパムに対する安全性」は9。

問題ないか、あまり被リンクを受けていないとの評価でした。

(※被リンクとは、外部のサイト(別のサイト)から自分のサイトに向けられたリンクのことです)

「被リンク元サイトのTOP3と上位20の品質」は2。

あまり被リンクを受けていないとの低評価でした。

「被リンク元サイトのリンク品質」は0。

どういうものか、評価なしということに。

「被リンク元サイトのリンクパワー」は5。

被リンクも順調に増えてきました、との割と良い評価。

「被リンクIP数」は3。

徐々にリンクを受け始めています、とのこと。
これは、同一IPアドレスからの被リンクを重複してカウントしないことで、自作自演や談合のリンクを除外した評価の項目です。

上の評価項目を見ると分かりますが、最近の検索エンジンは、被リンクの数や質を大きな評価基準にしています。

だから被リンクを増やすことが、とても重要ですね。

私の場合、このサイトから外部にリンクを貼ることはほぼ無いですし、ようやくサイト内のリンクを充実させている段階です。

人付き合いは良くないので、良質の記事を書いて、それを評価してもらって外部からリンクを貼ってもらうのが、これからも基本となりそうです。


『世界情勢の勉強 コンピュータ関連』 目次に戻る

『世界情勢の勉強』 トップページに戻る

『サイトのトップページ』に行く