パスカルの統計方法

パスカルは、Googleで上位表示されているWebサイトをリアルタイムに分析することで、Googleが評価しているWebサイトの傾向を統計的に分析します。

従来の検索アルゴリズム解析

検索アルゴリズム解析のアプローチ方法には、大きく分けて2つあります。

ひとつは、特定の(多くの場合、自分が管理している)Webサイトに、上位表示に効果がありそうな施策を施し、順位が上がる(下がる)かどうかの実験と検証を繰り返す方法です。
具体的には次のようなステップになります。

  1. 自分が管理しているWebサイトに対して、上位表示に効果がありそうな施策を施す。
  2. 施策を施したWebサイトを一定期間観察し、検索順位の動向をチェックする。
  3. 順位推移を見て、順位が上がった場合は効果があり、順位に変化がない場合や下がった場合は効果がないと判断する。

この方法は、自分でいくつかのWebサイトを管理さえできれば誰でも簡単に実験と検証が可能です。
世界中の多くのSEOに携わっている人々がこの方法でSEOの効果を検証し、効果の有無を判断しながら検索アルゴリズムを解明しています。
しかし、実験と検証を繰り返す方法には大きな落とし穴があります。

たとえば、「h1要素にキーワードを入れると順位が上がる」という仮説を検証するとします。
上記のステップで検証するなら、

  1. h1要素に上位表示を狙うキーワードを入れる。
  2. 検索エンジン順位の動向をチェックする。
  3. 順位の推移を見て「h1要素にキーワードを入れると順位が上がる」を判断する。

という工程になります。
仮に、上記の検証中に順位が上がったとします。しかし、同時に次のような疑問点が浮上します。

  • 検証中に検索アルゴリズムに変化があって、新しい要素が効いて順位が変動したのではないか?
  • 検証とは無関係に上位ページの順位変動が起こり、自分の順位が押し上がったために順位が上がったように見えただけではないのか?
  • h1要素にキーワードを入れたこと以外の要因で順位が上がったのではないか?

同じ条件で1000個のWebサイトで実験すれば、信頼性のある検証データが取れるはずですが、〝同じ条件〞のWebサイトは、この世の中にありません。
そのため、この解析アプローチは、不確定要素は残りますが、実験から得られた情報をもとに検索エンジンアルゴリズムを予測しているに過ぎません。

パスカルの統計手法

検索エンジンのアルゴリズムを解析するもうひとつの方法は、すでに上位表示されているWebサイトを収集し、上位表示されているWebページをあらゆる側面から分析して傾向を導き出す「データマイニング」という方法です。

検索順位ですでに上位表示されているWebページを収集し、それらの特徴を項目ごとに横断的に分析することで、ある一定の特徴を見出す「データマイニング」によって検索アルゴリズムを解析するアプローチがパスカルの統計手法です。

パスカルでは次のような手順で検索アルゴリズムを分析・予測しています。

  1. 入力キーワードについてGoogleで検索し、表示された上位50位(プロは30位)までのWebページを収集します。
  2. 収集したWebページのSEO上重要とされている項目(例えば、h1要素に検索キーワードが存在する割合)に対して横断的に統計分析します。
  3. 得られたデータから、検索順位とその項目が相関関係にあるかどうかを検定結果にもとづいて判断します。

たとえば、title要素に検索キーワードを入れたほうがよいかどうかを判断するために、収集した大量のWebページのtitle要素だけを抜き出して、次のような項目に対して計測します。

  • title要素の文字数
  • title要素に含まれるキーワード数
  • title要素に含まれるキーワードの位置

計測したものを統計的に分析して、順位グループ間で偶然性の有無を判断するために検定することで、次のような結論を導き出せます。

  • title要素の文字数は33文字前後が最頻値
  • title要素に含まれるキーワード数は1個が最適値
  • title要素に含まれるキーワードの位置は80%の割合で前方である

データマイニングの手法を使うメリットは、大量の母数をもとにひとつひとつの項目に対して統計的に分析するので、具体的な数値化が可能であること、主観がまったく入らない客観データなので、信頼性が高いことです。
パスカルでは、SEOで重要とされている項目に絞ってリアルタイムに検証します。

スピアマンの順位相関係数

パスカルで用いる統計手法は、順位との相関関係を求める際に広く世界中で使われるスピアマン(Spearman)の順位相関係数を使用しています。

上記で収集したデータをもとに、スピアマンの順位相関係数を用いて検索順位と各要素の検定を行うことで、順位への影響度を測定しています。