インデックスとは?SEOにおける意味とインデックス登録の仕組みを解説
インデックスとは
インデックス(英: Index)とは、検索エンジンがWebページを発見・解析し、自社のデータベースに登録することを指します。インデックス登録、インデキシング、インデックス作成とも呼ばれます。
Googleをはじめとする検索エンジンは、世界中に存在する膨大なWebページを常時収集・整理しており、その管理データベースが「インデックス」です。ユーザーが検索クエリを入力した際、検索エンジンはこのインデックスの中から関連性の高いページを瞬時に取り出してランキング表示します。逆に言えば、インデックスに登録されていないページは、どれだけ良質なコンテンツであっても検索結果に一切表示されません。
SEOにおいてインデックスが重要な理由はシンプルです。検索流入を得るための大前提がインデックス登録だからです。順位を上げる以前の問題として、まずページがインデックスされているかどうかを確認することが、SEO作業の出発点になります。
クローリングとインデックスの関係
インデックスは単独で行われるプロセスではなく、「クロール → レンダリング → インデックス → ランキング」という4段階のフローの一部です。それぞれの役割を理解することで、インデックス問題が発生したときの原因特定が格段にしやすくなります。
クロール(Crawl)
クローラー(Googlebot等のプログラム)がWebページを巡回し、HTMLを取得する段階です。クローラーはリンクをたどってページからページへ移動します。robots.txt(クローラーへのアクセス制御ファイル)でブロックされているURLや、内部リンクが一切ない孤立ページ(オーファンページ)はこの段階で発見されないことがあります。
クロールされた ≠ インデックスされた という点は重要です。Googleは「クロールはしたが、インデックスはしなかった」という判断を日常的に行っています。
レンダリング(Rendering)
取得したHTMLをGoogleが実際にブラウザのように解析する段階です。JavaScriptで描画されるコンテンツはこの段階で処理されますが、Googleのレンダリングには遅延が生じる場合があるため、JavaScript依存のコンテンツはインデックスが遅れるリスクがあります。
インデックス(Index)
解析されたページの内容をGoogleのデータベースに登録する段階です。ページのテキスト・構造・メタデータが解析され、どのようなトピックについて書かれたページかが判断されます。重複コンテンツや低品質と判断されたページはこの段階で登録が拒否されることがあります。
ランキング(Ranking)
インデックスされたページを、検索クエリに対して200以上のアルゴリズム要因に基づいて順位付けする段階です。インデックスはランキングの前提条件であり、インデックスされていない時点でランキング評価の対象外です。
[Webページ公開]
↓
[クロール] Googlebotがページを発見・取得
↓ ← robots.txt / noindex でブロック可能
[レンダリング] HTML+JSを解析
↓
[インデックス] データベースに登録
↓ ← 重複・低品質で拒否されることあり
[ランキング] 検索クエリに対して順位付け
↓
[検索結果表示]
インデックスはランキングより前のフロー。どこで止まっているかを特定するのが診断の第一歩。
インデックスされない主な原因
ページが存在するのにインデックスされない場合、原因は大きく「意図的なブロック」と「非意図的な問題」の2種類に分かれます。
意図的なブロック
noindexタグ(robots metaタグ)
HTMLの<head>内に <meta name="robots" content="noindex"> が設定されているページは、クロールはされてもインデックスされません。テストページや管理画面など意図的にnoindexを設定することは正しい運用ですが、リライト後にnoindexを消し忘れる、CMSのデフォルト設定でnoindexが付いたまま公開するといったケアレスミスが発生しやすいポイントです。
robots.txtによるブロック
robots.txt(サーバーのルートディレクトリに置くクローラーへのアクセス制御ファイル)でDisallowに指定されたパスは、Googlebotがアクセスを控えます。ただしnoindexと違い、robots.txtでのブロックはクロール自体を止めるため、他のサイトからリンクされているURLがインデックスされてしまう場合もあります。
非意図的な問題
重複コンテンツ
同一または類似のコンテンツが複数URLに存在する場合、Googleはどちらをインデックスするか選別します。www有り・なし、http・https、末尾スラッシュの有無など、技術的な理由で重複が発生するケースが多く、Canonical(正規URL指定タグ)の設定が解決策になります。
低品質・薄いコンテンツ
情報量が極端に少ない、他サイトのコピーに近い、ユーザーへの有用性が乏しいと判断されたページはインデックスされないか、インデックスされても検索結果への表示が抑制されます。
GSCのカバレッジ問題ステータス
Google Search Console(Googleが無料提供する検索パフォーマンス計測ツール、以下GSC)はインデックスされていないページを理由別に分類して表示します。代表的なステータスは以下の通りです。
- Discovered - currently not indexed(クロール未実施): Googleがページを発見したが、まだクロールしていない状態。クロールバジェット(Googlebotが1サイトに割り当てるクロール量の上限)の不足や、サイト全体の評価が低い場合に発生しやすい
- Crawled - currently not indexed(クロール済み・未インデックス): クロールはされたが、インデックスする価値がないとGoogleが判断した状態。品質・重複・コンテンツの薄さが原因であることが多い
- Duplicate without canonical(正規ページなし): 重複ページとして扱われているが、Canonical設定がない状態
- Excluded by noindex(noindexによる除外): noindexが設定されているため意図的に除外されている状態
インデックスの確認方法と実務
GSCのインデックス登録レポート
GSCの「インデックス作成 → ページ」レポートは、サイト全体のインデックス状況を確認する最も確実な手段です。
- 登録済みページ数と未登録ページ数が一覧で確認できる
- 未登録ページは前述のステータス別に分類される
- 特定のURLがインデックスされているかどうかも確認可能
URL検査ツール
GSCの「URL検査」機能では、特定URLのインデックス状況をリアルタイムで確認できます。さらに「インデックス登録をリクエスト」ボタンからGoogleにクロールを依頼することも可能です。ただしリクエストはあくまで依頼であり、必ずしも即座にインデックスされる保証はありません。
site
Googleの検索窓で site:example.com/your-page-slug と入力することで、そのURLがインデックスされているかを簡易確認できます。ただし、site(後述の誤解セクションで詳述)。あくまで補助的な確認手段として使うのが適切です。
インデックス促進の実務的な対策
インデックスを促進するための具体策は以下の通りです。
XMLサイトマップの送信
サイト内の全URLをリストアップしたXMLサイトマップをGSCに送信することで、Googlebotが見落としているページを発見しやすくなります。新規コンテンツを公開したあとは、サイトマップを更新して再送信するのが基本です。
内部リンクの整備
他のページからリンクされていない孤立ページはクロールされにくい傾向があります。ピラーページからクラスター記事へのリンク、クラスター記事からピラーページへのリンクを適切に張ることで、Googlebotがサイト全体を効率よく巡回できるようになります。
コンテンツ品質の改善
「Crawled - currently not indexed」のステータスが多い場合は、ページの内容が薄い・重複しているなど品質的な問題が疑われます。リライトで情報量と独自性を高めることが根本的な解決策です。
クロールバジェットの節約
サーバーエラーページ(4xx/5xx)やリダイレクトループが多いと、有益なページへのクロールバジェットが消費されます。定期的にクロールエラーをGSCで確認し、不要なURLへのアクセスを減らすことがインデックス促進につながります。
GSCはインデックスの問題を発見できますが、「どのページが未インデックスで、そのページの想定キーワード順位がどれくらいか」を一画面で把握するには複数のレポートをまたぐ操作が必要になります。
ケンランSEOでは、GSC連携によってカバレッジ問題(discovered_not_indexed等)と順位データを突合し、「未インデックスのページの中でどれが優先度高く対処すべきか」を整理する機能を提供しています。大手SEOツールと同様の機能を、中小企業向け価格帯(月額¥980〜)で利用できる点が特徴です。
関連する重要概念
クローリング(Crawling) Googlebotがリンクをたどってページを巡回・収集するプロセス。インデックスの前段階。クロールされなければインデックスもされない。
クローラビリティ(Crawlability) クローラーがサイト内を効率よく巡回できるかの指標。内部リンク構造・robots.txt・サーバー応答速度などが影響する。
Canonical(正規URL)
重複するコンテンツが複数URLに存在するとき、どのURLを正規版とするかをGoogleに指示するHTMLタグ(<link rel="canonical">)。重複によるインデックスの分散を防ぐ。
クロールバジェット(Crawl Budget) Googlebotが一定期間内に1つのサイトに割り当てるクロールリソースの上限。サイト規模が大きいほど意識が必要で、不要なURLが多いとバジェットが無駄に消費される。
SEO 検索エンジン最適化(Search Engine Optimization)の略。インデックス登録はSEOの大前提であり、技術的SEO(テクニカルSEO)の重要項目のひとつ。
トピッククラスター(Topic Cluster) ピラーページとクラスター記事を内部リンクで体系的につなぐコンテンツ戦略。内部リンクが整備されていると、Googlebotがサイト全体を効率よく巡回し、インデックス促進にもつながる。
インデックスにまつわる誤解
誤解1:インデックスされたら順位が上がる
インデックスはランキングの前提条件ですが、インデックス登録と順位上昇は別の話です。インデックスされてもランキングアルゴリズムによって圏外(51位以下)になるケースは日常的に発生します。インデックスは「検索結果に表示される可能性がある状態になった」というだけで、上位表示にはコンテンツ品質・E-E-A-T(Googleが品質評価に使う経験・専門性・権威性・信頼性の4指標)・被リンクなどが別途必要です。
誤解2:全ページは自動的にインデックスされる
サイトを公開すれば全ページが自動でインデックスされると思っているケースがあります。実際にはGoogleが「インデックスする価値がある」と判断したページのみ登録されます。特に新しいサイトや更新頻度が低いサイトでは、公開から数週間〜数ヶ月インデックスされないページがあります。XMLサイトマップの送信やURL検査ツールでのリクエストが有効です。
誤解3:site
site:example.com で表示されないからといって、インデックスされていないと断定するのは早計です。site
誤解4:noindexを設定すれば即座にインデックスから削除される
既にインデックスされているページにnoindexを設定しても、Googlebotが次回クロールしてnoindexを認識するまで削除されません。削除を急ぐ場合はGSCの「URL削除」ツールで一時的に検索結果から非表示にするリクエストを送る方法があります。ただし「URL削除」はあくまで一時的な非表示措置で、noindexと組み合わせて使うのが正しい手順です。
誤解5:インデックス数が多いほどSEO評価が上がる
インデックスされているページ数が多ければサイト評価が上がるという発想は誤りです。薄いコンテンツや重複ページが大量にインデックスされているサイトは、Googleから低品質サイトと評価されるリスクがあります。インデックスさせるべきページを明確にし、不要なページはnoindexやrobots.txtでコントロールすることが技術的SEOの基本です。