簡単に出来るURLの正規化と正しい使い方
URLの正規化とは?
制作したWebページを公開すると、URLからページを開くことが出来ます。
URLはファイル名やファイル構造からある程度自由に決める事ができるので、1ページに1つのURLが理想です。
ですが、実際にはアクセス出来るURLは1つではなく、複数のURLでアクセスすることが出来ます。
ページは1つしかないのに、複数のURLでアクセス可能な状態は好ましくないので、適切に扱うようにしなくてはなりません。
- Googleの検索順位に影響
-
sheep.comヒツジがふわふわな理由5つ
Webサイトを公開すると、検索エンジンと呼ばれるロボットがサイト内の情報を集めて、検索結果として表示できる状態にしてくれます。
検索エンジンは、URLからWebページへ辿り着き、そのページの分析と評価を行います。
そして、検索エンジンはURLごとに評価を行うため、複数のURLから1つのWebページへ辿り着く場合は、評価が分散して適切な評価を受けられない可能性があります。
- ページの評価はURLに付与される
-
検索エンジンはWebサイトすべてのページに対して、コンテンツの品質を分析します。
コンテンツの品質の評価は、各ページのURLに評価を付与します。
そして検索エンジンは、他サイトの評価とも常に比べながら高評価を得たページを検索結果の上位に表示をします。
- 似たようなコンテンツは低評価になる
-
検索エンジンは常に他サイトと比べながら評価をしています。
もし、自分のサイトが他サイトの内容と全く同じであったりよく似ている場合は、類似コンテンツとして低評価になる場合があります。
また、類似コンテンツは自分のサイトのページ間でも判断されるので、複数ページで内容が重複する場合も低評価の対象になることがあります。
- URLの正規化
-
https://sheep.com/
URLの正規化とは、そのURLが正しいURLであるということを示すために行います。
Webサイトを公開すると、任意のURLで各ページにアクセスができるようになります。
ここで重要なのは、1つのページに対してアクセスできるURLは1つではないということです。
検索エンジンからの評価はURLに付与されるため、1つのページ対して複数のURLが存在する状態は好ましくありません。
そのため、ページごとに正しいURLを明確に示すことで、適切に評価を受ける必要があります。
アクセス可能なURL
Webサイトを公開するとURLでアクセスが可能になります。
そして1つのページに対して、数パターンのURLが存在します。
まずは、そのアクセスできるURLのパターンについて解説します。
- http://sheep.com/
- http://www.sheep.com/
- http://sheep.com/index.html
- https://sheep.com/
- https://www.sheep.com/
- https://sheep.com/index.html
Webページにアクセス可能なURLは、ファイル名やファイル構成によって変化します。
それだけでなく、通信方法の種類や省略可能な部分など、1つのページに対して上のような複数のパターンのURLが存在します。
まずはこういったパターンを解説していきます。
- アクセス可能なURLのパターン
-
- 「http」と「https」の違い
- 「www」のあり・なし
- ファイル名が省略可能か
アクセス可能なURLのパターンは、上記の3つの組み合わせの数だけ存在します。
具体的には、1つのページに対して最低でも4つ以上のURLでアクセスが出来る状態になります。
- 「http」と「https」の違い
-
アクセス出来るURL
- http://sheep.com/
- https://sheep.com/
URLの先頭にはHTTP通信の種類を示す「http」と「https」が含まれます。
HTTP通信は「http」と「https」の2種類のみで、URLは上記のように変化します。
- 「www」のあり・なし
-
アクセス出来るURL
- https://sheep.com/
- https://www.sheep.com/
URLの途中に「www」を入れるか入れないかで、URLが上記のように変化します。
この「www」は省略する事ができるので、省略する・省略しないの2パターンが存在します。
- ファイル名が省略可能か
-
アクセス出来るURL
- https://sheep.com/
- https://sheep.com/index.html
URLはファイル名やフォルダ名によっても変化します。
ファイル名やフォルダ名がURLの一部になるので、基本的には省略する事ができません。
ただし、上の例のように「index.html」というファイル名の場合は、ファイル名を省略することが可能です。
ファイル名が「index.html」の場合にのみ、ファイル名を省略する・省略しないの2パターンが存在します。
おそらく「http」「https」「www」とは何か疑問に思った方がいると思います。
これらはWebページへアクセスする際に必要なものですが、それぞれに意味があります。
- http
-
「http」はWebページを見るために必要な通信するための技術です。
ブラウザから「http」から始まるURLでWebページの表示に必要な情報や画像を取得します。
この通信技術は欠点があり、通信中の中身はすべて丸見えの状態になります。
つまり、パスワードなど重要なものは、通信中に中身を見て盗むことが出来ます。
この欠点を解消するために新しく「https」が誕生しました。
- https
-
「http」のセキュリティを強化したものが「https」という通信技術です。
通信内容は見える状態ですが、たとえ見られても人やコンピュータには意味がわからないように暗号化をします。
暗号化した内容は共通の鍵を使うことで、元の状態に戻す復号化をしてWebページを表示します。
現在はこの「https」が推奨されている通信方法です。
- www
-
「www」はWebブラウザの原型となる技術を表しています。
正式名称は「World Wide Web」と呼ばれ、その後「http」「URL」「HTML」が誕生する基盤になったものです。
現在ではすべての技術を総称して「Web」と呼ばれることが多いです。
Webが誕生した名残のようなもので、最近ではURLの中にある「www」は省略される事が多いです。
Webの進化と共にURLの構造も変化してきました。
こういった通信技術の知識もしっかり覚えておきましょう。
続いては、本題のURLの正規化の方法についてです。
URLを正規化する
ここからはHTMLファイルにコードを記述していきます。
URLの正規化の方法はとてもシンプルです。
ただし、使い方には十分に注意が必要です。
<html lang="ja">
<link rel="canonical" href="https://sheep.com/">
...
<body>
- http://sheep.com/
- http://www.sheep.com/
- http://sheep.com/index.html
- https://sheep.com/
- https://www.sheep.com/
- https://sheep.com/index.html
URLを正規化する際は、まず複数あるパターンの中から正しいURLを決める必要があります。
どのパターンを正規のURLにするかは自由ですが、HTTPS通信でURLが短くなるパターンを選択します。
今回は4の「https://sheep.com/」を正しいURLとして設定します。
- URLを正規化する
-
sheep.com/└index.html
└profile.html
└favorite/└index.html
└sports.htmlURLの正規化は、存在するすべてのページに対して設定が必要です。
例えば上記のように、下層ページを含む4つのページがある場合は、それぞれにURLを正規化する設定を記述をします。
今回は上記の4つのページの正規化を例に解説をします。
- index.html
-
sheep.com/└index.html
トップページの「index.html」はファイル名の省略が可能です。
なので、トップページのURLを「https://sheep.com/」に正規化をします。
HTMLファイル「index.html」のheadタグの中に、URLの正規化をする記述を追加します。
<head><link rel="canonical" href="https://sheep.com/"></head> - その他のページ
-
sheep.com/└profile.html
HTMLのファイル名が「profile.html」の場合は省略が出来ません。
なので、この場合は「https://sheep.com/profile.html」でURLの正規化をします。
HTMLファイル「profile.html」のheadタグの中に、URLの正規化をする記述を追加します。
<head><link rel="canonical" href="https://sheep.com/profile.html"></head> - 下層ページのトップ
-
sheep.com/└favorite/└index.html
下層ページの「index.html」はファイル名の省略が可能です。
なので、この場合は「https://sheep.com/favorite/」でURLの正規化をします。
HTMLファイル「index.html」のheadタグの中に、URLの正規化をする記述を追加します。
<head><link rel="canonical" href="https://sheep.com/favorite/"></head> - 下層ページのその他のページ
-
sheep.com/└favorite/└sports.html
下層ページのHTMLのファイル名が「sports.html」の場合は省略が出来ません。
なので、この場合は「https://sheep.com/favorite/sports.html」でURLの正規化をします。
HTMLファイル「index.html」のheadタグの中に、URLの正規化をする記述を追加します。
<head><link rel="canonical" href="https://sheep.com/favorite/sports.html"></head>
これでURLの正規化が完了しました。
正規化するURLは、他のページと同じになることはありません。
他のページと同じURLを設定してしまうと逆効果になってしまいます。
次は、正規化についてもう少し深く触れてみたいと思います。
URLを正規化する理由
URLの正規化が必要な理由について解説します。
正規化をした場合としなかった場合でどう変わるのか解説します。
- http://sheep.com/
- http://www.sheep.com/
- http://sheep.com/index.html
- https://sheep.com/
- https://www.sheep.com/
- https://sheep.com/index.html
Webサイトを公開すると、上記のように複数のURLでページへアクセスが可能になります。
上記の例では、トップページの「index.html」にアクセス可能なすべてのURLパターンを表したものです。
- URLと検索エンジンの仕組み
-
上記の6つのURLは、すべてトップページの「index.html」に辿り着きます。
人の視点では同じページと認識が出来ますが、検索エンジンは上記の6つのURLを違うページとして認識します。
検索エンジンはURLが違えば、別のページと判断するため6つのページが存在するという認識をしてしまうかもしれません。
また、同じ内容のページが複数ある場合は、コピーされたものと判断されると低評価の対象になる可能性があります。
ページの内容が似ているものは低評価になりやすいので、検索順位の降下または除外されることもあるかもしれません。
- URLとページ評価
-
検索エンジンは、有益な情報があるページを探してURLに対して評価ポイントを付与します。
高評価のページは検索結果の上位に表示されやすく、反対に低評価のページは検索結果には表示されにくくなります。
検索エンジンはURLでページを認識するため、上の例のように1つしか存在しないページでも、アクセス可能なURLがある場合は評価が分散する可能性があります。
- URLを正規化していない場合
-
+1点+2点+6点+4点
URLの正規化をしていない場合は、同じページだったとしてもURLが違えば別ページとして認識されます。
仮に4つのURLでアクセスできる場合は、そのページは評価が分散される可能性があります。
上記の例では、合計13点を得られる予定でしたが、分散されてしまったために最大評価が「6点」になってしまいます。
ページの評価方法は非公開のため、正確な評価基準を知ることは出来ません。
- URLを正規化している場合
-
+13点
URLの正規化をしている場合は、複数のURLからアクセスできる場合でも正規のURLで評価を得ることが出来ます。
正規化をしない場合の例では、評価が分散したために最大6点でした。
URLの正規化は、正規のURLを設定することで評価を正規のURLにまとめるという役割があります。
URL正規化の注意点
最後にURLを正規化する際の注意点を解説します。
よくやってしまいがちな間違いを知って、正しくURLの正規化を行いましょう。
- 相対パスでURLを指定する
- 1ページに複数のURLを指定する
- すべて同じURLを指定する
URLを正規化する際に、間違ったやり方で設定をしてしまうことがあります。
間違ったやり方のまま公開してしまうと、十分な効果が期待出来ません。
URLの正規化の設定の際は、下記の3つに注意しながら行いましょう。
- URLの正規化は絶対パスで指定する
-
sheep.com/└favorite/└sports.html
正規化するURLは、必ずhttpsから始まる絶対パスで指定をしましょう。
例えば、上記の「sports.html」の場合では、相対パス「./favorite/sports.html」といったように指定をすることが出来ません。
URLの最初は「https」から始まる絶対パスで指定するように気をつけましょう。
これはダメ<head><link rel="canonical" href="./favorite/sports.html"></head>これはOK<head><link rel="canonical" href="https://sheep.com/favorite/sports.html"></head> - URLの正規化は1つだけ
-
sheep.com/└index.html
URLの正規化は、それぞれのページに1つずつ行います。
その際に、1つのページに複数のURLの正規化を指定することは出来ません。
下記の例では、正規化するURLがどれかわからないので無効になります。
これはダメ<head><link rel="canonical" href="https://sheep.com/"><link rel="canonical" href="https://sheep.com/index.html"></head>これはOK<head><link rel="canonical" href="https://sheep.com/"></head> - 正規化するURLは重複しない
-
sheep.com/└index.html
└profile.html
└favorite/└index.html
└sports.html正規化するURLは、その他のページと重複して指定することは出来ません。
例えば、すべてのページをトップページのURLに正規化するという事は禁止です。
すべてのページを同じURLで正規化すれば、評価が1箇所に集まり検索順位で優位になると考える事ができるかもしれません。
ですが、その場合はすべてのページでURLの正規化が無効になり、最悪の場合低評価の対象になる可能性があるかもしれません。
正規化するURLは、他ページの設定と重複のない固有のURLで指定をしましょう。
以上がURLの正規化についてです。
簡単に設定が出来ますが、しっかりと理解して使う必要があります。
ぜひ正規化に挑戦してみてください。
Webページを公開した時に絶対やってほしいURLの正規化。
もしかすると初めて聞く言葉かも知れません。
とても重要なことなので、ぜひやってみてください。