robots.txtを作成したら、間違って重要なページがブロックされていないかどうか必ずチェックすべきです。

クローラの挙動をチェックするには、文法チェックで問題がないことを確認したら、テストをします。特定のクローラを禁止すべきケースもあります。

想定されるケースとして個人のブログなどです。投稿記事の中でも、プライベートな写真といった画像を画像検索結果に表示されたくないといった場合です。グーグルにも画像検索結果への表示を止めることもできます。

各種SEOツールなどで、クロールして情報を取得するサービスはたくさんあります。クローラの一部には、高い頻度でアクセスするものもあるといいます。

ウエブサイトである程度ページ数があると、悪質なクローラのアクセスでサーバー負荷が高まったりもします。サーバーの処理が追いつかないためにレスポンスが遅くなったりもしますし、サーバーがダウンするというような最悪なことになりかねません。一般のユーザーに迷惑がかかるので、対応しなければなりません。

robot.txtで、アクセス負荷が高く、クロールさせる必要がないとクローラをアクセス禁止をするとよいでしょう。robot.txtは誰でもみることができます。管理者用ページなどセキュリティのあるURLには記述してはいけません。さらに外部から閲覧されたくないというページには、サーバー側でアクセスを制限するべきです。

また、robot.txtは、クローラのアクセス禁止だけではなくて、XMLサイトマップの置き場所を知らせて、クロールを促すということも可能となります。

他社のrobots.txtを実際に閲覧して参考にするのもよいでしょう。

             

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です