クロールの効率性を追求!robots.txt

クロールの効率性を追求!robots.txt

robots.txtのイメージ画像。ロボットが虫眼鏡で芽生えた草を見ている画像
「『いいサイト』ヲ 発見シマシタ・・」

 

検索エンジンのクロールを効率的に行わせるために「robots.txt」を使います。検索エンジン1訪問あたりの訪問ページ数というのは限りがあり、必要のないページまで訪問されると行って欲しいページまで訪問してもらえなくなるからです。「robots.txt」は検索結果に出さないための命令ではありませんのでお間違えないように。

 

robots.txtをきちんと理解するための もくじ

 

 

 

○robots.txtを使う理由
  ・検索エンジンに予算がある?
  ・隠したいページをクロールさせないためには別の方法を使う
  ・どういうページにrobots.txtを使えばいいのか

 

○robots.txtの具体的記載方法
  ・私のサイトで試してみました
  ・アップロードの前にチェックできます
  ・アップロードで完了です

 

 

 

robots.txtを使う理由

 

 

検索エンジンに予算がある?

 

 

 

平成26年3月30日

 

 

 

索エンジンに予算がある?」

 

robots.txtについて調べている
ときに、そんな記事を見つけて
驚きました。

 

 

※参考ページです
robots.txtの書き方と効果的な活用法

 

 

予算のことを「クロールバジェット」
と呼びます。

 

サイトのオーソリティー(権威)に
基づいて、検索エンジンの訪問
頻度や一回あたりの訪問
ページ数が決まっています。

 

 

クロールバジェット=検索エンジン1訪問あたりの訪問ページ数

 

 

サイトオーソリティは、良質な
コンテンツを書き続け、長年
積み上げることでランクアップ
してゆくものですから、すぐに
どうこうできるものではありません。

 

しかし、訪問しないページを
指定するのはすぐにできること
ですので、回って欲しいページ
を効率的に巡回してもらうには
robots.txtの設定が有効なのです。

 

もし、訪問ページ数が決まって
いるのなら、訪問して欲しくない
ページに訪問されたら「もったい
ない」と思いませんか?

 

例えば、私のサイトで言えば
「404エラーページ」などは
インデックスしてもらっても困る
ページです。

 

 

 

隠したいページをクロールさせないためには別の方法を使う

 

 

 

よく「隠したいページ」を隠す
ためにroboys.txtを使えば
いいかな?と勘違いしがち
です。

 

roboys.txtはクローラーを巡回
させない命令ですが、強制力は
ありません。

 

robots.txtでページ指定した
からと言って、必ずしも検索
結果から除外できるわけでは
ないようです。

 

機密事項や慎重に扱うべき
コンテンツには、より安全な
コンテンツの暗号化や.htaccess
を用いてパスワードをかける
などの方法をgoogleは推奨
しています。

 

 

※googleウェブマスターツール ご参照
robots.txt ファイルを使用してページをブロックまたは削除する

 

 

また、隠して人目につかないよう
にするページとしてrobots.txtを
利用するのも危険です。

 

外部からrobots.txtの内容を
見ることができるからです。

 

 

※こんなサイトがあります
大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴
Robots.txtで秘密がバレる!?

 

 

ですからrobots.txtは、あくまでも
検索の効率化を図るツールとして
利用するのが良いのです。

 

 

 

どういうページにrobots.txtを使えばいいのか

 

 

 

ウェブマスター向けガイドライン(品質に関するガイドライン)
robots.txtを使うべき場面を説明したgoogleウェブマスター記事の抜粋

※googleウェブマスターツールより抜粋

 

 

「広告が検索順位に影響を
与えないように適切な対処を
します」と記載があります。

 

これはASP側が講じるべきで
一般の個人ユーザーには関係
のないことだと割り切っても
いいです。

 

つぎに、「自動生成ページ」です
が、自動生成ページに心当たり
がある方はrobots.txtでクロール
しないように設定しましょう。

 

なお、自動生成ページの定義は
こちらに記載があります。興味が
ある方はのぞいてください。

 

自動的に生成されたコンテンツ【googleウェブマスターツール】

 

 

一般の個人ユーザーであれば
心当たりのない項目なのでは
ないでしょうか?

 

したがって、「読者にとって価値が
ないと、あなたが考えるページ」を
設定すればいいということになります。

 

 

 

robots.txtの具体的記載方法

 

 

私のサイトで試してみました

 

 

 

では、具体的記載方法について
ご説明します。

 

メモ帳を開き、「robots.txt」と
名前をつけます。
(他の名前ではいけないので、必ずこの名前にして下さい)

 

 

robots.txtを作る際にメモ帳を利用することの説明

 

 

 

<入力内容>

 

今回私が自分のサイトで登録する
のは、こちらです↓↓

 

 

robots.txtを実際に作成した画像

 

 

 

1行目

User-Agent:*

「User-Agent:」とはクローラーを
指定する命令です。

 

「*」(アスタリスク)はすべての
クローラーをさしています。

 

したがって1行目ではすべてのクローラー
が対象であることを指しています。

 

なお、Googleのクローラである
「googlebot」だけを指定する場合は
*の代わりにgooglebotと記載すれば
いいということです。

 

 

2,3行目

Disallow:/reciprocal-link/
Disallow:/404.html

「Disallow:」とはアクセスを
ブロックするURLを指定する命令です。

 

 

今回は下の4ページをブロックします。
robots.txtにより削除するページ

 

 

相互リンク集の2つのページの
URLは、それぞれ
http://homepagenotukurikata.com/reciprocal-link/entry7.html
http://homepagenotukurikata.com/reciprocal-link/entry14.html
ですが、「entry7.html」「entry14.html」
の上位のフォルダが「reciprocal-link」です。

 

まとめてブロックする際は「/reciprocal-link/」
のみ記載すればいいです。

 

また、/の前には
http://homepagenotukurikata.com
が省略されています。

 

3行目はホームページ直下の
個別ページブロックなので
Disallow:/404.html
となります。

 

「Disallow:」以外にも
「Allow:」(許可する)という
命令もあります。

 

その他、画像をブロックしたり、
特定の種類のファイルをブロックする
やり方がありますが、詳しくは
ウェブマスターツールでご確認ください。
robots.txt ファイルを使用してページをブロックまたは削除する

 

 

4行目

Sitemap:http://homepagenotukurikata.com/sitemaps.xml

サイトマップの.xmlファイルを
登録します。

 

登録することでクローラーの
検索が早くなるらしいです。

 

 

 

アップロードの前にチェックできます

 

 

 

アップロードする前にウェブマスター
ツールに内容が正しいかチェックする
ツールがあります。

 

「クロール」の中にある「ブロック
されたURL」をクリックするとチェック
ツールが表示されます。

 

 

robots.txtが適切かチェックする

 

 

robots.txtに記載した内容を
コピーして「テスト」ボタンを
押します。

 

 

robots.txtが適切かチェックする

 

 

すぐに結果が出ます。

 

「許可済み」ならアップロードします。

 

 

robots.txtが適切かチェックする

 

 

 

アップロードで完了です

 

 

 

設置場所に決まりがあります

 

ホームページ直下に設置します

 

私のサイトなら次のようになります。
http://homepagenotukurikata.com/public_html/robots.txt

 

FTPソフトでアップロードして完了です。

 

 

robots.txtをFTPソフトでアップロード

 

 

 

 

 

 

※もし「よかった」と思う記事がありましたら、あなたが使っておられる
 SNSで当サイトをご紹介ください。どうぞよろしくお願いします。

 

 

よく読まれる関連ページ

 

  ↓↓一番左をクリックしていくと、順にサイトを見ることができます

よくわかる!noindexメタタグの正しい使い方へのリンク画像

よくわかる!noindexメタタグの正しい使い方

サイト公開するなら、最低限canonicalタグを使いこなせ!へのリンク画像

サイト公開するなら、最低限canonicalタグを使いこなせ!

エンタメブログ魂であなたのブログの方向性を修正できるへのリンク画像

エンタメブログ魂であなたのブログの方向性を修正できる

正しいrel=”nofollow”の使用方法へのリンク画像

正しいrel=”nofollow”の使用方法

 


Top相互リンクをいただいているサイトです。

簡単無料ホームページ

簡単に無料でホームページ作成。掲示板、ブログ、アルバム、携帯サイト、メールマガジン、お問合せフォーム、リンク集等の便利機能付き。商用利用もOKです



クロールの効率性を追求!robots.txt関連ページ

絶対に間違いのないSEO最新マニュアル
全13工程でサイト改善!「検索エンジン最適化スターターガイド」
3秒でチェック!!形式的SEO対策をあなたにこっそり教えます
アクセスアップのためにやっちゃった失敗をお教えします
被リンクについて最低限知っておくべき10のポイント
5分でわかる!具体的相互リンクの手順
サイト公開するなら、最低限canonicalタグを使いこなせ!
超簡単!重複コンテンツ整理のための.htaccess設定方法
Googleが伝える、適切な「alt属性の入力」のススメ
あなたは外部Javascriptを利用する目的を知っていますか?
よく考えられた「descriptionメタタグ」は訪問者を誘(いざな)う
301リダイレクトで個別ページのURLを整理できる
みんなに伝えたい!正しいサイトマップの「作り方」「送り方」
クリック率アップ!リッチスニペット導入でライバルサイトに差をつけろ
パンくずリストをリッチスニペットで表現してみた!
お手軽にリッチスニペット!構造化マークアップ支援ツール
進化しているデータハイライターを、あなたにもぜひ体験してほしい
とにかく目立つ!リッチスニペット著者情報の作り方
レシピを出すなら試したい!リッチスニペットを使った目立つ検索表示
rel=”nofollow”使いこなし術を解説!正しい使い方をご存知?
これで安心!URLエラーの大半は簡単に処理できる。修正方法を解説
エラーページを処理する5つの方法
SEOに効果あり!404エラーページのカスタマイズ
よくわかる!noindexメタタグの正しい使い方
たった1分で劇的に改善!ページスピード高速化の方法
3行入力するだけ!誰でもできる圧縮によるサイト高速化
もっと早く導入すればよかった。画像圧縮ソフトによるサイト高速化
正しい対処の仕方をご存知ですか?放置できないソフト404エラー
鳥肌が立つほどカンタン!1クリックで終わる表示速度高速化
「誘導ページ」でペナルティを受けないための5つのチェックポイント
あなたのサイトは「モバイルフレンドリー」ですか?
rel="canonical"をもっともっと知りたい!
ホームページ、ブログの削除のしかた

 
ブログパーツ
トップページ 目次 サイト公開までのプロセス プロフィール お問い合わせ