対象:Google Blogger ユーザー
Google Search Console のサイトマップに警告が2件記録されていたので、警告の詳細(サイトマップインデックス)を確認したところ、以下のコメントが見つかりました。
コメント内容から robots.txt の記述に問題があることがわかったので、警告が記録されないよう修復した手順をメモに残します。
問題 | URL が robots.txt によってブロックされています。 |
説明 | サイトマップには robots.txt によってブロックされている URL が含まれています。 |
例 | サイトマップ: kzstock.blogspot.com/sitemap.xml?page=1 値: https://kzstock.blogspot.com/2018/09/internet-archive-legal-evidence.html |
問題の原因を特定することはできたが修復方法が・・・?
サイトマップインデックスのコメントから robots.txt の以下の記述がクロールエラーを引き起こしていることがわかりました。
Disallow: /*archive
上記の記述は過去にrobots.txtを更新した時に追記したものだと思われます。
よく覚えてない。
Blogger の robots.txt を修正するために情報収集をする過程で、Bloggerユーザーは漏れなく Disallow: /*archive を設定していることがわかったので、私もそれに倣って意味も調べずに設定したような記憶です。
Disallow: /*archive の意味
クロールエラーを引き起こした Disallow: /*archive の意味を調べました。そして、次のことがわかりました。
朝日新聞やテレビ朝日がやっていたような、検索エンジンから隠れる設定になっていました。
具体的には、当方のBloggerの投稿記事のURLに [archive] という文字が含まれていた場合、検索エンジンがインデックスすることを拒否する設定になっていました。
具体的には以下のURLです。
タイトル:ウェイバックマシン (Wayback Machine/Internet Archive) は証拠能力があると米国司法が判断
https://kzstock.blogspot.com/2018/09/internet-archive-legal-evidence.html
タイトル:ウェイバックマシン (Wayback Machine/Internet Archive) は証拠能力があると米国司法が判断
https://kzstock.blogspot.com/2018/09/internet-archive-legal-evidence.html
Disallow: /*archive を修正する方法
Blogger > 設定 > 検索設定 > 独自の robots.txt > 編集
警告が記録されないように、そして、投稿した記事がGoogleにインデックスされるように、"Disallow: /*archive" の記述を見直しました。
ここで躓きました。
Google Search Console から修正を試みたのが間違いでした。
Bloggerの robots.txt は管理画面から修正しなければなりません。
[編集] をクリックすると robots.txt が表示されるので、編集がおわったら [変更を保存] を選択します。
修復方法
修復方法は2通り考えられます。- Disallow: /*archive の行をまるごと削除する
- Allow: /*archive に修正する
将来復活させる予定があるので、今回は修正する方法(プランB)を選択しました。
Allow: xxx は記述する必要はありませんが、将来元に戻すときに Disを先頭に付加するだけで済むので、あえて残しています。
あとがき
Google Search Console を利用してサイトマップのクロール状況を確認する方法は次の通りです。Search Console > クロール > サイトマップ
問題が検出されている時のみ [問題の件数:警告数2] などが記録されます。
今回の例では、[警告数:2] のリンクをクリックすると、詳細情報が表示されます。
:SC2
このサイトを検索 | Search this site
0 コメント