asahi.com から学ぶ検索エンジンから隠れる方法

このサイトを検索 | Search this site
html

twitterでasahi.comのことが話題になっていました。

asahi.com は朝日新聞デジタル日本語版サイトのことで、トップページのURLは https://www.asahi.com です。

twitter で次のことが指摘されていました。

asahi.com の特定のウェブページが、全ての検索エンジンのクロールとインデックス登録から除外されるように、メタタグに noindex, nofollow, noarchive が記述されている。

特定のウェブページとは、日本語版サイトに掲載された、英文で書かれた慰安婦報道の訂正記事を指しています。

帳面消し的な意味合いの強い「訂正記事」なので、なんとか目立たなくしようと涙ぐましい努力をしています。
  1. 英文記事なのに日本語サイトに掲載している
  2. HTMLのメタタグに細工をして検索エンジンにキャッシュされないようにしている

「すみません。嘘記事を書いていました。」
と知られたくないんですね。


メタタグの構文と意味

メタタグは html 構文のヘッダ部分、
 <head> ~ </head> に記述する決まりになっています。

具体例
<head>
<meta name="robots" content="noindex, nofollow, noarchive"></meta>
</head>

ヘッダに加えた noindex, nofollow, noarchive は、検索エンジンのクローラーに対して次のことを要求します。
  • インデックスの拒否
  • ページ内にある全てのリンクを無効化するようにクローラーへ要求する
  • ページをキャッシュしないようにクローラーへ要求する

Googleクローラーは noindex, nofollow, noarchive に従った動作をするので、限りなく人目に触れる機会をゼロに近づけることができます。

クローラーとは、Googleなどのロボット型検索エンジンがインターネット上のファイルを収集するためのプログラムのことです。

Google社の公式サイトに書かれていたメタタグの説明を引用します。

Google がサポートしているメタタグ|Google
メタタグ説明
robotsすべての検索エンジンに有効
noindexページをインデックスに登録しないようにします
nofollowGooglebot がページのリンクを追跡しないようにします
noarchiveGoogle でページのキャッシュ リンクを表示しないようにします

インチキ発覚後・・・

2018/08/24

asahi.com は twitterで拡散されたことを気にしたのか、「吉田証言」と「挺身隊」に関する訂正記事のソースコードから、noindex, nofollow, noarchive を削除しました。

問題のスクリーンショット

問題のスクリーンショットが残っていたので、貼り付けておきます。

meta name

あとがき

noindex, nofollow, noarchive が付加されていた2つの記事を資料として残しておきます。
※この記事を書いている時点で問題のヘッダは削除されています

日本語訳:「済州島で連行」証言 裏付け得られず虚偽と判断

2014年8月22日10時00分
Testimony about 'forcible taking away of women on Jeju Island': Judged to be fabrication because supporting evidence not found:朝日新聞デジタル

title dpi169

修正された日時 (dateModified)

"dateCreated": "2014-08-22T10:00:00+09:00",
"datePublished": "2014-08-22T10:00:00+09:00",
"dateModified": "2018-08-23T14:48:43+09:00"

datamodified
日本語訳:「挺身隊」との混同 当時は研究が乏しく同一視

2014年8月22日10時00分
Confusion with 'volunteer corps': Insufficient research at that time led to comfort women and volunteer corps seen as the same:朝日新聞デジタル

confusion

修正された日時 (dateModified)

"dateCreated": "2014-08-22T10:00:00+09:00",
"datePublished": "2014-08-22T10:00:00+09:00",
"dateModified": "2018-08-23T14:49:30+09:00"

datemodified

騒動が忘れられる頃に、dateModified が消されて、削除されたメタタグが復活しそうです。


SC2
Windowsランキング 将棋ランキング スマホ・携帯ランキング にほんブログ村 IT技術ブログ ライフハックへ にほんブログ村 その他趣味ブログ 将棋へ

このサイトを検索 | Search this site