さよなら、Yeti

 携帯からのアクセスを見るためにいろいろ調整していて、生ログを見ると、YetiなるボットがGooglebotに次ぐアクセスがある。Googleの解析を見ていると判らなかったけれど、調べてみると、韓国の検索エンジン発の悪名高いボットNaverBotの後釜だった。

 Naverの行儀が相当悪いのは知っていて、以前、別のサイトでアクセスがあったのは知っていたけれど、そこそこのクロール頻度だったのと、しばらくしてサービスを止めて日本から撤退したので、アクセスも無くなり、当時は対策をしなかった。

 だけど、トラフィックを一つも生まないのに、Yahooよりもクローラー頻度が高く、Google並みにアクセスされても何の役にも立ってなくて、迷惑。検索エンジンのシェアを考えると、この先アクセスを増やしてくれそうな期待も持てないから、排除決定。

 NaverBotについて(オフィスマキ)Yeti を雪山に帰すを参考しにして、NaberBotがmetaタグやrobots.txtを無視したり、在りもしないファイルにクロールを架けまくったりしていたので、robots.txtではなく、.htaccessで排除する。

# Shut out
SetEnvIfNoCase User-Agent "Yeti" shutout
SetEnvIfNoCase User-Agent "nabot" shutout
SetEnvIfNoCase User-Agent "NaverBot" shutout

SetEnvIf User-Agent ^Yeti shutout

Order allow,deny
Allow from all
Deny from env=shutout
# Shut out

 やっぱり、複数のボット名を使い分けたり、GoogleBotを詐称していた事を思い出し、bot名が変わるたびに確認するのも面倒なので、IPを確認すると、61.247.192.*と202.131.24.*からのクロールが確認できた。NaverBotを遮断を参考にして、202.92.0.*の系統も加えてIPアドレスで一括排除する。

# Shut out
Order allow,deny
Allow from all
Deny from 61.247.192.0/19
Deny from 202.131.24.0/21
Deny from 220.92.0.0/15
# Shut out

 クローラーは歓迎します。でも、行儀が悪いのはお断りですよ。

あわせてこちらの記事もどうぞ

| カテゴリ:Webツールを使う |