さよなら、Yeti
携帯からのアクセスを見るためにいろいろ調整していて、生ログを見ると、YetiなるボットがGooglebotに次ぐアクセスがある。Googleの解析を見ていると判らなかったけれど、調べてみると、韓国の検索エンジン発の悪名高いボットNaverBotの後釜だった。
Naverの行儀が相当悪いのは知っていて、以前、別のサイトでアクセスがあったのは知っていたけれど、そこそこのクロール頻度だったのと、しばらくしてサービスを止めて日本から撤退したので、アクセスも無くなり、当時は対策をしなかった。
だけど、トラフィックを一つも生まないのに、Yahooよりもクローラー頻度が高く、Google並みにアクセスされても何の役にも立ってなくて、迷惑。検索エンジンのシェアを考えると、この先アクセスを増やしてくれそうな期待も持てないから、排除決定。
NaverBotについて(オフィスマキ)とYeti を雪山に帰すを参考しにして、NaberBotがmetaタグやrobots.txtを無視したり、在りもしないファイルにクロールを架けまくったりしていたので、robots.txtではなく、.htaccessで排除する。
# Shut out SetEnvIfNoCase User-Agent "Yeti" shutout SetEnvIfNoCase User-Agent "nabot" shutout SetEnvIfNoCase User-Agent "NaverBot" shutout SetEnvIf User-Agent ^Yeti shutout Order allow,deny Allow from all Deny from env=shutout # Shut out
やっぱり、複数のボット名を使い分けたり、GoogleBotを詐称していた事を思い出し、bot名が変わるたびに確認するのも面倒なので、IPを確認すると、61.247.192.*と202.131.24.*からのクロールが確認できた。NaverBotを遮断を参考にして、202.92.0.*の系統も加えてIPアドレスで一括排除する。
# Shut out Order allow,deny Allow from all Deny from 61.247.192.0/19 Deny from 202.131.24.0/21 Deny from 220.92.0.0/15 # Shut out
クローラーは歓迎します。でも、行儀が悪いのはお断りですよ。