it-swarm-tr.com

ASP.NET web sitesi içinde arama motoru botları güvenilir bir şekilde nasıl tespit edilir?

Bir asp.net web sitesinde bot tarafından oluşturulan etkinliği (tıklamalar/sayfa ziyaretleri) vb. Tespit etmenin en iyi yolu nedir? Harici web sitelerinde oluşturulan potansiyel müşterileri takip ettiğimiz bir web sitemiz var, potansiyel müşteriyi oluşturan IP’yi izliyoruz, ancak Google ve diğer arama botlarının ürettiği çok sayıda ipucu görüyoruz. Bu etkinliği filtrelemenin en iyi yolu nedir? Her ikisi de çeşitli kaynaklardan veri dökümü olarak kullanılabilen, bilinen IP adreslerini temel alan kullanıcı aracı dizelerini ve filtrelemeyi test ettiğimi duydum, hangisinin kullanılacağından emin değilim.

Teşekkür ederim.

2
user1081

@Kinopiko'nun dediği gibi, Bots, google gibi en iyilerden esastır veya bing açık bir UserAgent bırakır.

Kodunuzun neye benzediğini bilmiyorum bu yüzden size ne yapacağımı söyleyemem, Asp.Net'teki UserAgent'ı bulmak için Request.UserAgent'ı herhangi bir WebForm, CodeBehind veya MVC Controller'da bulabilirsiniz.

2
Sruly

Üzgünüz, asp.net web siteleri hakkında hiçbir fikrim yok, ancak saygın bir arama motoru size bir bot olduğunu ve bunun günlük dosyanızda bulunması gerektiğini söyleyen bir kullanıcı aracı dizesi gönderecek. Başka bir hediye, /robots.txt dosyasını aramalarıdır.

Kontrol cihazım şöyle görünüyor (Perl):

sub is_bot
{
    my ($user_agent) = @_;
    if ($user_agent =~
    /msnbot
        |www\.cuil\.com
    |Yahoo!\s+Slurp
    |Googlebot
    |Speedy\sSpider
    |MLBot
    |princeton crawler
    |accelobot
    |crawler\@dotnetdotcom
    |help\.naver\.com
    |GingerCrawler
    |Sosospider
    |www.exabot.com
    |Baiduspider
    |Ask\sJeeves
    |Java\/
    |telehouse\.ru
    |Tagoobot
    |Baypup
    |SimilarPages
    |Spinn3r
    |VoilaBot
    |Yandex
    |Xenu\sLink\sSleuth
    |www\.searchme\.com
    |MJ12bot
    |kilomonkey\.com
    |Mediapartners-Google
    |Sogou\sweb\sspider
    |YoudaoBot
    |seexie\.com
    |Yahoo.*Slurp
    |YahooCacheSystem
    |crawler\@nutch\.biz
    |psbot
    |ia_archiver-web\.archive\.org
    |sbider
    |xrss\.eu
    |scoutjet
        |www\.puritysearch\.net
        |Bing
        |BaiduImagespider
        |baidu\.jp
        |facebookexternalhit
        |ssllabs\.com
        |Python-urllib
        |drupal\.org
        |HTTrack
        |Willow\s+Internet\s+Crawler\s+by\s+Twotrees
    /x) {
    return 1;
    }
    return;
}

Awstats kaynak koduna bakarsanız, yukarıdakinden daha iyi bir şey bulacaksınız.

0
delete