it-swarm-tr.com

Botları indekslemek için kullanılan IP adreslerinin bir indeksi var mı?

En az trafik alan bir sayfam var, ancak vurulduğunda statik bildirimler oluşturuyorum. Şimdi, botların göz ardı edilmesini istiyorum, bu yüzden şu an yaptığım şey "bildirimde bulunma" listesine gördüğüm botları eklemek.

Dizin oluşturma robotları tarafından kullanılan IP adreslerinin referans listesi var mı?

örneğin, şöyle bir liste:

$no_mail = array(
    '67.195.115.105', // yahoo bot
    '207.46.199.50', // msn bot
    '61.135.249.246', //youdao bot
    '207.46.199.32', // msn bot
);
7
artlung

http://www.user-agents.org/ aradığınız şey olabilir.

5

Tüm arama motorları çok sayıda IP adresi kullanır. Bunun yerine kullanıcı aracısı dizesine bakmak isteyeceksiniz. Tüm tarayıcıların iyi bir listesi için bu sayfa kontrol edin.

PHP'de böyle bir şey işe yarar:

$bots = array( 'googlebot', 'msnbot', 'Slurp', 'mediapartners-google' );
$isRobot = false;
$ua = strtolower( $_SERVER['HTTP_USER_AGENT'] );

foreach ( $bots as $bot ) {
  if ( strpos( $ua, $bot ) !== false )
    $isRobot = true;
}

if ( !$isRobot ) {
  // do your thing
}
2
DisgruntledGoat

Neden bunu robots.txt dosyanıza eklemiyorsunuz?

User-agent: *
Disallow: /path/page-you-dont-want-crawled.html

Bu şekilde bot aramaya devam etmenize gerek kalmayacak. Google, Yahoo ve MSN’de yüzlerce botun olduğu ve muhtemelen her zaman farklı IP adresleri ve yenilerinin oluşturduğu her şeye bahse girerim. Yukarıdakileri eklemek, tüm sıkıntı olmadan dosya sayfanız için aynı şeyi yapmalıdır.

1
Ben Hoffman

Botları tanımak için http://ekstreme.com/phplabs/search-engine-authentication (ve de Google’daki Yardım Merkezi makalesinde http://www.google. .com/support/webmaster/bin/answer.py? answer = 8055 Googlebot’un doğrulanmasında). Ayrıca http://ekstreme.com/phplabs/crawlercontroller.php adresinde bazı kodlar var. şimdi tanır.

Genel olarak, bazı kullanıcı aracıları normal kullanıcılar tarafından kullanılabildiğinden ve bazı IP adresleri paylaşılabildiğinden, yalnızca kullanıcı aracısı adına veya IP adresine güvenmemek önemlidir.

Ancak, bunu yalnızca e-posta bildirimleri için kullanıyorsanız, kullanıcı aracısındaki bilinen basit kalıpları görmezden gelirim ve yanlış pozitif ve yanlış negatiflerle yaşarım. Günlük dosyalarınızı sitenizde etkin olan en yaygın tarayıcılar için kontrol edin ve kullanıcı aracısı adının benzersiz bir bölümünü kontrol edin (sadece "googlebot | Slurp | msnbot | bingbot" kullanmanız yeterli olabilir).

1
John Mueller

Öyle ya da böyle, botları filtrelemek konusunda ciddiysen, bazı yerel listeleri de uygulaman gerekecek. Bazen rastgele görünen IP'ler yönettiğim bir web sitesine takıntılı hale gelir. Üniversite projeleri, deneysel gibi görünen ancak genel olarak kabul görmeyen, bu tür şeyleri yerine getiren botlar.

Ayrıca: Cuil bot (Twiceler) şeytandır.

1
Thomas

Kullanıcıya erişebilir misin? Bu bana kimin gerçek bir kullanıcı ve bir botun ne olduğunu bulmak için daha iyi bir yol gibi görünüyor - yasal tarayıcıların adresleri değiştirmesi daha esnek, ve bir bot olarak gizleyen bir şey varsa, muhtemelen e-posta almak istemezsiniz. neyse.

0
Cebjyre

Bunu dene...

$UI_Agent = $_SERVER['HTTP_USER_AGENT'];

if(eregi("bot", $UI_Agent)) {
    // do your bot stuff here
}

HTH, Bud

0
Bud