it-swarm-tr.com

Robotların site / makale içeriği almasını durdurun

Bu dizin oluşturucularla ilgili bir soru değil, çoğu = [robots.txt dosyasına uyuyor.

Ancak, Facebook veya Skype, kullanıcılar tarafından yayınlanan veya bu platformlar kullanılarak özel anlık mesajla gönderilen URL'leri izleyen herkese açık durumları fark ettiniz. Bu ikisinin tek başına bunu yapmadıklarına inanıyorum (ya da yakında olmayacak).

Sorun şu ki, belirli URL'leri ziyaret etmeleri zorunlu olarak robots.txt 'a uymak zorunda değildir ve gördüklerini metnin' yedeklemesini 'gerçekleştirebilirler. Oldukça standart siteleri (kar amacı gütmeyen kuruluşlar, hobi, blog) yönetmeme rağmen, bu 'nihai pazarlama aracını' sevmiyorum (bu ne olduğunu en iyi varsayımdı). Bu nedenle bu bağlantılardan sonra bu sitelerden gelen böyle bir koklama/tarama kaçınmanın zarif bir yol düşünüyorum. Gibi bir şey

  • bir insan testi geçinceye kadar sayfanın tamamı görüntülenmez (daha sonra bir çerez ayarlanır, böylece buna gerek kalmaz) - OR -

  • siteye erişilebilir (tüm modüllerin bulunduğu sayfa var vb., içinde yayınlanan makale başlıklarında sorun yoktur) ancak ana makale içeriği (com_content) başlangıçta boştur ve Ajax kısa bir süre kullanılarak otomatik olarak değiştirilir

Sitenizin ziyaret ettikleri URL'sinin herhangi bir içeriğini/bazı içeriğini almamaları için bu tarayıcılara karşı önleme uygulama konusunda herhangi bir fikriniz var mı?

5
miroxlav

Kolay bir çözüm yoktur, çünkü botların farklı davranışları vardır. Onları her biri için 4 kategori ve çözüm olarak ayırır:

  1. Meşru tarayıcılar (yani Google) - bunlar genellikle robots.txt dosyasına saygı duyar ve dediğin gibi, bununla ilgilenmezsiniz.

  2. Meşru sıyırıcılar (yani Facebook) - bunlar genellikle uygun kullanıcı aracısına sahiptir, böylece bunları (kullanıcı aracısı) temel alarak engelleyebilirsiniz.

  3. Robots.txt'ye saygı duymayan tarayıcılar - en kolay yol, sayfanızda görünmez bir bağlantı (insanlar için) oluşturmak, bu bağlantıya rel = nofollow (meşru tarayıcılarla sorun yaşamamak) koymaktır. Bağlantı, IP, UA ve tarayıcının benzer öğelerini kaydedeceğiniz bir sayfaya gitmelidir. Daha sonra bu günlüğe karşı bir denetim uygulayabilirsiniz ve eşleşme varsa, içeriği basitçe yapmazsınız.

  4. Kazıyıcılardan biri - Facebook'a benzer, ancak sahte kullanıcı aracısıyla. Tek geçerli çözüm çerez desteğini kontrol etmektir, ancak çalışacağı% 100 garanti değildir. Ayrıca, çerezleri devre dışı bırakmış kullanıcıları da engeller.

3
Ivo

Bir yöntem tarayıcılardan erişimi engellemek olabilir, ancak bu onları tanımlayabilmeye bağlıdır.

Aşağıdaki makalede, Joomla güvenliğinin nasıl artırılacağına ilişkin bazı iyi örnekler bulunmaktadır.

http://docs.joomla.org/Htaccess_examples_%28security%29

Yöntemlerden biri, sitenizdeki bir sayfadan yüklenmedikçe görüntülere erişimi engellemek için HTTP_REFERER niteliğini kullanmaktır.

Bir diğeri, belirli motorlara erişimi engellemek için HTTP_USER_AGENT özelliğini kullanmaktır.

Ek HTTP_USER_AGENT dizelerini belirlemek için erişim günlüklerinizi incelemeniz veya bir keresinde yaptığım şey, yorumda HTTP_USER_AGENT eklemek için Yönlendirme uzantısını değiştirmektir.

3
Peter Wiseman

İçeriğin herkese açık olarak erişilebilir olmasını istemiyorsanız, varsayılan (genel) kullanıcı grubuna erişimi kaldırarak erişimi kısıtlamak için Joomla'nın ACL'sini kullanın. Bunu yapmazsanız veya benzeri bir şey yapmazsanız, içeriğiniz public, insanlar görebilir, botlar görebilir.

İçeriğinizin başkaları tarafından görüntülenmesini istemiyorsanız, dünyaya yayınlamayın. Eğer bunu dünyaya yayınlarsanız, onu kimin görüntülediğini söyleyemezsiniz.

3
Seth Warburton