it-swarm-tr.com

Sadece "Disallow /" un yanı sıra Internet Arşivi üzerinden kontrol?

İnternet Arşivinin bir sitede neleri arşivleyeceğini kontrol etmeye yönelik mekanizmalar var mı? Tüm sayfalara izin vermemeyi biliyorum ekleyebilirim :

User-agent: ia_archiver
Disallow: /
  1. Bot'a, sitemi ayda bir kez veya yılda bir kez taramasını istediğimi söyleyebilir miyim?

  2. Alınmayan varlıklar nedeniyle doğru şekilde arşivlenmeyen/alınmayan bir sitem/sayfalarım var. İnternet Arşivi botuna siteyi kapmak için ihtiyaç duyduğu varlığa ihtiyacı olduğunu söylemenin bir yolu var mı?

13
artlung

Not : Bu cevap artık güncel değil.

İnternet Arşivi web koleksiyonuna en büyük katkı yapan Alexa İnternet oldu. Alexa'nın amaçları için taradığı materyal birkaç ay sonra IA'ye bağışlandı. Soruda belirtilen izin verme kuralının eklenmesi bu taramaları etkilemez, ancak Wayback onları geriye dönük olarak onurlandırır (erişimi reddeder, malzeme hala arşivde olacak - malzemenizi gerçekten dışarıda tutmak istiyorsanız Alexa'nın robotunu dışlamalısınız. İnternet Arşivi).

Alexa'nın emeklemelerini etkilemenin yolları olabilir, ama buna aşina değilim.

IA kendi tarayıcısını (Heritrix) geliştirdiğinden beri, kendi taramalarını yapmaya başladılar, ancak bunlar hedefli tarama eğilimindedirler (Kongre Kütüphanesi için seçim taramaları yapar ve Fransa ve Avustralya için ulusal taramalar yaparlar). Google ve Alexa’nın yürüttüğü sürekli dünya çapındaki taramalara katılmıyorlar. IA'nın en büyük taraması 2 milyar sayfayı taramak için özel bir projeydi.

Bu taramalar, projeye özgü faktörlerden türetilen zamanlamalar üzerinde çalıştırıldığından, sitenizi ne sıklıkta ziyaret ettiklerini veya eğer sitenizi ziyaret ettiklerini etkileyemezsiniz.

IA'nın sitenizi nasıl ve ne zaman taradığını doğrudan etkilemenin tek yolu, onların Archive-It hizmetini kullanmaktır. Bu hizmet size özel taramalar belirlemenizi sağlar. Elde edilen veriler (en sonunda) IA'nın web koleksiyonuna dahil edilecektir. Ancak bu bir ücretli abonelik hizmetidir.

8
Kris

Çoğu arama motoru "Sürünme gecikmesi" direktifini destekler, ancak IA'nın yapıp yapmadığını bilmiyorum. Yine de deneyebilirsin:

User-agent: ia_archiver
Crawl-delay: 3600

Bu, talepler arasındaki gecikmeyi 3600 saniyeye (yani 1 saat) veya aylık ~ 700 isteklere sınırlar.

# 2 'nin mümkün olduğunu sanmıyorum - IA bot varlıkları uygun gördüğü zaman alıyor. Çok fazla depolama alanı kullanmamak için dosya boyutu sınırlaması olabilir.

2
DisgruntledGoat