it-swarm-tr.com

Robots.txt dosyasını, birkaç dizin dışında sitenin taranmasına izin verecek şekilde nasıl yapılandırırsınız?

Robots.txt için arama motorlarının siteden geçmesine izin verecek, ancak birkaç klasörü kısıtlayabilecek en iyi başlangıç ​​veya genel kurulum nedir?

Her zaman kullanılması gereken genel bir kurulum var mı?

7
Mike

Google Web yöneticisi araçları, "Paletli erişimi" adlı bir Bölüme sahiptir

Bu bölüm robots.txt'nizi kolayca oluşturabilmenizi sağlar

Örneğin, blog dışındaki her şeye izin vermek için, robot.txt dosyanızı test eden bir klasör

User-agent: *
Disallow: /Test
Allow: /
3
corymathews

Özel bir gereksiniminiz yoksa, en iyi yapılandırma hiç bir şey değildir. (404'lerin hata günlüklerinizi doldurmasını önlemek için en azından boş bir dosya eklemek isteyebilirsiniz.)

Sitedeki bir dizini engellemek için 'Disallow' yan tümcesini kullanın:

User-agent: *
Disallow: /example/

Bir önceki 'Disallow' yan tümcesini geçersiz kılan bir 'İzin Ver' yan tümcesi de var. Bu nedenle, 'example' klasörüne izin vermediyseniz, 'example/foobar' gibi bir klasöre izin vermek isteyebilirsiniz.

Robots.txt adresinin kimsenin bu sayfaları ziyaret etmesini engellemediğini unutmayın, bu nedenle bazı sayfalar gizli kalması durumunda, onları bir tür kimlik doğrulamanın arkasına gizlemeniz gerekir (ör. Bir kullanıcı adı/şifre).

Birçok robots.txt dosyasında olması muhtemel olan diğer yönerge, eğer varsa, XML site haritanızın konumunu belirten 'Site Haritası' dır. Kendi başına bir satıra koyun:

Sitemap: /sitemap.xml

official robots.txt site , çeşitli seçenekler hakkında daha fazla bilgi içerir. Ancak genel olarak, sitelerin büyük çoğunluğunun çok az yapılandırmaya ihtiyacı olacaktır.

1
DisgruntledGoat

--- hakkında bilmeniz gereken her şey robots.txt file

0
Jason