Web Sitelerinde Robots.txt Dosyasının Önemi

Web sitelerinin sayfaları arama motorlarının botları tarafından sürekli taranır ve arşivlenir. Ancak bazı web siteleri her sayfasının arama motorlarında bulunmasını istemez. İşte bu esnada devreye Robots.txt metin dosyaları devreye girer. Arama motorlarında görünmesini istemediğiniz her sayfa ya da uzantıyı Robots.txt dosyaları ile gizlemeniz mümkün. Ancak bu dosya oluşturulurken dikkat edilmesi gereken ayrıntılar vardır. Çünkü yanlış oluşturulan bir Robots.txt dosyası ile sitenizin önemli sayfalarının da arama motorları tarafından bulunması riski ortaya çıkabilir. Sitelerin SEO çalışmalarında önemli olan bu duruma dikkat edilmesi gerekiyor. Peki Robots.txt dosyaları nasıl oluşturulur, inceleyelim.
Robots.txt Nedir?
Robots.txt metin dosyası, sitenizin hangi sayfa ya da bölümlerinin arama motorlarında görülecek dizine ekleneceğini ya da eklenemeyeceğini gösteren basit bir komut dosyasıdır. Arama motorlarınca görevlendirilen, örümcek adı da verilen botlar sitenize geldiğinde ilk önce bu dosyayı tarar ve bu dosyadaki komutlara göre sitenin izin verilen bölümlerini dizine ekler ya da eklemez. Eğer Robots.txt dosyanız doğru bir şekilde hazırlandıysa, arama motoru robotları yazdığınız bu komutlara uygun olarak tarama işlemlerini yapar.
Robots.txt Dosyası Nasıl Oluşturulur?
Robots.txt komut dosyası belli standartlar çerçevesinde hazırlanmalı ve web sitesinin kök dizinine bu şekilde yüklenmelidir. Öncelikle web sitenizin kök dizininde robots.txt dosyasının bulunması bir gerekliliktir ve dosya oluşturulurken bir alt klasörde ya da farklı sayfalarda yer almaması gerekir.
Örnek bir doğru kullanım gösterilmesi gerekirse; https://www.ornek.com/robots.txt şeklinde olabileceğini söyleyebiliriz. Ancak https://www.ornek.com/main/robots.txt kullanımı robots.txt için yanlış bir kullanım olacaktır.
Robots.txt dosyası düz metinden oluşmalı ve UTF-8 karakter kodlamaları kullanılmalıdır. Dosya sürekli güncellenebilir olduğu için istediğiniz zaman üzerinde çalışabileceğiniz bir şekilde tutmalı, gizlememeli ya da kaldırmamalısınız.
Robots.txt Komutları
Robots.txt içerisinde kullanılan bazı standartlaşmış komutlar bulunmaktadır. Bunlar temel olarak şu şekilde sıralanabilir;
Grup Komutları; Arama motorları engelleme ya da izin verme, dizin engelleme/izin verme, sayfa engelleme/izin verme ve tarama geciktirmesi
Grup Dışı Komutlar; Site haritası belirtme
Robots.txt Dosyasında Kullanılabilen Özel Komutlar
Grup Komutları
Dosya içerisinde net ve kesin ifadelerden oluşması gereken grup komutlarında bir yazım yanlışı varsa bu komut dikkate alınmaz. Komutlar içerisinde büyük-küçük harf kullanımına, özel karakter ayrımlarına dikkat edilmelidir. En çok kullanılan grup komutları ise şunlardır;
User-agent
Bu komut hangi arama motorunun web sitenizi taramasına izin verip vermeyeceğini belirtmesine yardımcı olur. Tüm tarayıcılara tarama izni vermek isterseniz eğer * işaretini kullanabilirsiniz. Sadece bir tarayıcı için izin verecekseniz tarayıcı adını belirtebilirsiniz.
Dizin Engelleme / İzin verme
Disallow ya da Allow komutları ile sitenizdeki belli dizinlere erişim kaldırılabilir ya da izin verilebilir. Bu izinler sadece arama motorlarına yönelik olup kullanıcılar komut verilen dizine ulaşmaya devam edebileceklerdir.
Yukarıdaki komut kullanıldığında arama motorunuz https://www.ornek.com/tarama/URL’sine sahip olan “tarama” dizinini taramayacak ve yine bu dizin içerisinde bulunan sayfaları dizine eklemeyecektir.
Sayfa Engelleme / İzin Verme
Aynı şekilde disallow ya da allow komutları ile belirli sayfalara erişim izninin verilmesi ya da verilmemesidir.
Yukarıdaki komut kullanıldığında, https://www.ornek.com/ozel-tarama.html URL’sine sahip sayfadaki içerik taranmayacak ve dizine eklenmeyecektir.
Allow komutu da disallow komutunun tam tersi olarak işlem yapar ve Disallow komutu kullanımını geçersiz kılar.
Allow ve Disallow komutları birlikte kullanılırsa tarama dosyası içerisindeki demo.html sayfası hariç diğer dosyaların taramasını kapatmak anlamına gelecektir. Google botları önce Allow sonrasında Disallow komutunu işleme alacaktır.
Tarama Geciktirme (Crawl-delay)
Bu komut ile arama motoru botlarının tarama için harcayacağı zamanı sınırlandırmak mümkündür. Örneğin geç açılan bir web siteniz varsa ve arama motoru botlarının sayfanıza kötü puan vermesini istemiyorsanız açılış süresini buna göre ayarlayabilirsiniz.
Grup Dışı Komutlar
Grup dışı olarak geçen en önemli komut sitemap.xml komutudur. Bu komut, arama motoru botlarına önemli bilgiler verdiği için, sitenize gelen botların taradığı ilk yerdir. Bu nedenle sitenizde sitemap.xml dosyasının bulunmaması bir dezavantaj oluşturabilir. Kullanımı da oldukça basit olan bu komut için sitemap.xml dosyasının URL’sinin doğru yazılması yeterlidir.
Robots.txt Dosyasında Kullanılabilen Özel Komutlar
Robots.txt komut dosyasına ekleyeceğiniz özel ifadeler ile belli bir karakteri ya da URL uzantısını içeren sayfaları da istediğiniz arama motoru robotlarına kapatmanız mümkün
Örneğin;
Son olarak söylemeliyiz ki; eğer web sitenizi yeni kuruyor ya da tasarımını değiştiriyorsanız mutlaka ilk olarak robots.txt dosyasını kontrol etmeniz gerekir. Hali hazırda bir dosyanız yoksa da oluşturmalı ve sitenize eklemelisiniz. Özellikle SEO çalışmalarında kullanılmaması büyük dezavantaj olan Robots.txt dosyası yoksa web sitenizde, arama motoru botları noindex etiketi olmayan sayfaları tarayacaklardır. Taranmasını istemediğiniz her sayfa ve klasöre noindex etiketini tek tek yerleştirmek yerine Robots.txt dosyası oluşturarak hem zaman kazanabilir ve hem de sitenizin istediğiniz arama motoru dizinine istediğiniz şekilde eklenmesini sağlayabilirsiniz.
Diğer Haberler

E-ticaret Pazarı 5 yılda Yüzde 30 Büyüdü
Türkiye’de internet altyapısının gelişmesiyle birlikte firmalar da dijital ortam...

Hemen Çıkma Oranı Nasıl Düşürülür?
Hemen Çıkma Oranı’, internet sitenizi ziyaret eden kullanıcıların sitenizde kalm...

Facebook Business Manager ve Avantajları
Hayatın dijitalleşmesiyle birlikte reklam verenlerin en çok tercih ettiği mecral...