şükela:  tümü | bugün
  • sitelerinde arama motorlarından gizlemek istedikleri mahrem dizimlerini bunun içinde disallow tanımlayarak kamuoyundan gizlediğini zanneden arkadaşlar var ya işte onların mahremlerini bulmaya da yarayan bişeydir.

    (bkz: hadi beni bırak hani komşular?)
  • google aramalarında engelleyeceğiniz bir link yoksa ekleme gerekliliği olmayan dosya.
  • google'in kendi robots.txt'si ise söyledir:

    user-agent: *
    allow: /searchhistory/
    disallow: /search
    disallow: /groups
    disallow: /images
    disallow: /catalogs
    disallow: /catalog_list
    disallow: /news
    disallow: /nwshp
    disallow: /?
    disallow: /addurl/image?
    disallow: /pagead/
    disallow: /relpage/
    disallow: /sorry/
    disallow: /imgres
    disallow: /keyword/
    disallow: /u/
    disallow: /univ/
    disallow: /cobrand
    disallow: /custom
    disallow: /advanced_group_search
    disallow: /advanced_search
    disallow: /googlesite
    disallow: /preferences
    disallow: /setprefs
    disallow: /swr
    disallow: /url
    disallow: /wml
    disallow: /hws
    disallow: /bsd?
    disallow: /linux?
    disallow: /mac?
    disallow: /microsoft?
    disallow: /unclesam?
    disallow: /answers/search?q=
    disallow: /local?
    disallow: /local_url
    disallow: /froogle?
    disallow: /froogle_
    disallow: /print?
    disallow: /scholar?
    disallow: /palm
    disallow: /complete
    disallow: /sponsoredlinks
    disallow: /videosearch?
    disallow: /videopreview?
    disallow: /videoprograminfo?
    disallow: /maps?
    disallow: /translate?
    disallow: /ie?

    http://www.google.com/robots.txt
  • robots.txt dosyası ile arama motoru örümceklerinin taramasını istemediğiniz sayfaları belirleyebilirsiniz. bir web sitesi images klasörünü engelledi diye sizin de engellemeniz gerekmez. web sitesine özel bir konfigürasyondur bu, ihtiyacınıza göre şekillendirirsiniz.

    peki neden bu şekilde bir düzenleme yapmak isteyesiniz? bunun birkaç sebebi var. güvenlik, performans, seo gibi.

    güvenlik açısından ele alacak olursak, özel dosyalarınızın olduğu dizinleri engelleyerek arama motorlarında gözükmesini engelleyebilirsiniz. site:siteadi.com arama sorgusu ile bir web sitesinin arama motorlarında kayıt altına alınmış sayfalarını listeyebilirsiniz. (bu sorgu çoğu arama motorunda aynıdır) mesela ben gönderdiğim akademik bir bildirinin kabul edilip edilmediğini merak ediyordum, hadi koçum değerlendirmediniz mi işimiz var gücümüz var diye mesaj atmak yerine bahsettiğim sorguyla açık sayfalarını teker teker kontrol ettim ve kabul durumlarının çıktılarını alan bir sistem dosyasına ulaşarak kabul alan bildirilere ulaştım. (benimki de kabul edilmişti) *bakın bu bir dramdır. isteseydim o listede oynama da yapabilirdim, sisteme zarar da verebilirdim. kabak gibi ortadaydı çünkü tüm dosyalar.

    performans açısından ele alacak olursak, işinize yaramayan dosyaların taranmasını engellersiniz. işinize yaramayan dosya nedir, örneğin sistem dosyalarıdır. işinize yaramayan görsellerdir. bazı robotlar tarama yaparken resmen web sunucunuza tecavüz ederler, bu da sunucunun sistem yükünü arttırır, web siteniz yavaş çalışır. aynı şekilde web sitenizi ziyaret etmesini istemediğiniz örümcekleri de buradan engelleyebilirsiniz. baiduspider gibi.

    seo açısından ele alacak olursak, arama motoru örümcekleri web sitenizi belirli bir senkronda tarar. kaba bir örnek verecek olursak, 10 tane işe yarar sayfanız var -size para kazandıran, sizin veya şirketiniz için önemli olan- ve 100 tane de aslında işinize yaramayan sayfa var. (sistem dosyası vs.) şimdi bu botların günde 1 sayfa taradığını düşünün ve hangi sayfayı tarayacağını siz belirleyemiyorsunuz. yani önce 100 tane gereksiz sayfayı tarama ihtimali var. böyle olmasın diye gereksiz sayfaları engelliyoruz. kaba olayı bu.
  • arama motorlarının orumcek adı verilen ve nette dolasarak web sitelerini indeksleyen küçük programcıklarının okuması için belirli bir formatta hazırlanarak root'a yerleştirilmiş metin dosyası. *
  • ikide bir 404 hatası bildiren scriptim'den robots.txt'ye ulaşılamadı diye mail almaktan ve istatistiklerimde 404 hataları arasında robots.txt görmekten bıktım, hem robotlar sunucuma hiç de yük bindirmiyor diyorsanız. robots.txt diye bir metin dosyası oluşturup root dizininize döşeyiverin, içeriği şöyle olsun;

    # gel gel ne olursan yine de gel scripting aş. sunar...
    # site.com'un robotlara kucak açtığının göstergesidir.
    # bir sorununuz varsa lütfen mevlana@site.com'a mail atın.

    user-agent: *
    disallow:
  • archive.orgu engellemesinden nefret ettiğim hede
  • (bkz: humans.txt)