SEO seriál: Informace pro roboty robots.txt

2. 6. 2015

Informace pro roboty, tzv. robots exclusion protocol (REP), jsou jednoduchým a efektivním způsobem, jak předat vyhledávacím robotům základní příručku k zacházení s naším webem. Robot se tak snadno zorientuje, dozví se, kam může vstoupit, kde co najde a zda si z toho smí něco pamatovat. Zda se tím váš host bude řídit, je už bohužel na něm. Většinou ale pravidla respektuje  :-D

Kam umístit robots.txt? 

Vyhledávací roboti obvykle hledají na webu informace pro roboty jako první bod ze svého programu. Je proto dobré ji umístit na standardní URL: http://www.vasweb.com/robots.txt

Prvky a příklady robots.txt 

Pravidla chování robotů na našem webu určujeme pomocí následujících prvků, platných pro všechny významné vyhledávače:

User-Agent: *

  • Určuje, pro které roboty dané pravidlo platí.
  • „*“ značí, že pravidlo platí pro všechny.
  • Pro robota Seznamu uvedeme místo „*“ „SeznamBot“, pro robota Google uvedeme „Googlebot“. 

Disallow: /

  • Určuje části webu, které nesmí robot stahovat, tzn. nezařazuje si je do vyhledávacího indexu.
  • „/“ zakazuje stahování celého webu.
  • Má-li být celý web indexovatelný a dostupný místo „/“ nechte prázdné místo.
  • Může nastat situace, kdy chceme vyhledávači zamezit v indexování a zobrazování jen určitých částí webu. Pro příklad nebudu chtít, aby vyhledávače stahovaly vasweb.com/archiv/. Do robots.txt proto uvedu následující:

User-Agent: *
Disallow: /archiv/

  • Co když se ale rozhodnu, že bych chtěl, aby robot viděl do archivu za loňský rok?

User-Agent: *
Disallow: /archiv/
Allow: /archiv/2014/

POZOR! Robot seznamu bude zápis „Disallow: /“ respektovat na celém webu, kromě homepage, kterou indexovat bude. Je třeba mu sepsat samostatné pravidlo, pak už vše proběhne jak má. Celý zápis pak bude vypadat takto:

User-Agent: *
Disallow: /
User-Agent: SeznamBot
Disallow: /

Sitemap: http://www.vasweb.com/sitemap.xml

  • Robots.txt je ideální místo, kde informovat vyhledávače o umístění sitemapy. Odhalí díky tomu snadno strukturu webu a přejdete tak mnoha potenciálním problémům.
  • URL sitemapy pište kompletní, včetně protokolu http/https.

Zaujal vás článek o Robots.txt? Přečtěte si další články ze SEO seriálu.


Dnes již nepoužívané parametry

Z dřevních dob internetu, kdy servery byly pomalejší, hosting dražší a na stažení obrázku se čekalo věčnost, se dochovaly i další prvky, které se už dnes prakticky nepoužívají.

Ve výjimečných případech by pro ně mohl nalézt využití váš správce serveru, mějte ale na paměti, že je vyhledávač nemusí respektovat.

Crawl-delay: 15

  • Počet sekund mezi jednotlivými požadavky vyhledávacího robota na váš server.
  • Pro jiný čas stačí jen zaměnit „15“ za požadovaný počet sekund. 

Request-rate: 23/1m

  • Určuje rychlost crawlování (načítání webu robotem).
  • V tomto případě je to 23 URL za 1 minutu.

Máte problém s informacemi pro roboty?

Který se vám nedaří vyřešit? Podělte se o něj v komentáři pod článkem!