SEO seriál: Informace pro roboty robots.txt

Informace pro roboty, tzv. robots exclusion protocol (REP), jsou jednoduchým a efektivním způsobem, jak předat vyhledávacím robotům základní příručku k zacházení s naším webem. Robot se tak snadno zorientuje, dozví se, kam může vstoupit, kde co najde a zda si z toho smí něco pamatovat. Zda se tím váš host bude řídit, je už bohužel na něm. Většinou ale pravidla respektuje :-D
Kam umístit robots.txt?
Vyhledávací roboti obvykle hledají na webu informace pro roboty jako první bod ze svého programu. Je proto dobré ji umístit na standardní URL: http://www.vasweb.com/robots.txt
Prvky a příklady robots.txt
Pravidla chování robotů na našem webu určujeme pomocí následujících prvků, platných pro všechny významné vyhledávače:
User-Agent: *
- Určuje, pro které roboty dané pravidlo platí.
- „*“ značí, že pravidlo platí pro všechny.
- Pro robota Seznamu uvedeme místo „*“ „SeznamBot“, pro robota Google uvedeme „Googlebot“.
Disallow: /
- Určuje části webu, které nesmí robot stahovat, tzn. nezařazuje si je do vyhledávacího indexu.
- „/“ zakazuje stahování celého webu.
- Má-li být celý web indexovatelný a dostupný místo „/“ nechte prázdné místo.
- Může nastat situace, kdy chceme vyhledávači zamezit v indexování a zobrazování jen určitých částí webu. Pro příklad nebudu chtít, aby vyhledávače stahovaly vasweb.com/archiv/. Do robots.txt proto uvedu následující:
User-Agent: *
Disallow: /archiv/
- Co když se ale rozhodnu, že bych chtěl, aby robot viděl do archivu za loňský rok?
User-Agent: *
Disallow: /archiv/
Allow: /archiv/2014/
POZOR! Robot seznamu bude zápis „Disallow: /“ respektovat na celém webu, kromě homepage, kterou indexovat bude. Je třeba mu sepsat samostatné pravidlo, pak už vše proběhne jak má. Celý zápis pak bude vypadat takto:
User-Agent: *
Disallow: /
User-Agent: SeznamBot
Disallow: /
Sitemap: http://www.vasweb.com/sitemap.xml
- Robots.txt je ideální místo, kde informovat vyhledávače o umístění sitemapy. Odhalí díky tomu snadno strukturu webu a přejdete tak mnoha potenciálním problémům.
- URL sitemapy pište kompletní, včetně protokolu http/https.
Zaujal vás článek o Robots.txt? Přečtěte si další články ze SEO seriálu.
Dnes již nepoužívané parametry
Z dřevních dob internetu, kdy servery byly pomalejší, hosting dražší a na stažení obrázku se čekalo věčnost, se dochovaly i další prvky, které se už dnes prakticky nepoužívají.
Ve výjimečných případech by pro ně mohl nalézt využití váš správce serveru, mějte ale na paměti, že je vyhledávač nemusí respektovat.
Crawl-delay: 15
- Počet sekund mezi jednotlivými požadavky vyhledávacího robota na váš server.
- Pro jiný čas stačí jen zaměnit „15“ za požadovaný počet sekund.
Request-rate: 23/1m
- Určuje rychlost crawlování (načítání webu robotem).
- V tomto případě je to 23 URL za 1 minutu.
Máte problém s informacemi pro roboty?
Který se vám nedaří vyřešit? Podělte se o něj v komentáři pod článkem!