SEO seriál: Informace pro roboty robots.txt

2. 6. 2015

Informace pro roboty, tzv. robots exclusion protocol (REP), jsou jednoduchým a efektivním způsobem, jak předat vyhledávacím robotům základní příručku k zacházení s naším webem. Robot se tak snadno zorientuje, dozví se, kam může vstoupit, kde co najde a zda si z toho smí něco pamatovat. Zda se tím váš host bude řídit, je už bohužel na něm. Většinou ale pravidla respektuje :-D

Kam umístit robots.txt?

Vyhledávací roboti obvykle hledají na webu informace pro roboty jako první bod ze svého programu. Je proto dobré ji umístit na standardní URL: http://www.vasweb.com/robots.txt

Prvky a příklady robots.txt

Pravidla chování robotů na našem webu určujeme pomocí následujících prvků, platných pro všechny významné vyhledávače:

User-Agent: *

Určuje, pro které roboty dané pravidlo platí.
„*“ značí, že pravidlo platí pro všechny.
Pro robota Seznamu uvedeme místo „*“ „SeznamBot“, pro robota Google uvedeme „Googlebot“.

Disallow: /

Určuje části webu, které nesmí robot stahovat, tzn. nezařazuje si je do vyhledávacího indexu.
„/“ zakazuje stahování celého webu.
Má-li být celý web indexovatelný a dostupný místo „/“ nechte prázdné místo.
Může nastat situace, kdy chceme vyhledávači zamezit v indexování a zobrazování jen určitých částí webu. Pro příklad nebudu chtít, aby vyhledávače stahovaly vasweb.com/archiv/. Do robots.txt proto uvedu následující:

User-Agent: *
Disallow: /archiv/

Co když se ale rozhodnu, že bych chtěl, aby robot viděl do archivu za loňský rok?

User-Agent: *
Disallow: /archiv/
Allow: /archiv/2014/

POZOR! Robot seznamu bude zápis „Disallow: /“ respektovat na celém webu, kromě homepage, kterou indexovat bude. Je třeba mu sepsat samostatné pravidlo, pak už vše proběhne jak má. Celý zápis pak bude vypadat takto:

User-Agent: *
Disallow: /
User-Agent: SeznamBot
Disallow: /

Sitemap: http://www.vasweb.com/sitemap.xml

Robots.txt je ideální místo, kde informovat vyhledávače o umístění sitemapy. Odhalí díky tomu snadno strukturu webu a přejdete tak mnoha potenciálním problémům.
URL sitemapy pište kompletní, včetně protokolu http/https.

Zaujal vás článek o Robots.txt? Přečtěte si další články ze SEO seriálu.

Dnes již nepoužívané parametry

Z dřevních dob internetu, kdy servery byly pomalejší, hosting dražší a na stažení obrázku se čekalo věčnost, se dochovaly i další prvky, které se už dnes prakticky nepoužívají.

Ve výjimečných případech by pro ně mohl nalézt využití váš správce serveru, mějte ale na paměti, že je vyhledávač nemusí respektovat.

Crawl-delay: 15

Počet sekund mezi jednotlivými požadavky vyhledávacího robota na váš server.
Pro jiný čas stačí jen zaměnit „15“ za požadovaný počet sekund.

Request-rate: 23/1m

Určuje rychlost crawlování (načítání webu robotem).
V tomto případě je to 23 URL za 1 minutu.

Máte problém s informacemi pro roboty?

Který se vám nedaří vyřešit? Podělte se o něj v komentáři pod článkem!

SEO seriál: Informace pro roboty robots.txt

Kam umístit robots.txt?

Prvky a příklady robots.txt

User-Agent: *

Disallow: /

Sitemap: http://www.vasweb.com/sitemap.xml

Dnes již nepoužívané parametry

Crawl-delay: 15

Request-rate: 23/1m

Máte problém s informacemi pro roboty?

Produkty

Podpora

Kontakt

Kam umístit robots.txt?

Prvky a příklady robots.txt

User-Agent: *

Disallow: /

Sitemap: http://www.vasweb.com/sitemap.xml

Dnes již nepoužívané parametry

Crawl-delay: 15

Request-rate: 23/1m

Máte problém s informacemi pro roboty?

Související články a videa

Produkty

Podpora

Kontakt