Správné nastavení indexace webových stránek

V tom článku se budeme zabývat asi tím nejdůležitějším v nastavení toho, aby se vaše webové stránky zobrazovaly ve výsledcích internetových vyhledávačů – indexace webu.

Určitě každý chceme, aby naše pracně vybudované webové stránky se zajímavým obsahem našli i jiní uživatelé, například pomocí webového vyhledávače Google, Seznam a dalších. Pokud však nemáme správně nastavenou indexaci, náš web se nikdy ve výsledcích vyhledávání zobrazovat nebude.

Soubor robots.txt – základní kámen pro vyhledávače

Bezesporu nejdůležitějším, co pro indexaci vašeho webu můžete udělat, je správné nastavení souboru robots.txt. K tomuto soubor každý internetový vyhledávač přistupuje a hledá ho přímo v rootu vašeho webu.

Tento soubor poskytuje vyhledávačům základní informace o tom, jak má k vašemu webu přistupovat. Ve zkratce mu zde sdělíte, kam může a kam naopak nemůže. Pokud v tomto souboru zakážete vyhledávači přístup všude, nikdo váš web ve výsledcích vyhledávání nenajde. Správně nastavený soubor robots.txt může vypadat třeba takto:

User-agent: *
Allow: /
Disallow: /wp-admin/

Sitemap: https://www.pavelkovar.cz/sitemap.xml

User-agent říká, pro koho následující pravidla platí (v tomto případě pro všechny). Direktiva Allow povoluje přístup všude od rootu vašeho webu a direktiva Disallow zakazuje robotům přístup do administrace webu (wp-admin v případě WordPress webu).

Doporučuje se zde také přidávat odkaz na mapu vašich stránek (sitemap.xml). Tohle je potřeba nastavit především v případě, kdy vaše sitemapa není na standardní adrese /sitemap.xml.

Meta tag robots

Meta tag robots se nachází ve zdrojovém kódu v části <head> a může vypadat nějak takto:

<meta name="robots" content="index, follow">

Tímto máme možnost nastavit, jak se mají vyhledávače chovat ke konkrétním stránkám vašeho webu. Mezi základní direktivy, které můžeme pro atribut content použit, jsou následující:

  • index – povolí vyhledávačům tuto stránku indexovat, díky tomu se bude zobrazovat ve výsledcích vyhledávání
  • noindex – zakáže danou stránku vyhledávačům indexovat a zobrazovat tak ve výsledcích vyhledávání
  • follow – vyhledávače můžou na stránce sledovat odkazy a přikládat jim autoritu (více o autoritě odkazu)
  • nofollow – vyhledávače nebudou na stránce sledovat odkazy a přikládat jim autoritu
  • all – zkrácený zápis pro použití index, follow, mají vše dovoleno
  • none – zkrácený zápis pro použití noindex, nofollow, mají vše zakázáno

Nastavení indexace ve WordPress

Pokud používáte redakční systém WordPress, nastavení meta tagu robots můžete provést přímo v administraci webu. Tuto volbu naleznete v sekci Nastavení > Zobrazování.

Důležité je zmínit, že pokud máte tuto volbu odškrtnutou (tedy indexaci povolenou), WordPress meta tag robots ve zdrojovém kódu vůbec nevypíše a roboti to tedy chápou tak, že mají povoleno vše. Tato volba také nijak neovlivňuje nastavení souboru robots.txt.

Situace, kdy web indexovat nechceme

Na závěr bych rád ještě zmínil situace, ve kterých nechceme, aby vyhledávače náš web indexovaly.

Z praxe se nejčastěji setkávám se situací, kdy vyvíjíme webové stránky na testovacím serveru s testovací URL. Zde určitě nechceme, aby se náš testovací server objevil ve výsledcích vyhledávání, jednak by uživatele chodili na špatnou verzi webu a hlavně vyhledávače začnou web (i ten produkční) penalizovat za duplicitní obsah a dokáže tak nepříjemně ovlivnit SEO. Dalším příkladem může být například situace, kdy máme webové stránky se soukromým obsahem a nechceme, aby o něm někdo věděl.

Pokud se o problematice indexování webu chcete dozvědět více, podrobněji se tomu věnuje například článek Průvodce procházením a indexací webu na stránkách ContentKing.

Neváhejte mě kontaktovat

V případě zájmu o mé služby mě můžete kontaktovat na

pavel@pavelkovar.cz

nebo

Fyzická osoba zapsaná v Živnostenském rejstříku od 30. 7. 2014, eviduje Městský úřad Rožnov pod Radhoštěm,
Pavel Kovář, IČO: 03246078