Robots txt zakazuje indexování složek. Jak zabránit indexování požadovaných stránek

Při samostatné propagaci a propagaci webové stránky je důležité nejen vytvářet jedinečný obsah nebo vybírat dotazy ve statistikách Yandex (k vytvoření sémantického jádra), ale měli byste také věnovat náležitou pozornost takovému ukazateli, jako je indexování stránek v Yandex a Google. Právě tyto dva vyhledávače dominují RuNetu a jak úplné a rychlé je indexování vašeho webu v Yandexu a Google určuje celkový další úspěch vaší propagace.



Máme k dispozici dva hlavní nástroje, pomocí kterých můžeme spravovat indexování stránek v Google a Yandex. Za prvé je to samozřejmě soubor robots.txt, který nám umožní nastavit zákaz indexování všeho na webu, co neobsahuje hlavní obsah (engine soubory a duplicitní obsah) a robots.txt bude probrán v tomto článku, ale kromě robots.txt je zde ještě jeden důležitý nástroj pro správu indexování — mapa stránek (Sitemap xml), o které jsem již psal poměrně podrobně v odkazovaném článku.

Robots.txt - proč je tak důležité spravovat indexování stránek v Yandex a Google

Robots.txt a Sitemap xml (soubory, které vám umožňují spravovat indexování stránek) jsou velmi důležité pro úspěšný vývoj vašeho projektu a není to nepodložené tvrzení. V článku o Sitemap xml (viz odkaz výše) jsem jako příklad uvedl výsledky velmi důležité studie o nejčastějších technických chybách začínajících webmasterů a tam na druhém a třetím místě (po nejedinečném obsahu) jsou právě robots.txt a soubor Sitemap xml, respektive buď absence těchto souborů, nebo jejich nesprávné složení a použití.

Je nutné velmi jasně pochopit, že ne veškerý obsah webu (soubory a adresáře) vytvořený na jakémkoli motoru (CMS Joomla, SMF nebo WordPress) by měl být dostupný pro indexování Yandexem a Googlem (jiné vyhledávače neberu v úvahu, kvůli jejich malému podílu na vyhledávání RuNet).

Pokud v robots.txt neurčíte určitá pravidla chování pro roboty vyhledávačů, pak během indexování mnoho stránek, které nesouvisí s obsahem webu, skončí ve vyhledávačích a může dojít i k vícenásobné duplikaci informačního obsahu (stejný materiál bude dostupný na různých stránkách odkazů), což se vyhledávačům nelíbí. Dobrým řešením by bylo zakázat indexování v souboru robots.txt.

Slouží k nastavení pravidel chování vyhledávacích robotů soubor robots.txt. S jeho pomocí budeme moci ovlivnit proces indexování stránek Yandexem a Googlem. Robot.txt je běžný textový soubor, který můžete vytvořit a následně upravit v libovolném textovém editoru (například Notepad++). Vyhledávací robot vyhledá tento soubor v kořenovém adresáři vašeho webu a pokud jej nenajde, zaindexuje vše, na co dosáhne.

Po napsání požadovaného souboru robots.txt (všechna písmena v názvu musí být malá – žádná velká) je tedy potřeba jej uložit do kořenové složky webu, např. pomocí Ftp klienta Filezilla, takže že je k dispozici na této adrese: http://your_site.ru/robots.txt.

Mimochodem, pokud chcete vědět, jak vypadá soubor robots.txt konkrétního webu, pak bude stačit přidat /robots.txt na adresu hlavní stránky tohoto webu. To může být užitečné při určování nejlepší možnosti pro váš soubor robots.txt, ale mějte na paměti, že optimální soubor robots.txt bude vypadat jinak pro různé vyhledávače webu ( zákaz indexování v souboru robots.txt bude nutné provést pro různé složky a soubory motoru). Pokud se tedy chcete rozhodnout pro nejlepší verzi souboru robots.txt>, například pro fórum na SMF, musíte si prostudovat soubory robots.txt pro fóra postavená na tomto enginu.

Směrnice a pravidla pro psaní souboru robots.txt (disallow, user-agent, host)

Soubor robots.txt má velmi jednoduchou syntaxi, která je velmi podrobně popsána například v Indexu. Soubor robots.txt obvykle uvádí, pro kterého vyhledávacího robota jsou níže popsané směrnice určeny (směrnice "Uživatelský agent"), samy umožňují (" Dovolit") a zakazující směrnice (" Zakázat“), a směrnice “ je také aktivně používána Sitemap", která vyhledávačům přesně ukáže, kde se soubor Sitemap nachází.

Je také užitečné uvést v souboru robots.txt, které ze zrcadel vašeho webu je hlavní v direktivě "Host"."I když váš web nemá zrcadla, pak bude užitečné v této směrnici uvést, který z pravopisů vašeho webu je hlavní s www nebo bez www. Protože i toto je druh zrcadlení. Mluvil jsem o tom v detail v tomto článku: Domény s a bez www - historie jejich vzhledu, použití přesměrování 301 k jejich slepení.

Teď si něco málo povíme pravidla pro psaní souboru robots.txt. Direktivy v souboru robots.txt vypadají takto:

Opravte soubor robots.txt musí obsahovat alespoň jednu direktivu "Disallow" za každým záznamem "User-agent". Prázdný soubor robots.txt předpokládá oprávnění k indexování celého webu.

Direktiva "User-agent". musí obsahovat jméno vyhledávacího robota. Pomocí této směrnice v robots.txt můžete nakonfigurovat indexování stránek pro každého konkrétního vyhledávacího robota (například vytvořit zákaz indexování samostatné složky pouze pro Yandex). Příklad napsání direktivy „User-agent“ adresované všem vyhledávacím robotům navštěvujícím váš zdroj vypadá takto:

Dovolte mi uvést několik jednoduchých příkladů správa indexování stránek v Yandexu, Google a další vyhledávače pomocí direktiv souboru robots.txt s vysvětlením jeho akcí.

    1 . Níže uvedený kód pro soubor robots.txt umožňuje všem vyhledávacím robotům indexovat celý web bez jakýchkoli výjimek. To je určeno prázdnou direktivou Disallow.

    3 . Takový soubor robots.txt zakáže všem vyhledávačům indexovat obsah adresáře /image/ (http://mysite.ru/image/ – cesta k tomuto adresáři)

    5 . Při popisu cest pro direktivy Allow-Disallow můžete použít symboly "*" a "$", čímž definují určité logické výrazy. Symbol "*" znamená libovolnou (včetně prázdných) posloupnost znaků. Následující příklad zabraňuje všem vyhledávačům indexovat soubory na webu s příponou „.aspx“:

    Disallow: *.aspx

Aby se předešlo nepříjemným problémům se zrcadly stránek (Domény s www a bez www - historie vzhledu, použití přesměrování 301 k jejich slepení), doporučuje se přidat do souboru Směrnice hostitele robots.txt, která nasměruje robota Yandex na hlavní zrcadlo vašeho webu (směrnice hostitele, která vám umožňuje nastavit hlavní zrcadlo webu pro Yandex). Podle pravidel pro psaní robots.txt musí záznam pro User-agenta obsahovat alespoň jednu direktivu Disallow (obvykle prázdnou, která nic nezakazuje):

Uživatelský agent: Yandex

Hostitel: www.site.ru

Robots and Robots.txt – zakazuje vyhledávačům indexovat duplikáty na webu


Existuje i jiný způsob konfigurovat indexování jednotlivých stránek webu pro Yandex a Google. Za tímto účelem se do tagu „HEAD“ požadované stránky zapíše META tag Robots a toto se opakuje pro všechny stránky, na které je třeba použít to či ono pravidlo indexování (zakázat nebo povolit). Příklad použití značky metadat:

...

V tomto případě budou muset roboti všech vyhledávačů zapomenout na indexování této stránky (to je označeno noindex v meta tagu) a analyzování odkazů na ní umístěných (to je označeno nofollow).

Jsou jen dva páry Direktivy metaznaček robotů: indexovat a sledovat:

  1. Index – určuje, zda robot může indexovat tuto stránku
  2. Sledovat – zda ​​může sledovat odkazy ze stránky

Výchozí hodnoty jsou „index“ a „sledovat“. Existuje také zkrácená verze používající „all“ a „none“, které označují aktivitu všech direktiv nebo naopak: all=index,follow a none=noindex,nofollow.

U blogu WordPress si můžete upravit metaznačku Robots, například pomocí pluginu All in One SEO Pack. Tak a je to, teorie skončila a je čas přejít k praxi, konkrétně ke kompilaci optimálních souborů robots.txt pro Joomla, SMF a WordPress.

Jak víte, projekty vytvořené na základě jakéhokoli enginu (Joomla, WordPress, SMF atd.) mají mnoho pomocných souborů, které nenesou žádnou informační zátěž.

Pokud nezakážete indexování všech těchto odpadků robots.txt, pak čas vyhrazený vyhledávači Yandex a Google pro indexování vašeho webu stráví vyhledávacími roboty, kteří budou třídit soubory motoru, aby v nich hledali informační složku, tzn. obsahu, který je mimochodem ve většině CMS uložen v databázi, kam se vyhledávací roboti nedostanou (s databázemi lze pracovat přes PhpMyAdmin). V tomto případě je čas na plno indexování stránek Robotům Yandex a Google možná nezbyde žádné.

Kromě toho byste měli na svém projektu usilovat o jedinečný obsah a neměli byste při indexování povolit duplicitní obsah (informační obsah) vašeho webu. Pokud je stejný materiál dostupný na různých adresách URL, může dojít k duplikaci. Vyhledávače Yandex a Google při indexování stránek detekují duplikáty a možná přijmou opatření k poněkud pesimizaci vašeho zdroje, pokud je jich velký počet.

Pokud je váš projekt vytvořen na základě jakéhokoli enginu (Joomla, SMF, WordPress), pak s vysokou pravděpodobností dojde k duplikaci obsahu, což znamená, že se s tím musíte vypořádat, včetně deaktivací indexování v souboru robots.txt.

Například ve WordPressu mohou být stránky s velmi podobným obsahem indexovány Yandexem a Googlem, pokud je povoleno indexování obsahu kategorií, obsahu archivu značek a obsahu dočasného archivu. Pokud ale pomocí meta tagu Robots vytvoříte zákaz indexování archivu tagů a dočasného archivu (můžete tagy ponechat, ale zakázat indexování obsahu kategorií), pak duplikace obsahu nevznikne. Pro tento účel ve WordPressu je nejlepší využít možností pluginu All in One SEO Pack.

V enginu fóra SMF je situace s duplikací obsahu ještě složitější. Pokud nevyladíte (nezakážete) indexování stránek v Yandexu a Google přes robots.txt, skončí v indexu vyhledávače více duplikátů stejných příspěvků. Joomla má občas problém s indexováním a duplikováním obsahu běžných stránek a jejich tištěných kopií.

Robots.txt je určen pro nastavení globálních pravidel pro zákaz indexování v celých adresářích webu nebo v souborech a adresářích, jejichž názvy obsahují zadané znaky (podle masky). Příklady nastavení takových zákazů indexování můžete vidět v prvním článku tohoto článku.

Chcete-li zakázat indexování v Yandex a Google jednu jedinou stránku, je vhodné použít meta tag Robots, který je napsán v záhlaví (mezi tagy HEAD) požadované stránky. Další podrobnosti o syntaxi metaznačky Robots jsou v textu o něco výše. Chcete-li zakázat indexování uvnitř stránky, můžete použít značku NOINDEX, ale je podporována pouze vyhledávačem Yandex.

Hostitelská směrnice v souboru robots.txt pro Yandex

Nyní se podívejme na konkrétní příklady robots.txt určeného pro různé motory – Joomla, WordPress a SMF. Přirozeně, všechny tři soubory robots.txt vytvořené pro různé motory se od sebe budou výrazně (ne-li radikálně) lišit. Je pravda, že všechny tyto robots.txt budou mít jeden společný bod a tento bod souvisí s vyhledávačem Yandex.

Protože V RuNet má vyhledávač Yandex poměrně velkou váhu, takže musíte vzít v úvahu všechny nuance jeho práce, pak pro správné indexování webu v Yandexu vyžaduje direktivu Host v robots.txt. Tato směrnice výslovně označí Yandex hlavní zrcadlo vašeho webu. Více si o tom můžete přečíst zde: Direktiva Host, která vám umožňuje nastavit zrcadlo hlavního webu pro Yandex.

Pro specifikaci hostitelské směrnice se doporučuje použít samostatný blog User-agent v souboru robots.txt, určený pouze pro Yandex (User-agent: Yandex). Důvodem je skutečnost, že jiné vyhledávače nemusí direktivě Host rozumět, a proto její zahrnutí do direktivy User-agent určené pro všechny vyhledávače (User-agent: *) může vést k negativním důsledkům a nesprávnému indexování vašeho místo.

Je těžké říci, jaká je situace ve skutečnosti, protože algoritmy vyhledávačů jsou věc sama o sobě, takže je lepší dělat vše v souboru robots.txt podle doporučení. V tomto případě však v souboru robots.txt budete muset duplikovat v direktivě User-agent: Yandex všechna pravidla, která jste zadali v direktivě User-agent: *. Pokud necháte direktivu User-agent: Yandex s prázdnou direktivou Disallow:, pak tímto způsobem vy v robots.txt povolte Yandexu indexovat celý web.

Než přistoupíme ke zvažování konkrétních možností pro soubor robots.txt, rád bych vám připomněl, že můžete zkontrolovat činnost svého souboru robots.txt v Yandex Webmaster a Google Webmaster.

Opravte soubor robots.txt pro fórum SMF

Povolit: /forum/*sitemap

Povolit: /forum/*arcade

Povolit: /forum/*rss

Disallow: /forum/attachments/

Disallow: /forum/avatars/

Disallow: /forum/Packages/

Disallow: /forum/Smajlíci/

Disallow: /fórum/Zdroje/

Disallow: /forum/Themes/

Disallow: /fórum/Hry/

Disallow: /forum/*.msg

Disallow: /forum/*. Nový

Disallow: /forum/*sort

Disallow: /forum/*topicseen

Disallow: /forum/*wap

Disallow: /forum/*imode

Disallow: /forum/*akce

User-agent: Slurp

Zpoždění procházení: 100

Upozorňujeme, že tento soubor robots.txt je určen pro případ, kdy je vaše fórum SMF nainstalováno v adresáři fóra na hlavní stránce. Pokud fórum není v adresáři, jednoduše odeberte /forum ze všech pravidel. Autoři této verze souboru robots.txt pro fórum na enginu SMF říkají, že pokud na svém fóru neaktivujete přátelské adresy URL (FUR), poskytne maximální účinek pro správné indexování v Yandexu a Google.

Přátelské adresy URL v SMF lze aktivovat nebo deaktivovat na panelu správce fóra následujícím způsobem: v levém sloupci panelu správce vyberte položku „Charakteristiky a nastavení“, ve spodní části okna, které se otevře, najděte „ Povolit přátelské adresy URL“, kde ji můžete zaškrtnout nebo zrušit zaškrtnutí.

Další správný soubor robots.txt pro fórum SMF(ale pravděpodobně ještě není plně vyzkoušeno):

Povolit: /forum/*sitemap

Povolit: /forum/*arcade # pokud herní mod za to nestojí, smažte bez přeskočení řádku

Povolit: /forum/*rss

Povolit: /forum/*type=rss

Disallow: /forum/attachments/

Disallow: /forum/avatars/

Disallow: /forum/Packages/

Disallow: /forum/Smajlíci/

Disallow: /fórum/Zdroje/

Disallow: /forum/Themes/

Disallow: /fórum/Hry/

Disallow: /forum/*.msg

Disallow: /forum/*. Nový

Disallow: /forum/*sort

Disallow: /forum/*topicseen

Disallow: /forum/*wap

Disallow: /forum/*imode

Disallow: /forum/*akce

Disallow: /forum/*prev_next

Disallow: /forum/*all

Disallow: /forum/*go.php # nebo jakékoli přesměrování, které máte

Host: www.my site.ru # označte své hlavní zrcadlo

User-agent: Slurp

Zpoždění procházení: 100

Jak můžete vidět v tomto souboru robots.txt, direktiva Yandex-only Host je součástí direktivy User-agent pro všechny vyhledávače. Pravděpodobně bych ještě přidal samostatnou direktivu User-agent v robots.txt pouze pro Yandex s opakováním všech pravidel. Ale rozhodněte se sami.

User-agent: Slurp

Zpoždění procházení: 100

Je to způsobeno tím, že vyhledávač Yahoo (Slurp je název jeho vyhledávacího robota) indexuje web v mnoha vláknech, což může negativně ovlivnit jeho výkon. V tomto pravidle robots.txt vám direktiva Crawl-delay umožňuje nastavit vyhledávacímu robotu Yahoo minimální dobu (v sekundách) mezi koncem stahování jedné stránky a začátkem stahování další. Tím se uvolní zatížení serveru když je stránka indexována vyhledávačem Yahoo.

Chcete-li zabránit indexování tištěných verzí stránek fóra SMF v Yandex a Google, doporučujeme provést operace popsané níže (k jejich provedení budete muset otevřít některé soubory SMF pro úpravy pomocí programu FileZilla). V souboru Sources/Printpage.php najděte (například pomocí vestavěného vyhledávání v Notepad++) řádek:

V souboru Themes/name_of_theme/Printpage.template.php najděte řádek:

Pokud chcete, aby tištěná verze měla odkaz na plnou verzi fóra (pokud již byly některé tištěné stránky indexovány v Yandexu a Google), pak ve stejném souboru Printpage.template.php najdete řádek s otevíracím štítkem HEAD:

Získejte více informací o této variantě souboru robots.txt pro fórum SMF Můžete si přečíst toto vlákno ruskojazyčného fóra podpory SMF.

Opravte soubor robots.txt pro web Joomla

Robots.txt je speciální soubor umístěný v kořenovém adresáři webu. Správce webu v něm uvádí, které stránky a údaje vyřadit z indexování vyhledávači. Soubor obsahuje direktivy, které popisují přístup do sekcí webu (tzv. standard výjimky robotů). Můžete jej použít například k nastavení různých nastavení přístupu pro vyhledávací roboty určené pro mobilní zařízení a stolní počítače. Je velmi důležité jej správně nastavit.

Je nutný soubor robots.txt?

Pomocí souboru robots.txt můžete:

  • zakázat indexování podobných a nepotřebných stránek, aby nedošlo k plýtvání limitem procházení (počet adres URL, které může vyhledávací robot procházet během jednoho procházení). Tito. robot bude moci indexovat důležitější stránky.
  • skrýt obrázky z výsledků vyhledávání.
  • zavřete nedůležité skripty, soubory stylů a další nekritické zdroje stránek z indexování.

Pokud to zabrání prohledávači Google nebo Yandex v analýze stránek, neblokujte soubory.

Kde se nachází soubor Robots.txt?

Pokud chcete pouze vidět, co je v souboru robots.txt, jednoduše zadejte do adresního řádku prohlížeče: site.ru/robots.txt.

Fyzicky je soubor robots.txt umístěn v kořenové složce webu na hostingu. Mám hosting beget.ru, takže na tomto hostingu ukážu umístění souboru robots.txt.


Jak vytvořit správný soubor robots.txt

Soubor robots.txt se skládá z jednoho nebo více pravidel. Každé pravidlo blokuje nebo umožňuje indexování cest na webu.

  1. V textovém editoru vytvořte soubor s názvem robots.txt a vyplňte jej podle níže uvedených pravidel.
  2. Soubor robots.txt musí být textový soubor s kódováním ASCII nebo UTF-8. Znaky v jiném kódování nejsou povoleny.
  3. Na webu by měl být pouze jeden takový soubor.
  4. Musí být umístěn soubor robots.txt kořenový adresář místo. Chcete-li například řídit indexování všech stránek na webu http://www.example.com/, měl by být soubor robots.txt umístěn na adrese http://www.example.com/robots.txt. Neměl by být v podadresáři(například na adrese http://example.com/pages/robots.txt). Máte-li potíže s přístupem do kořenového adresáře, kontaktujte svého poskytovatele hostingu. Pokud nemáte přístup do kořenového adresáře webu, použijte alternativní metodu blokování, jako jsou meta tagy.
  5. Soubor robots.txt lze přidat k adresám pomocí subdomény(například http:// webová stránka.example.com/robots.txt) nebo nestandardní porty (například http://example.com: 8181 /robots.txt).
  6. Zkontrolujte soubor ve službě Yandex.Webmaster a Google Search Console.
  7. Nahrajte soubor do kořenového adresáře vašeho webu.

Zde je příklad souboru robots.txt se dvěma pravidly. Níže je jeho vysvětlení.

User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Povolit: / Sitemap: http://www.example.com/sitemap.xml

Vysvětlení

  1. Uživatelský agent jménem Googlebot by neměl indexovat adresář http://example.com/nogooglebot/ a jeho podadresáře.
  2. Všichni ostatní uživatelští agenti mají přístup k celému webu (lze vynechat, výsledek bude stejný, protože plný přístup je standardně udělen).
  3. Soubor Sitemap pro tento web se nachází na adrese http://www.example.com/sitemap.xml.

Direktivy Disallow a Allow

Chcete-li zabránit indexování a přístupu robotů na web nebo některé jeho části, použijte direktivu Disallow.

User-agent: Yandex Disallow: / # blokuje přístup k celému webu User-agent: Yandex Disallow: /cgi-bin # blokuje přístup na stránky # začínající "/cgi-bin"

Podle standardu se doporučuje vložit před každou direktivu User-agent prázdný řádek.

Symbol # je určen k popisu komentářů. Vše za tímto znakem a před zalomením prvního řádku se nebere v úvahu.

Chcete-li povolit přístup robotu na web nebo do některých jeho částí, použijte direktivu Allow

User-agent: Yandex Allow: /cgi-bin Disallow: / # zakazuje stahování všeho kromě stránek # začínajících na "/cgi-bin"

Mezi direktivami User-agent, Disallow a Allow není povoleno mít prázdné řádky.

Direktivy Allow a Disallow z odpovídajícího bloku User-agent jsou seřazeny podle délky předpony URL (od nejmenší po největší) a jsou aplikovány postupně. Pokud je pro danou stránku webu vhodných několik direktiv, robot vybere poslední v pořadí, v jakém se zobrazí v seřazeném seznamu. Pořadí direktiv v souboru robots.txt tedy neovlivňuje, jak je robot používá. Příklady:

# Original robots.txt: User-agent: Yandex Povolit: /catalog Disallow: / # Sorted robots.txt: User-agent: Yandex Disallow: / Allow: /catalog # Umožňuje stahování pouze stránek # začínajících na "/catalog" # Original robots.txt: User-agent: Yandex Povolit: / Povolit: /catalog/auto Disallow: /catalog # Sorted robots.txt: User-agent: Yandex Povolit: / Disallow: /catalog Povolit: /catalog/auto # zakáže stahování stránek začínající "/catalog" #, ale umožňuje stahování stránek začínajících "/catalog/auto".

Pokud dojde ke konfliktu mezi dvěma direktivami se stejně dlouhými předponami, má přednost direktiva Allow.

Použití speciálních znaků * a $

Při zadávání cest direktiv Allow a Disallow můžete použít speciální znaky * a $, čímž specifikujete určité regulární výrazy.

Speciální znak * znamená libovolnou (včetně prázdných) posloupností znaků.

Speciální znak $ znamená konec řádku, znak před ním je poslední.

User-agent: Yandex Disallow: /cgi-bin/*.aspx # zakazuje "/cgi-bin/example.aspx" # a "/cgi-bin/private/test.aspx" Disallow: /*private # zakazuje nejen "/private", # ale také "/cgi-bin/private"

Směrnice o souborech Sitemap

Pokud k popisu struktury webu používáte soubor Sitemap, zadejte cestu k souboru jako parametr direktivy sitemap (pokud existuje několik souborů, uveďte všechny). Příklad:

User-agent: Yandex Allow: / sitemap: https://example.com/site_structure/my_sitemaps1.xml sitemap: https://example.com/site_structure/my_sitemaps2.xml

Direktiva je průsečíková, takže ji robot použije bez ohledu na místo v souboru robots.txt, kde je zadán.

Robot si zapamatuje cestu k souboru, zpracuje data a použije výsledky v následujících relacích stahování.

Direktiva Crawl-delay

Pokud je server silně zatížen a nemá čas zpracovat požadavky robota, použijte direktivu Crawl-delay. Umožňuje nastavit vyhledávacímu robotu minimální dobu (v sekundách) mezi koncem načítání jedné stránky a začátkem načítání další.

Před změnou rychlosti procházení webu zjistěte, na které stránky robot přistupuje častěji.

  • Analyzujte protokoly serveru. Kontaktujte osobu odpovědnou za web nebo poskytovatele hostingu.
  • Podívejte se na seznam adres URL na stránce Indexování → Statistiky procházení v Yandex.Webmaster (přepínač nastavte na Všechny stránky).

Pokud zjistíte, že robot přistupuje na stránky služeb, zabraňte jejich indexování v souboru robots.txt pomocí direktivy Disallow. To pomůže snížit počet zbytečných hovorů od robota.

Směrnice Clean-param

Direktiva funguje pouze s robotem Yandex.

Pokud adresy stránek webu obsahují dynamické parametry, které neovlivňují jejich obsah (identifikátory relace, uživatelé, referreři atd.), můžete je popsat pomocí direktivy Clean-param.

Yandex Robot pomocí této směrnice nebude opakovaně načítat duplicitní informace. Zvýšíte tím efektivitu procházení vašeho webu a snížíte zatížení serveru.

Web má například stránky:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123

Parametr ref se používá pouze ke sledování, ze kterého zdroje byl požadavek podán, a nemění obsah na všech třech adresách bude zobrazena stejná stránka s knihou book_id=123. Poté, pokud zadáte direktivu takto:

User-agent: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

Robot Yandex zredukuje všechny adresy stránek na jednu:

www.example.com/nejaky_adresar/get_book.pl?book_id=123

Pokud je taková stránka na webu dostupná, bude zahrnuta do výsledků vyhledávání.

Syntaxe směrnice

Clean-param: p0[&p1&p2&..&pn]

V prvním poli odděleném znakem & jsou uvedeny parametry, které robot nemusí brát v úvahu. Druhé pole určuje předponu cesty stránek, pro které má být pravidlo aplikováno.

Poznámka. Direktiva Clean-Param je průřezová, takže ji lze zadat kdekoli v souboru robots.txt. Pokud je zadáno několik směrnic, robot je vezme v úvahu všechny.

Předpona může obsahovat regulární výraz ve formátu podobném souboru robots.txt, ale s určitými omezeními: lze použít pouze znaky A-Za-z0-9.-/*_. V tomto případě je symbol * interpretován stejným způsobem jako v souboru robots.txt: symbol * je vždy implicitně připojen na konec předpony. Například:

Clean-param: s /forum/showthread.php

Případ se bere v úvahu. Délka pravidla je omezena – 500 znaků. Například:

Clean-param: abc /forum/showthread.php Clean-param: sid&sort /forum/*.php Clean-param: someTrash&otherTrash

směrnice HOST

V tuto chvíli Yandex přestal tuto směrnici podporovat.

Správný soubor robots.txt: setup

Obsah souboru robots.txt se liší v závislosti na typu webu (internetový obchod, blog), použitém CMS, strukturách a řadě dalších faktorů. Vytvoření tohoto souboru pro komerční web, zejména pokud se jedná o komplexní projekt, by proto měl provádět SEO specialista s dostatečnými zkušenostmi.

Nepřipravená osoba s největší pravděpodobností nebude schopna učinit správné rozhodnutí ohledně toho, kterou část obsahu je lepší zavřít z indexování a kterou část povolit, aby se objevila ve výsledcích vyhledávání.

Správný příklad souboru Robots.txt pro WordPress

User-agent: * # obecná pravidla pro roboty, kromě Yandex a Google, # protože pro ně jsou pravidla níže Disallow: /cgi-bin # složka na hostingu Disallow: /? # všechny parametry požadavku na hlavní stránce Disallow: /wp- # všechny soubory WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: /wp/ # pokud existuje podadresář /wp/ kde CMS je nainstalován (pokud ne, # pravidlo lze smazat) Disallow: *?s= # search Disallow: *&s= # search Disallow: /search/ # search Disallow: /author/ # archiv autora Disallow: /users/ # archiv autora Disallow: */ trackback # trackbacky, upozornění v komentářích o vzhledu otevřeného # odkazu na článek Disallow: */feed # all feeds Disallow: */rss # rss feed Disallow: */embed # all embeddings Disallow : */wlwmanifest.xml # manifest xml soubor Windows Live Writer (pokud jej nepoužíváte, # pravidlo lze smazat) Disallow: /xmlrpc.php # Soubor WordPress API Disallow: *utm*= # odkazy se značkami utm Disallow: *openstat= # odkazy se značkami openstat Povolit: */uploads # otevřít složku s nahranými soubory Mapa webu: http://site.ru/sitemap.xml # adresa mapy webu User-agent: GoogleBot # pravidla pro Google (I neduplikovat komentáře) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm*= Disallow: *openstat= Allow: */uploads Allow: /*/*.js # open js scripts inside / wp - (/*/ - pro prioritu) Povolit: /*/*.css # otevřít soubory css uvnitř /wp- (/*/ - pro prioritu) Povolit: /wp-*.png # obrázky v pluginech, složce mezipaměti atd. Povolit: /wp-*.jpg # obrázky v pluginech, složce mezipaměti atd. Povolit: /wp-*.jpeg # obrázky v pluginech, složce mezipaměti atd. Povolit: /wp-*.gif # obrázky v pluginech, složce mezipaměti atd. Povolit: /wp-admin/admin-ajax.php # používá pluginy, aby neblokoval JS a CSS User-agent: Pravidla Yandex # pro Yandex (komentáře neduplikuji) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Povolit: */uploads Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png Povolit: /wp-*.jpg Povolit: /wp-*.jpeg Povolit: /wp-*.gif Povolit: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Yandex doporučuje neblokovat # z indexování, ale smazat parametry značek, # Google taková pravidla nepodporuje Clean-Param: openstat # podobné

Robots.txt příklad pro Joomla

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /zahrnuje/
Disallow: /installation/
Disallow: /jazyk/
Disallow: /knihovny/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /šablony/
Disallow: /tmp/
Disallow: /xmlrpc/

Příklad Robots.txt pro Bitrix

User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/galerie/*objednávka=*
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*registrovat=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*?action=
Disallow: /*action=ADD_TO_COMPARE_LIST
Disallow: /*action=DELETE_FROM_COMPARE_LIST
Disallow: /*action=ADD2BASKET
Disallow: /*action=BUY
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*?COURSE_ID=
Disallow: /*?PAGEN
Disallow: /*PAGEN_1=
Disallow: /*PAGEN_2=
Disallow: /*PAGEN_3=
Disallow: /*PAGEN_4=
Disallow: /*PAGEN_5=
Disallow: /*PAGEN_6=
Disallow: /*PAGEN_7=

Disallow: /*PAGE_NAME=hledat
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*SHOWALL
Disallow: /*show_all=
Sitemap: http://cesta k vaší mapě formátu XML

Robots.txt příklad pro MODx

User-agent: *
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /install/
Disallow: /manager/
Soubor Sitemap: http://site.ru/sitemap.xml

Příklad Robots.txt pro Drupal

User-agent: *
Disallow: /database/
Disallow: /zahrnuje/
Disallow: /misc/
Disallow: /modules/
Disallow: /sites/
Disallow: /themes/
Disallow: /scripts/
Disallow: /updates/
Disallow: /profily/
Disallow: /profile
Disallow: /profile/*
Disallow: /xmlrpc.php
Disallow: /cron.php
Disallow: /update.php
Disallow: /install.php
Disallow: /index.php
Disallow: /admin/
Disallow: /komentář/odpověď/
Disallow: /kontakt/
Disallow: /logout/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: *registrace*
Zakázat: *přihlášení*
Disallow: /nejlépe hodnocené-
Disallow: /zprávy/
Disallow: /book/export/
Disallow: /user2userpoints/
Disallow: /myuserpoints/
Disallow: /tagadelic/
Disallow: /doporučení/
Disallow: /agregátor/
Disallow: /files/pin/
Disallow: /vaše-hlasy
Disallow: /comments/recent
Disallow: /*/edit/
Disallow: /*/delete/
Disallow: /*/export/html/
Disallow: /taxonomy/term/*/0$
Disallow: /*/edit$
Disallow: /*/outline$
Disallow: /*/revisions$
Disallow: /*/contact$
Disallow: /*downloadpipe
Disallow: /node$
Disallow: /node/*/track$
Disallow: /*&
Disallow: /*%
Disallow: /*?page=0
Disallow: /*sekce
Disallow: /*objednávka
Disallow: /*?sort*
Disallow: /*&sort*
Disallow: /*votesupdown
Disallow: /*kalendář
Disallow: /*index.php
Povolit: /*?page=
Disallow: /*?
Sitemap: http://cesta k vaší mapě formátu XML

POZORNOST!

CMS jsou neustále aktualizovány. Možná budete muset zablokovat indexování jiných stránek. V závislosti na účelu lze zákaz indexování odstranit nebo naopak přidat.

Zkontrolujte soubor robots.txt

Každý vyhledávač má své vlastní požadavky na design souboru robots.txt.

V následujících situacích zkontrolujte soubor robots.txt Pro kontrolu správnosti syntaxe a struktury souboru můžete využít některou z online služeb. Například Yandex a Google nabízejí své vlastní služby analýzy stránek pro webmastery, mezi které patří Analýza robots.txt:

Kontrola robotx.txt pro vyhledávacího robota Yandex

To lze provést pomocí speciálního nástroje od společnosti Yandex - Yandex.Webmaster a existují také dvě možnosti.

Možnost 1:

Rozbalovací seznam vpravo nahoře – vyberte Analýza robots.txt nebo klikněte na odkaz http://webmaster.yandex.ru/robots.xml

Nezapomeňte, že všechny změny, které v souboru robots.txt provedete, nebudou dostupné okamžitě, ale až po nějaké době.

Kontrola robotx.txt pro vyhledávacího robota Google

  1. V Google Search Console vyberte svůj web, přejděte na kontrolní nástroj a zkontrolujte obsah souboru robots.txt. Syntaktický A hlavolam chyby v něm budou zvýrazněny a jejich počet bude uveden pod editačním oknem.
  2. V dolní části stránky rozhraní zadejte v příslušném okně požadovanou adresu URL.
  3. Z rozbalovací nabídky napravo vyberte robot.
  4. Klepněte na tlačítko ŠEK.
  5. Zobrazí se stav DOSTUPNÝ nebo NENÍ DOSTUPNÝ. V prvním případě mohou roboti Google přejít na vámi zadanou adresu, ale ve druhém ne.
  6. V případě potřeby proveďte změny v nabídce a proveďte test znovu. Pozornost! Tyto opravy nebudou automaticky přidány do souboru robots.txt na vašem webu.
  7. Zkopírujte upravený obsah a přidejte jej do souboru robots.txt na vašem webovém serveru.

Kromě ověřovacích služeb od společností Yandex a Google existuje mnoho dalších online validátory souborů robots.txt.

Generátory robots.txt

  1. Služba od SEOlib.ru Pomocí tohoto nástroje můžete rychle získat a zkontrolovat omezení v souboru Robots.txt.
  2. Generátor z pr-cy.ru V důsledku generátoru Robots.txt obdržíte text, který je nutné uložit do souboru s názvem Robots.txt a nahrát do kořenového adresáře vašeho webu.

Byl jsem postaven před úkol vyřadit z indexování vyhledávači stránky obsahující určitý řetězec dotazu (jedinečné sestavy pro uživatele, z nichž každá má svou adresu). Tento problém jsem vyřešil sám za sebe a také jsem se rozhodl plně porozumět otázkám povolení a zákazu indexování stránek. Tomu je věnován tento materiál. Pokrývá nejen pokročilé případy použití pro soubor robots.txt, ale také další, méně známé způsoby kontroly indexování stránek.

Na internetu je mnoho příkladů, jak vyloučit určité složky z indexování vyhledávači. Může však nastat situace, kdy potřebujete vyloučit stránky, a ne všechny, ale obsahující pouze zadané parametry.

Příklad stránky s parametry: site.ru/?act=report&id=7a98c5

Tady akt je název proměnné, jejíž hodnota zpráva, A id- toto je také proměnná s hodnotou 7a98c5. Tito. řetězec dotazu (parametry) následuje za otazníkem.

Existuje několik způsobů, jak blokovat indexování stránek s parametry:

  • pomocí souboru robots.txt
  • pomocí pravidel v souboru .htaccess
  • pomocí metaznačky robots

Řízení indexování v souboru robots.txt

Soubor robots.txt

Soubor robots.txt je jednoduchý textový soubor, který se nachází v kořenovém adresáři (složce) webu a obsahuje jednu nebo více položek. Typický příklad obsahu souboru:

User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/

V tomto souboru jsou z indexování vyloučeny tři adresáře.

Pamatujte, že řádek s " Zakázat" musí být zapsáno samostatně pro každou předponu URL, kterou chcete vyloučit. To znamená, že nemůžete napsat " Disallow: /cgi-bin/ /tmp/" do jednoho řádku. Pamatujte také na zvláštní význam prázdných řádků - oddělují bloky záznamů.

Regulární výrazy nejsou podporovány v žádném řetězci User-agent, ani v Zakázat.

Soubor robots.txt by měl být umístěn v kořenové složce vašeho webu. Jeho syntaxe je následující:

User-agent: * Disallow: /složka nebo stránka zakázána pro indexování Disallow: /other folder

Jako hodnotu User-agent uvedeno * (hvězdička) - odpovídá libovolné hodnotě, tzn. Pravidla jsou určena pro všechny vyhledávače. Místo hvězdičky můžete zadat název konkrétního vyhledávače, pro který je pravidlo určeno.

Lze zadat více než jednu direktivu Zakázat.

V souboru robots.txt můžete použít zástupné znaky:

  • * označuje 0 nebo více výskytů jakéhokoli platného znaku. Tito. toto je libovolný řetězec, včetně prázdného.
  • $ označuje konec adresy URL.

Další znaky, včetně &, ?, = atd. jsou brány doslova.

Zákaz indexování stránky s určitými parametry pomocí souboru robots.txt

Takže chci blokovat adresy jako (místo VÝZNAM může být libovolný řetězec): site.ru/?act=report&id=VALUE

Pravidlo pro to zní:

User-agent: * Disallow: /*?*act=report&id=*

V něm / (lomítko) znamená kořenovou složku webu, za kterou následuje * (hvězdička), znamená „cokoli“. Tito. může to být jakákoli relativní adresa, například:

  • /page.php
  • /objednávka/nové/id

Pak následuje ? (otazník), který se vykládá doslovně, tzn. jako otazník. Následuje tedy řádek dotazu.

Druhý * znamená, že v řetězci dotazu může být cokoli.

Pak následuje posloupnost znaků act=report&id=*, v něm act=report&id= se vykládá doslovně tak, jak je, a poslední hvězdička opět znamená libovolný řádek.

Zákaz indexování vyhledávači, ale povolení prohledávače reklamních sítí

Pokud jste web uzavřeli z indexování pro vyhledávače nebo jste uzavřeli určité jeho části, nebude se na nich zobrazovat reklama AdSense! Umísťování reklam na stránky, které nejsou indexovány, může být v jiných přidružených sítích považováno za porušení pravidel.

Chcete-li to opravit, přidejte na úplný začátek souboru robots.txt následující řádky:

User-agent: Mediapartners-Google Disallow: User-agent: AdsBot-Google* Disallow: User-Agent: YandexDirect Disallow:

S těmito řádky povolujeme roboty Mediální partneři – Google, AdsBot-Google* A YandexDirect indexovat web.

Tito. soubor robots.txt pro můj případ vypadá takto:

User-agent: Mediapartners-Google Disallow: User-agent: AdsBot-Google* Disallow: User-Agent: YandexDirect Disallow: User-agent: * Disallow: /*?*act=report&id=*

Zabránit indexování všech stránek s řetězcem dotazu

To lze provést následovně:

User-agent: * Disallow: /*?*

Tento příklad blokuje všechny stránky obsahující adresu URL ? (otazník).

Pamatujte: otazník hned za názvem domény, např. site.ru/? je ekvivalentní indexové stránce, proto buďte opatrní s tímto pravidlem.

Zákaz indexování stránek s určitým parametrem předávaným metodou GET

Musíte například blokovat adresy URL, které obsahují parametr v řetězci dotazu objednat, k tomu je vhodné následující pravidlo:

User-agent: * Disallow: /*?*order=

Zabránit indexování stránek s některým z několika parametrů

Řekněme, že chceme zabránit indexování stránek, které obsahují řetězec dotazu nebo parametr dir, nebo parametr objednat, nebo parametr p. Chcete-li to provést, uveďte každou z možností blokování v samostatných pravidlech, například takto:

User-agent: * Disallow: /*?*dir= Disallow: /*?*order= Disallow: /*?*p=

Jak zabránit vyhledávačům v indexování stránek, které mají ve svých adresách URL několik specifických parametrů

Například musíte z indexování stránky vyloučit parametr content v řetězci dotazu dir, parametr objednat a parametr p. Například stránka s touto adresou URL by měla být vyloučena z indexování: mydomain.com/new-printers?dir=asc&order=price&p=3

Toho lze dosáhnout pomocí směrnice:

User-agent: * Disallow: /*?dir=*&order=*&p=*

Místo hodnot parametrů, které se mohou neustále měnit, použijte hvězdičky. Pokud má parametr vždy stejnou hodnotu, použijte jeho doslovný pravopis.

Jak zablokovat indexování webu

Chcete-li všem robotům zabránit v indexování celého webu:

User-agent: * Disallow: /

Povolit všem robotům plný přístup

Chcete-li všem robotům poskytnout plný přístup k indexování webu:

User-agent: * Disallow:

Buď jen vytvořte prázdný soubor /robots.txt, nebo jej nepoužívejte vůbec – ve výchozím nastavení se za otevřené považuje vše, co není zakázáno pro indexování. Prázdný soubor nebo jeho absence tedy znamená povolení k úplnému indexování.

Zákaz indexování části webu všem vyhledávačům

Chcete-li zavřít některé části webu před všemi roboty, použijte příkazy následujícího typu, ve kterých nahraďte hodnoty svými vlastními:

User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /junk/

Blokování jednotlivých robotů

Chcete-li zablokovat přístup k jednotlivým robotům a vyhledávačům, použijte v řádku jméno robota User-agent. V tomto příkladu je přístup odepřen BadBot:

User-agent: BadBot Disallow: /

Pamatujte: mnoho robotů ignoruje soubor robots.txt, takže to není spolehlivý způsob, jak zastavit indexování webu nebo jeho části.

Umožněte indexování webu jedním vyhledávačem

Řekněme, že chceme povolit indexování webu pouze Googlu a odepřít přístup jiným vyhledávačům, pak proveďte toto:

User-agent: Google Disallow: User-agent: * Disallow: /

První dva řádky umožňují robotovi Google indexovat stránky a poslední dva řádky to všem ostatním robotům zakazují.

Zákaz indexování všech souborů kromě jednoho

Směrnice Dovolit definuje cesty, které by měly být přístupné zadaným vyhledávacím robotům. Pokud cesta není uvedena, je ignorována.

Používání:

Povolit: [cesta]

Důležité: Dovolit musí následovat dříve Zakázat.

Poznámka: Dovolit není součástí standardu, ale mnoho oblíbených vyhledávačů jej podporuje.

Případně pomocí Zakázat můžete odepřít přístup ke všem složkám kromě jednoho souboru nebo jedné složky.

Jak zkontrolovat fungování souboru robots.txt

V Yandex.Webmaster existuje nástroj pro kontrolu konkrétních adres URL, zda jsou povoleny nebo neindexovány podle souboru robots.txt vašeho souboru.

Chcete-li to provést, přejděte na kartu Nástroje, vyberte Analýza robots.txt. Tento soubor by se měl stáhnout automaticky, pokud existuje stará verze, klikněte na tlačítko Šek:

Pak do terénu Jsou adresy URL povoleny? zadejte adresy, které chcete zkontrolovat. Můžete zadat mnoho adres najednou, každá z nich musí být umístěna na novém řádku. Když je vše připraveno, stiskněte tlačítko Šek.

Ve sloupci Výsledek pokud je adresa URL uzavřena pro indexování vyhledávacími roboty, bude označena červeným světlem, pokud je otevřená, bude označena zeleným světlem.

V Search Console existuje podobný nástroj. Je to v záložce Snímání. Volal Nástroj pro kontrolu souboru Robots.txt.

Pokud jste aktualizovali soubor robots.txt, klikněte na tlačítko Poslat a poté v okně, které se otevře, znovu klikněte na tlačítko Poslat:

Poté znovu načtěte stránku (klávesa F5):

Zadejte adresu k ověření, vyberte robota a klikněte na tlačítko Šek:

Zákaz indexování stránek pomocí metaznačky robots

Pokud chcete stránku zavřít z indexování, pak ve značce zapsat:

označující, jaké typy souborů jsou zakázány pro indexování.

Například zákaz indexování všech souborů s příponou .PDF:

Sada hlaviček X-Robots-Tag "noindex, nofollow"

Zákaz indexování všech souborů obrázků (.png, .jpeg, .jpg, .gif):

Sada hlaviček X-Robots-Tag "noindex"

Blokování přístupu k vyhledávačům pomocí mod_rewrite

Ve skutečnosti vše, co bylo popsáno výše, NEZARUČUJE, že vyhledávače a zakázaní roboti nebudou mít přístup a indexovat vaše stránky. Existují roboti, kteří „respektují“ soubor robots.txt, a jsou tací, kteří jej jednoduše ignorují.

Pomocí mod_rewrite můžete zablokovat přístup pro určité roboty

RewriteEngine On RewriteCond %(HTTP_USER_AGENT) Google RewriteCond %(HTTP_USER_AGENT) Yandex RewriteRule ^ - [F]

Výše uvedené směrnice zablokují přístup k robotům Google a Yandex pro celý web.

zpráva/

RewriteEngine On RewriteCond %(HTTP_USER_AGENT) Google RewriteCond %(HTTP_USER_AGENT) Yandex RewriteRule ^report/ - [F]

Pokud máte zájem o zablokování přístupu pro vyhledávače k ​​jednotlivým stránkám a sekcím webu pomocí mod_rewrite, pak napište do komentářů a zeptejte se - připravím další příklady.

13 postřehů na „ Jak vyloučit z indexování stránky s určitými parametry v URL a další techniky pro řízení indexování stránek vyhledávači
  1. Taras

    významově nejbližší, ale tady je ta složka

    Pokud například potřebujete zavřít pouze jednu složku pro indexování zpráva/, pak následující směrnice zcela zablokují přístup k této složce (bude vydán kód odezvy 403 Přístup odepřen) pro skenery Google a Yandex.

Účelem této příručky je pomoci webmasterům a správcům používat soubor robots.txt.

Úvod

Standard výjimky pro roboty je ve svém jádru velmi jednoduchý. Ve zkratce to funguje takto:

Když robot, který se řídí standardem, navštíví web, nejprve si vyžádá soubor s názvem „/robots.txt“. Pokud je takový soubor nalezen, robot v něm vyhledá pokyny zakazující indexování určitých částí webu.

Kam umístit soubor robots.txt

Robot si jednoduše vyžádá URL „/robots.txt“ na vašem webu, v tomto případě jde o konkrétního hostitele na konkrétním portu.

Adresa URL webu Adresa URL souboru Robots.txt
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

Na webu může být pouze jeden soubor „/robots.txt“. Soubor robots.txt byste například neměli umísťovat do uživatelských podadresářů – roboti je tam stejně hledat nebudou. Pokud chcete mít možnost vytvářet soubory robots.txt v podadresářích, potřebujete způsob, jak je programově shromáždit do jednoho souboru robots.txt umístěného v kořenovém adresáři webu. Můžeš použít .

Pamatujte, že v adresách URL se rozlišují velká a malá písmena a název souboru „/robots.txt“ musí být celý napsán malými písmeny.

Nesprávné umístění souboru robots.txt
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt Soubor není umístěn v kořenovém adresáři webu
ftp://ftp.w3.com/robots.txt Roboti neindexují ftp
http://www.w3.org/Robots.txt Název souboru není psán malými písmeny

Jak vidíte, soubor robots.txt by měl být umístěn výhradně v kořenovém adresáři webu.

Co napsat do souboru robots.txt

Soubor robots.txt se obvykle zapisuje takto:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

V tomto příkladu je zakázáno indexování tří adresářů.

Všimněte si, že každý adresář je uveden na samostatném řádku - nemůžete napsat "Disallow: /cgi-bin/ /tmp/". Také nemůžete rozdělit jeden příkaz Disallow nebo User-agent do několika řádků, protože Konce řádků se používají k oddělení instrukcí od sebe navzájem.

Nelze použít ani regulární výrazy a zástupné znaky. „Hvězdička“ (*) v pokynu User-agent znamená „jakýkoli robot“. Pokyny jako „Disallow: *.gif“ nebo „User-agent: Ya*“ nejsou podporovány.

Konkrétní pokyny v souboru robots.txt závisí na vašem webu a na tom, čemu chcete zabránit v indexování. Zde jsou nějaké příklady:

Zablokujte indexování celého webu všemi roboty

User-agent: *
Disallow: /

Umožněte všem robotům indexovat celý web

User-agent: *
Zakázat:

Nebo můžete jednoduše vytvořit prázdný soubor „/robots.txt“.

Zablokujte indexování pouze několika adresářů

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

Zabránit indexování stránek pouze pro jednoho robota

Uživatelský agent: BadBot
Disallow: /

Povolit jednomu robotovi indexovat web a všem ostatním zakázat

Uživatelský agent: Yandex
Zakázat:

User-agent: *
Disallow: /

Zakázat indexování všech souborů kromě jednoho

To je docela obtížné, protože... neexistuje žádné prohlášení „Povolit“. Místo toho můžete přesunout všechny soubory kromě toho, kterému chcete povolit indexování, do podadresáře a zabránit jeho indexování:

User-agent: *
Disallow: /docs/

Nebo můžete zakázat indexování všech souborů:

User-agent: *
Disallow: /private.html
Disallow: /foo.html
Disallow: /bar.html

Od autora: Máte na svém webu stránky, které nechcete, aby vyhledávače viděly? Z tohoto článku se podrobně dozvíte, jak zabránit indexování stránek v robots.txt, zda je to správné a jak obecně blokovat přístup na stránky.

Musíte tedy zabránit indexování určitých stránek. Nejjednodušší způsob, jak to udělat, je v samotném souboru robots.txt a přidat do něj potřebné řádky. Chtěl bych poznamenat, že adresy složek jsme zadali relativně vůči sobě, stejným způsobem zadejte adresy URL konkrétních stránek nebo můžete zadat absolutní cestu.

Řekněme, že můj blog má několik stránek: kontakty, o mně a mých službách. Nechtěl bych, aby byly indexovány. Podle toho píšeme:

User-agent: * Disallow: /kontakty/ Disallow: /about/ Disallow: /uslugi/

Jiná varianta

Skvělé, ale není to jediný způsob, jak zablokovat přístup robota na určité stránky. Druhým je umístění speciální metaznačky do html kódu. Přirozeně umístěte pouze do těch záznamů, které je třeba uzavřít. Vypadá to takto:

< meta name = "robots" content = "noindex,nofollow" >

Aby značka správně fungovala, musí být umístěna v kontejneru head v html dokumentu. Jak vidíte, má dva parametry. Název je zadán jako robot a udává, že tyto pokyny jsou určeny pro webové prohledávače.

Parametr content musí mít dvě hodnoty oddělené čárkami. Prvním je zákaz nebo povolení indexovat textové informace na stránce, druhým je označení, zda indexovat odkazy na stránce.

Pokud tedy chcete, aby stránka nebyla indexována vůbec, zadejte hodnoty noindex, nofollow, tedy neindexujte text a zakažte případné další odkazy. Existuje pravidlo, že pokud na stránce není žádný text, nebude indexována. To znamená, že pokud je veškerý text uzavřen v noindexu, pak není co indexovat, takže do indexu nebude nic zahrnuto.

Kromě toho existují následující hodnoty:

noindex, follow – zákaz indexování textu, ale povolení sledovat odkazy;

index, nofollow – lze použít, když má být obsah převzat do indexu, ale všechny odkazy v něm by měly být uzavřeny.

index, follow – výchozí hodnota. Všechno je povoleno.