Robots txt, klasör indekslemeyi yasaklar. Gerekli sayfaların indekslenmesi nasıl önlenir

Bir web sitesini bağımsız olarak tanıtırken ve tanıtırken, yalnızca benzersiz içerik oluşturmak veya Yandex istatistiklerindeki sorguları seçmek (anlamsal bir çekirdek oluşturmak için) değil, aynı zamanda aşağıdaki gibi bir göstergeye de gereken dikkati vermek önemlidir. Yandex ve Google'da site indeksleme. RuNet'e hakim olan bu iki arama motorudur ve sitenizin Yandex ve Google'da indekslenmesinin ne kadar eksiksiz ve hızlı olduğu, tanıtımın daha sonraki başarısını belirler.



Google ve Yandex'de site indekslemeyi yönetebileceğimiz iki ana araç elimizde bulunmaktadır. Öncelikle bu elbette bir dosya robots.txt Sitede ana içeriği içermeyen her şeyin (motor dosyaları ve yinelenen içerik) indekslenmesine yasak koymamıza olanak tanıyan , bu makalede robots.txt ele alınacak, ancak robots.txt'nin yanı sıra bir önemli daha var indekslemeyi yönetme aracı —site haritası ( Site haritası xml), bağlantılı makalede zaten ayrıntılı olarak yazdım.

Robots.txt - Yandex ve Google'da site indekslemeyi yönetmek neden bu kadar önemli?

Robots.txt ve Sitemap xml (site indekslemeyi yönetmenize izin veren dosyalar) projenizin başarılı bir şekilde geliştirilmesi için çok önemlidir ve bu kesinlikle asılsız bir ifade değildir. Site Haritası xml ile ilgili makalede (yukarıdaki bağlantıya bakın), acemi web yöneticilerinin en yaygın teknik hataları üzerine çok önemli bir çalışmanın sonuçlarını örnek olarak verdim ve orada ikinci ve üçüncü sırada (benzersiz olmayan içerikten sonra) sadece robots.txt ve Site Haritası xml veya daha doğrusu, bu dosyaların yokluğu veya bunların yanlış kompozisyonu ve kullanımı.

Herhangi bir motorda (CMS Joomla, SMF veya WordPress) oluşturulan bir sitenin tüm içeriğinin (dosyalar ve dizinler) Yandex ve Google tarafından indekslenmeye uygun olmaması gerektiğini çok net anlamak gerekir (diğer arama motorlarını dikkate almıyorum, RuNet aramasındaki küçük payları nedeniyle).

Arama motoru botları için robots.txt dosyasında belirli davranış kuralları belirtmezseniz, indeksleme sırasında site içeriğiyle ilgisi olmayan birçok sayfa arama motorlarına düşecek ve bilgi içeriğinin birden fazla kopyalanması da meydana gelebilir. (aynı materyal farklı site bağlantıları aracılığıyla bulunacaktır), arama motorlarının hoşlanmadığı bir durumdur. Robots.txt dosyasında indekslemeyi devre dışı bırakmak iyi bir çözüm olabilir.

Arama botları için davranış kurallarını belirlemek amacıyla kullanılır. robots.txt dosyası. Onun yardımıyla Yandex ve Google tarafından site indeksleme sürecini etkileyebileceğiz. Robot.txt normal bir dosyadır metin dosyası, herhangi bir metin düzenleyicide (örneğin, Notepad++) oluşturabilir ve daha sonra düzenleyebilirsiniz. Arama robotu bu dosyayı sitenizin kök dizininde arayacak ve bulamazsa ulaşabildiği her şeyi indeksleyecektir.

Bu nedenle, gerekli robots.txt dosyasını yazdıktan sonra (addaki tüm harfler küçük olmalıdır - büyük harf olmamalıdır), örneğin Filezilla Ftp istemcisi kullanılarak sitenin kök klasörüne kaydedilmesi gerekir. şu adreste mevcuttur: http:// /your_site.ru/robots.txt.

Bu arada, belirli bir sitenin robots.txt dosyasının nasıl göründüğünü bilmek istiyorsanız, bu sitenin ana sayfasının adresine /robots.txt dosyasını eklemeniz yeterli olacaktır. Bu, robots.txt dosyanız için en iyi seçeneği belirlemenize yardımcı olabilir, ancak en uygun robots.txt dosyasının farklı site motorları için farklı görüneceğini unutmayın ( robots.txt dosyasında indekslemenin yasaklanması motorun farklı klasörleri ve dosyaları için yapılması gerekecektir). Bu nedenle, örneğin SMF'deki bir forum için robots.txt> dosyasının en iyi sürümüne karar vermek istiyorsanız, bu motor üzerine kurulu forumlar için robots.txt dosyalarını incelemeniz gerekir.

Robots.txt dosyasının yazılmasına ilişkin yönergeler ve kurallar (izin verme, kullanıcı aracısı, ana bilgisayar)

Robots.txt dosyası çok basit bir sözdizimine sahiptir ve bu söz dizimi örneğin Dizinde çok ayrıntılı olarak açıklanmıştır. Tipik olarak robots.txt dosyası, aşağıda açıklanan yönergelerin hangi arama robotuna yönelik olduğunu belirtir (yönerge) "Kullanıcı aracısı"), kendileri izin veriyor (" İzin vermek") ve yasaklayıcı direktifler (" İzin verme") ve " direktifi de aktif olarak kullanılıyor Site haritası" arama motorlarına site haritası dosyasının tam olarak nerede bulunduğunu belirtmek için.

Robots.txt dosyasında sitenizin aynalarından hangisinin ana olduğunu belirtmeniz de faydalıdır. "Ana Bilgisayar" direktifinde"Sitenizde ayna olmasa bile bu yönergede sitenizin hangi yazımının www ile veya www olmadan ana yazım olduğunu belirtmeniz yararlı olacaktır. Çünkü bu da bir tür yansıtmadır. Bunu daha önce de bahsetmiştim. Bu makaledeki ayrıntılar: www'li ve www'siz alan adları - görünümlerinin geçmişi, bunları birbirine yapıştırmak için 301 yönlendirmelerinin kullanımı.

Şimdi biraz bahsedelim robots.txt dosyası yazma kuralları. robots.txt dosyasındaki yönergeler şuna benzer:

Robots.txt dosyasını düzeltin her "Kullanıcı aracısı" girişinden sonra en az bir "İzin Verme" yönergesi içermelidir. Boş bir robots.txt dosyası, sitenin tamamını dizine ekleme iznini varsayar.

"Kullanıcı aracısı" direktifi arama robotunun adını içermelidir. Robots.txt dosyasındaki bu yönergeyi kullanarak, her bir arama robotu için site indekslemeyi yapılandırabilirsiniz (örneğin, yalnızca Yandex için ayrı bir klasörün indekslenmesini yasaklayın). Kaynağınızı ziyaret eden tüm arama robotlarına yönelik bir "Kullanıcı aracısı" direktifi yazma örneği şuna benzer:

Size birkaç basit örnek vereyim Yandex'de site indekslemeyi yönetme, Google ve diğer arama motorları, eylemlerinin açıklamasıyla birlikte robots.txt dosyasının yönergelerini kullanır.

    1 . Robots.txt dosyası için aşağıdaki kod, tüm arama robotlarının istisnasız olarak sitenin tamamını dizine eklemesine olanak tanır. Bu, boş bir Disallow yönergesi ile belirtilir.

    3 . Böyle bir robots.txt dosyası, tüm arama motorlarının /image/ dizininin içeriğini dizine eklemesini yasaklayacaktır (http://mysite.ru/image/ - bu dizine giden yol)

    5 . İzin Ver-İzin Verme direktiflerinin yollarını açıklarken şunları kullanabilirsiniz: "*" ve "$" simgeleri, böylece belirli bir ayarın yapılması mantıksal ifadeler. "*" sembolü herhangi bir (boş dahil) karakter dizisi anlamına gelir. Aşağıdaki örnek, tüm arama motorlarının “.aspx” uzantılı bir sitedeki dosyaları dizine eklemesini engeller:

    İzin verme: *.aspx

Site aynalarıyla ilgili rahatsız edici sorunlardan kaçınmak için (www olan ve olmayan alanlar - görünüm geçmişi, bunları birbirine yapıştırmak için 301 yönlendirmelerinin kullanılması), dosyaya eklemeniz önerilir robots.txt Ana makine yönergesi Yandex robotunu sitenizin ana aynasına yönlendiren (Sitenin ana aynasını Yandex için ayarlamanıza olanak tanıyan Ana Bilgisayar Yönergesi). robots.txt yazma kurallarına göre, Kullanıcı aracısı girişinin en az bir Disallow yönergesine sahip olması gerekir (genellikle hiçbir şeyi yasaklamayan boş bir yönerge):

Kullanıcı aracısı: Yandex

Ana bilgisayar: www.site.ru

Robots and Robots.txt - arama motorlarının sitedeki kopyaları dizine eklemesini yasaklar


Başka bir yol daha var tek tek site sayfalarının indekslenmesini yapılandırma Yandex ve Google için. Bunun için istenilen sayfanın “HEAD” tagı içine Robots META tagı yazılır ve bu indeksleme kuralının (yasaklama veya izin verme) uygulanması gereken tüm sayfalar için tekrarlanır. Meta etiketi kullanma örneği:

...

Bu durumda, tüm arama motorlarının robotlarının bu sayfayı dizine eklemeyi (bu, meta etikette noindex ile gösterilir) ve üzerine yerleştirilen bağlantıları analiz etmeyi (bu, nofollow ile gösterilir) unutması gerekecektir.

Sadece iki çift var Robots meta etiketi yönergeleri: indeksleyin ve takip edin:

  1. Dizin - robotun bu sayfayı dizine ekleyip ekleyemeyeceğini belirtin
  2. Takip et - sayfadaki bağlantıları takip edip edemeyeceği

Varsayılan değerler "index" ve "follow"dur. Ayrıca, tüm direktiflerin etkinliğini veya buna göre tam tersini gösteren "tümü" ve "none" kullanan kısaltılmış bir versiyonu da vardır: all=index,follow ve none=noindex,nofollow.

Bir WordPress blogu için, örneğin All in One SEO Pack eklentisini kullanarak Robots meta etiketini özelleştirebilirsiniz. İşte bu kadar, teori bitti ve artık pratiğe geçme zamanı, yani Joomla, SMF ve WordPress için en uygun robots.txt dosyalarını derleme zamanı.

Bildiğiniz gibi herhangi bir motor (Joomla, WordPress, SMF vb.) bazında oluşturulan projelerde herhangi bir bilgi yükü taşımayan birçok yardımcı dosya bulunmaktadır.

Tüm bu çöplerin indekslenmesini yasaklamazsanız robots.txt, daha sonra Yandex ve Google arama motorları tarafından sitenizi dizine eklemek için ayrılan süre, arama robotlarının, içindeki bilgi bileşenini aramak için motor dosyalarını sıralaması için harcanacaktır; Bu arada, çoğu CMS'de arama robotlarının hiçbir şekilde erişemediği bir veritabanında saklanan içerik (veritabanlarıyla PhpMyAdmin aracılığıyla çalışabilirsiniz). Bu durumda tam zamanı site indeksleme Yandex ve Google robotlarında hiç kalmamış olabilir.

Ayrıca projenizde özgün içerik bulunmasına çaba göstermeli ve sitenizin indekslendiğinde kopya içeriklerine (bilgi içeriği) izin vermemelisiniz. Aynı materyal farklı URL'lerde mevcutsa çoğaltma meydana gelebilir. Arama motorları Yandex ve Google, siteyi dizine eklerken kopyaları tespit edecek ve belki de çok sayıda varsa kaynağınızı bir şekilde kötüleştirmek için önlemler alacaktır.

Projeniz herhangi bir motor (Joomla, SMF, WordPress) temelinde oluşturulmuşsa, yüksek olasılıkla içeriğin kopyalanması meydana gelecektir, bu da onunla ilgilenmeniz gerektiği anlamına gelir. robots.txt dosyasında indekslemeyi devre dışı bırakarak.

Örneğin WordPress'te, kategori içeriği, etiket arşivi içeriği ve geçici arşiv içeriğinin indekslenmesine izin veriliyorsa, çok benzer içeriğe sahip sayfalar Yandex ve Google tarafından indekslenebilir. Ancak, etiket arşivinin ve geçici arşivin indekslenmesine yönelik bir yasak oluşturmak için Robots meta etiketini kullanırsanız (etiketleri bırakabilirsiniz, ancak kategorilerin içeriğinin indekslenmesini yasaklayabilirsiniz), o zaman içeriğin kopyalanması meydana gelmez. Bu amaçla WordPress daha iyi Tek yapmanız gereken All in One SEO Pack eklentisinden yararlanmak.

İçeriğin kopyalanmasıyla ilgili durum SMF forum motorunda daha da zordur. Üretilmediği takdirde ince ayar Robots.txt aracılığıyla Yandex ve Google'da site indekslemenin (yasaklanması) durumunda, aynı gönderinin birden fazla kopyası arama motoru indeksine dahil edilecektir. Joomla bazen normal sayfaların içeriğini ve basılı kopyalarını indeksleme ve çoğaltma konusunda sorun yaşayabilir.

Robots.txt, site dizinlerinin tamamında veya adları belirtilen karakterleri içeren dosya ve dizinlerde (maskeye göre) dizin oluşturmayı yasaklamak için genel kurallar belirlemek üzere tasarlanmıştır. Bu tür indeksleme yasaklarının nasıl ayarlanacağına dair örnekleri bu makalenin ilk makalesinde görebilirsiniz.

Yandex ve Google'da indekslemeyi yasaklamak için Tek bir sayfada, istenilen sayfanın başlığına (HEAD etiketleri arasına) yazılan Robots meta etiketini kullanmak uygundur. Robots meta etiketinin sözdizimi hakkında daha fazla ayrıntı metnin biraz yukarısında yer almaktadır. Bir sayfanın içinde indekslemeyi yasaklamak için NOINDEX etiketini kullanabilirsiniz, ancak bu yalnızca Yandex arama motoru tarafından desteklenir.

Yandex için robots.txt dosyasındaki ana makine yönergesi

Şimdi bir göz atalım spesifik örnekler robots.txt, farklı motorlar için tasarlanmıştır - Joomla, WordPress ve SMF. Doğal olarak, farklı motorlar için oluşturulan üç robots.txt dosyasının tümü birbirinden (radikal olmasa da) önemli ölçüde farklı olacaktır. Doğru, tüm bu robots.txt dosyalarında ortak bir nokta olacak ve bu nokta Yandex arama motoruyla ilgili.

Çünkü RuNet'te Yandex arama motorunun oldukça fazla ağırlığı vardır, bu nedenle işinin tüm nüanslarını hesaba katmanız ve ardından doğru şekilde yapmanız gerekir. Yandex'de bir siteyi dizine eklemek için robots.txt dosyasında bir Ana Bilgisayar yönergesi gerekir. Bu direktif, sitenizin ana aynasını Yandex'e açıkça belirtecektir. Bununla ilgili daha fazla bilgiyi buradan edinebilirsiniz: Yandex için ana web sitesi yansıtmasını ayarlamanıza olanak tanıyan Host yönergesi.

Ana Bilgisayar yönergesini belirtmek için robots.txt dosyasında yalnızca Yandex'e (Kullanıcı aracısı: Yandex) yönelik ayrı bir Kullanıcı aracısı blogunun kullanılması önerilir. Bunun nedeni, diğer arama motorlarının Host direktifini anlayamayabilmesi ve buna bağlı olarak tüm arama motorlarına yönelik User-agent direktifine (User-agent: *) dahil edilmesinin olumsuz sonuçlara ve dosyanızın yanlış indekslenmesine yol açabilmesidir. alan.

Durumun gerçekte ne olduğunu söylemek zor çünkü arama motoru algoritmaları başlı başına bir şeydir, bu nedenle her şeyi tavsiye edildiği gibi robots.txt dosyasında yapmak daha iyidir. Ancak bu durumda, robots.txt dosyasında, User-agent: * yönergesinde belirttiğiniz tüm kuralları User-agent: Yandex yönergesinde kopyalamanız gerekecektir. User-agent: Yandex yönergesini boş bir Disallow: yönergesiyle bırakırsanız, bu şekilde robots.txt dosyasında Yandex'in tüm siteyi dizine eklemesine izin verin.

Robots.txt dosyası için belirli seçenekleri değerlendirmeye geçmeden önce, robots.txt dosyanızın çalışmasını Yandex Web Yöneticisi ve Google Web Yöneticisi'nde kontrol edebileceğinizi hatırlatmak isterim.

SMF forumu için robots.txt dosyasını düzeltin

İzin ver: /forum/*site haritası

İzin ver: /forum/*arcade

İzin ver: /forum/*rss

İzin verme: /forum/ekler/

İzin verme: /forum/avatars/

İzin verme: /forum/Paketler/

İzin verme: /forum/Smileys/

İzin verme: /forum/Kaynaklar/

İzin verme: /forum/Temalar/

İzin verme: /forum/Oyunlar/

İzin Verme: /forum/*.msg

İzin verme: /forum/*. yeni

İzin verme: /forum/*sort

İzin verme: /forum/*topicseen

İzin verme: /forum/*wap

İzin verme: /forum/*imode

İzin verme: /forum/*action

Kullanıcı aracısı: Slurp

Tarama gecikmesi: 100

Lütfen bu robots.txt dosyasının, SMF forumunuzun ana sitenin forum dizinine kurulduğu durum için olduğunu unutmayın. Forum dizinde değilse, /forum'u tüm kurallardan kaldırmanız yeterlidir. SMF motorundaki bir forum için robots.txt dosyasının bu sürümünün yazarları, forumunuzda dost URL'leri (FUR) etkinleştirmezseniz bunun Yandex ve Google'da düzgün indeksleme için maksimum etkiyi sağlayacağını söylüyor.

SMF'deki kolay URL'ler aşağıdaki yolu takip ederek forum yöneticisinde etkinleştirilebilir veya devre dışı bırakılabilir: yönetici panelinin sol sütununda "Özellikler ve Ayarlar" öğesini seçin, açılan pencerenin altında "İzin Ver" seçeneğini bulun Kolay URL'ler” öğesini işaretleyebilir veya işaretini kaldırabilirsiniz.

Bir diğer SMF forumu için doğru robots.txt dosyası(ancak muhtemelen henüz tam olarak test edilmemiştir):

İzin ver: /forum/*site haritası

İzin ver: /forum/*arcade # eğer oyun modu değmeyecekse satır atlamadan sil

İzin ver: /forum/*rss

İzin ver: /forum/*type=rss

İzin verme: /forum/ekler/

İzin verme: /forum/avatars/

İzin verme: /forum/Paketler/

İzin verme: /forum/Smileys/

İzin verme: /forum/Kaynaklar/

İzin verme: /forum/Temalar/

İzin verme: /forum/Oyunlar/

İzin Verme: /forum/*.msg

İzin verme: /forum/*. yeni

İzin verme: /forum/*sort

İzin verme: /forum/*topicseen

İzin verme: /forum/*wap

İzin verme: /forum/*imode

İzin verme: /forum/*action

İzin verme: /forum/*prev_next

İzin verme: /forum/*hepsi

İzin verme: /forum/*go.php # veya sahip olduğunuz yönlendirme ne olursa olsun

Ana bilgisayar: www.my site.ru # ana aynanızı belirtin

Kullanıcı aracısı: Slurp

Tarama gecikmesi: 100

Bu robots.txt dosyasında görebileceğiniz gibi, yalnızca Yandex'e yönelik olan Host yönergesi, tüm arama motorları için User-agent yönergesinde yer almaktadır. Muhtemelen yine de robots.txt dosyasına yalnızca Yandex için tüm kuralları tekrarlayan ayrı bir Kullanıcı aracısı yönergesi eklerdim. Ama kendiniz karar verin.

Kullanıcı aracısı: Slurp

Tarama gecikmesi: 100

Bunun nedeni, Yahoo arama motorunun (Slurp, arama botunun adıdır) siteyi birçok başlıkta dizine eklemesidir ve bu da sitenin performansını olumsuz yönde etkileyebilir. Bu robots.txt kuralında, Tarama gecikmesi yönergesi, Yahoo arama robotuna, bir sayfayı indirmenin sonu ile bir sonraki indirmenin başlangıcı arasındaki minimum süreyi (saniye cinsinden) ayarlamanıza olanak tanır. Bu sunucudaki yükü hafifletecektir bir site Yahoo arama motoru tarafından dizine eklendiğinde.

SMF forum sayfalarının basılı sürümlerinin Yandex ve Google'da indekslenmesini önlemek için, aşağıda açıklanan işlemleri gerçekleştirmeniz önerilir (bunları gerçekleştirmek için, bazı SMF dosyalarını FileZilla programını kullanarak düzenlemek üzere açmanız gerekecektir). Sources/Printpage.php dosyasında şu satırı bulun (örneğin, Notepad++'daki yerleşik aramayı kullanarak):

Themes/name_of_theme/Printpage.template.php dosyasında şu satırı bulun:

Yazdırılabilir sürümün ayrıca bir bağlantıya sahip olmasını istiyorsanız tam sürüm forum (yazdırılacak sayfalardan bazıları zaten Yandex ve Google'da indekslenmişse), aynı Printpage.template.php dosyasında HEAD açılış etiketini içeren bir satır bulursunuz:

Bu dosya çeşidi hakkında daha fazla bilgi edinin SMF forumu için robots.txt Rusça SMF destek forumunun bu başlığını okuyabilirsiniz.

Joomla sitesi için robots.txt dosyasını düzeltme

Robots.txt, sitenin kök dizininde bulunan özel bir dosyadır. Web yöneticisi, hangi sayfaların ve verilerin arama motorları tarafından dizine eklenmesinin dışında tutulacağını belirtir. Dosya, sitenin bölümlerine erişimi açıklayan yönergeleri içerir (sözde robot istisna standardı). Örneğin, amaçlanan arama robotları için çeşitli erişim ayarlarını belirlemek için kullanılabilir. mobil cihazlar Ve normal bilgisayarlar. Doğru şekilde ayarlamak çok önemlidir.

robots.txt gerekli mi?

robots.txt ile şunları yapabilirsiniz:

  • Tarama sınırını (bir arama robotunun tek bir taramada tarayabileceği URL sayısı) boşa harcamamak için benzer ve gereksiz sayfaların dizine eklenmesini yasaklayın. Onlar. robot daha önemli sayfaları indeksleyebilecek.
  • görselleri arama sonuçlarından gizleyin.
  • önemsiz komut dosyalarını, stil dosyalarını ve diğer kritik olmayan sayfa kaynaklarını indekslemeden kapatın.

Bu, Google veya Yandex tarayıcısının sayfaları analiz etmesini engelleyecekse dosyaları engellemeyin.

Robots.txt dosyası nerede bulunur?

Sadece robots.txt dosyasında ne olduğunu görmek istiyorsanız şunu girin: adres çubuğu tarayıcı: site.ru/robots.txt.

Fiziksel olarak robots.txt dosyası, barındırmadaki sitenin kök klasöründe bulunur. Beget.ru hostingim var, bu yüzden bu hostingde robots.txt dosyasının konumunu göstereceğim.


Doğru robots.txt nasıl oluşturulur?

Robots.txt dosyası bir veya daha fazla kuraldan oluşur. Her kural sitede yol indekslenmesini engeller veya buna izin verir.

  1. Bir metin düzenleyicide robots.txt adında bir dosya oluşturun ve bu dosyayı aşağıdaki kurallara göre doldurun.
  2. Robots.txt dosyası ASCII veya UTF-8 kodlu bir metin dosyası olmalıdır. Diğer kodlamalardaki karakterlere izin verilmez.
  3. Sitede böyle bir dosyanın yalnızca bir tane olması gerekir.
  4. Robots.txt dosyası şuraya yerleştirilmelidir: kök dizin alan. Örneğin, http://www.example.com/ sitesindeki tüm sayfaların dizine eklenmesini kontrol etmek için robots.txt dosyasının http://www.example.com/robots.txt konumunda bulunması gerekir. Bir alt dizinde olmamalıdır(örneğin, adreste http://example.com/pages/robots.txt). Kök dizine erişimde zorluk yaşıyorsanız barındırma sağlayıcınızla iletişime geçin. Sitenin kök dizinine erişiminiz yoksa meta etiketler gibi alternatif bir engelleme yöntemi kullanın.
  5. Robots.txt dosyası şu adreslere eklenebilir: alt alanlar(örneğin http:// web sitesi.example.com/robots.txt) veya standart olmayan bağlantı noktaları (örneğin, http://example.com: 8181 /robots.txt).
  6. Yandex.Webmaster hizmetindeki dosyayı kontrol edin ve Google Arama Konsol.
  7. Dosyayı sitenizin kök dizinine yükleyin.

Burada iki kural içeren örnek bir robots.txt dosyası verilmiştir. Aşağıda onun açıklaması var.

Kullanıcı aracısı: Googlebot İzin Verme: /nogooglebot/ Kullanıcı aracısı: * İzin ver: / Site Haritası: http://www.example.com/sitemap.xml

Açıklama

  1. Googlebot adlı bir kullanıcı aracısı http://example.com/nogooglebot/ dizinini ve alt dizinlerini dizine eklememelidir.
  2. Diğer tüm kullanıcı aracılarının sitenin tamamına erişimi vardır (ihmal edilebilir, varsayılan olarak tam erişim verildiğinden sonuç aynı olacaktır).
  3. Bu sitenin Site Haritası dosyası http://www.example.com/sitemap.xml adresinde bulunur.

İzin Verme ve İzin Verme yönergeleri

Siteye veya bazı bölümlerine indekslemeyi ve robot erişimini engellemek için İzin Verme yönergesini kullanın.

Kullanıcı aracısı: Yandex İzin Verme: / # sitenin tamamına erişimi engeller Kullanıcı aracısı: Yandex İzin Verme: /cgi-bin # "/cgi-bin" ile başlayan # sayfalara erişimi engeller

Standarda göre her Kullanıcı aracısı yönergesinden önce boş bir satır beslemesi eklenmesi önerilir.

# sembolü yorumları tanımlamak için tasarlanmıştır. Bu karakterden sonraki ve ilk satır sonundan önceki her şey dikkate alınmaz.

Robotun siteye veya bazı bölümlerine erişmesine izin vermek için İzin Ver yönergesini kullanın.

Kullanıcı aracısı: Yandex İzin Ver: /cgi-bin İzin Verme: / #, "/cgi-bin" ile başlayan # sayfalar dışındaki her şeyin indirilmesini yasaklar

Kullanıcı aracısı, Disallow ve Allow direktifleri arasında boş satır sonlarına izin verilmez.

İlgili Kullanıcı aracısı bloğundaki İzin Ver ve İzin Verme yönergeleri, URL önekinin uzunluğuna göre (en küçükten en büyüğe) sıralanır ve sırayla uygulanır. Belirli bir site sayfası için birden fazla yönerge uygunsa robot, sıralı listede görünüm sırasına göre sonuncusunu seçer. Dolayısıyla robots.txt dosyasındaki yönergelerin sırası, robotun bunları nasıl kullandığını etkilemez. Örnekler:

# Orijinal robots.txt: Kullanıcı aracısı: Yandex İzin Ver: /catalog İzin Verme: / # Sıralanmış robots.txt: Kullanıcı aracısı: Yandex İzin Verme: / İzin Ver: /catalog # Yalnızca "/catalog" ile başlayan # sayfaların indirilmesine izin verir # Orijinal robots.txt: Kullanıcı aracısı: Yandex İzin Ver: / İzin Ver: /catalog/auto İzin Verme: /catalog # Sıralanmış robots.txt: Kullanıcı aracısı: Yandex İzin Ver: / İzin Verme: /catalog İzin Ver: /catalog/auto # sayfaların indirilmesini yasaklar "/catalog" # ile başlar ancak "/catalog/auto" ile başlayan sayfaların indirilmesine izin verir.

Ön ekleri aynı uzunlukta olan iki yönerge arasında çelişki olması durumunda Allow yönergesi öncelikli olur.

* ve $ özel karakterlerini kullanma

Allow ve Disallow direktiflerinin yollarını belirtirken * ve $ özel karakterlerini kullanabilir, böylece belirli normal ifadeleri belirtebilirsiniz.

Özel karakter * herhangi bir (boş dahil) karakter dizisi anlamına gelir.

$ özel karakteri satırın sonunu, ondan önceki karakterin sonuncu olduğunu ifade eder.

Kullanıcı aracısı: Yandex İzin Verme: /cgi-bin/*.aspx # "/cgi-bin/example.aspx" # ve "/cgi-bin/private/test.aspx" yasaklar İzin Verme: /*private # yalnızca yasaklamaz "/private", # ama aynı zamanda "/cgi-bin/private"

Site Haritası Direktifi

Kullanarak bir site yapısı açıklaması kullanıyorsanız Site haritası dosyası, site haritası direktifinin parametresi olarak dosyanın yolunu belirtin (birden fazla dosya varsa tümünü belirtin). Örnek:

Kullanıcı aracısı: Yandex İzin Ver: / site haritası: https://example.com/site_structure/my_sitemaps1.xml site haritası: https://example.com/site_structure/my_sitemaps2.xml

Yönerge kesişimsel olduğundan, robots.txt dosyasında belirtildiği yere bakılmaksızın robot tarafından kullanılacaktır.

Robot dosyanın yolunu hatırlayacak, verileri işleyecek ve sonuçları sonraki indirme oturumlarında kullanacaktır.

Tarama gecikmesi yönergesi

Sunucu çok yüklüyse ve robotun isteklerini işlemek için zamanı yoksa Crawl-delay yönergesini kullanın. Arama robotuna, bir sayfanın yüklenmesinin sonu ile bir sonrakinin yüklenmesinin başlangıcı arasındaki minimum süreyi (saniye cinsinden) ayarlamanıza olanak tanır.

Site tarama hızını değiştirmeden önce robotun hangi sayfalara daha sık eriştiğini öğrenin.

  • Sunucu günlüklerini analiz edin. Siteden veya barındırma sağlayıcısından sorumlu kişiyle iletişime geçin.
  • Yandex.Webmaster'daki Dizin Oluşturma → Tarama istatistikleri sayfasındaki URL listesine bakın (düğmeyi Tüm sayfalar olarak ayarlayın).

Robotun hizmet sayfalarına eriştiğini fark ederseniz Disallow yönergesini kullanarak bu sayfaların robots.txt dosyasında dizine eklenmesini engelleyin. Bu, robottan gelen gereksiz çağrıların sayısını azaltmaya yardımcı olacaktır.

Clean-param direktifi

Yönerge yalnızca Yandex robotuyla çalışır.

Site sayfası adresleri, içeriklerini etkilemeyen dinamik parametreler içeriyorsa (oturum tanımlayıcıları, kullanıcılar, yönlendirenler vb.), bunları Clean-param yönergesini kullanarak tanımlayabilirsiniz.

Yandex Robot bu yönergeyi kullanarak yinelenen bilgileri tekrar tekrar yüklemeyecektir. Bu, sitenizi tarama verimliliğini artıracak ve sunucudaki yükü azaltacaktır.

Örneğin, sitede sayfalar var:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123

Ref parametresi yalnızca isteğin hangi kaynaktan yapıldığını izlemek için kullanılır ve içeriği değiştirmez; üç adreste de kitap_id=123 ile aynı sayfa gösterilecektir. Daha sonra yönergeyi şu şekilde belirtirseniz:

Kullanıcı aracısı: Yandex İzin Verme: Temiz parametre: ref /some_dir/get_book.pl

Yandex robotu tüm sayfa adreslerini bire indirecektir:

www.example.com/some_dir/get_book.pl?book_id=123

Sitede böyle bir sayfa mevcutsa arama sonuçlarına dahil edilecektir.

Direktif Sözdizimi

Temiz parametre: p0[&p1&p2&..&pn]

& ile ayrılmış ilk alan, robotun dikkate alması gerekmeyen parametreleri listeler. İkinci alan, kuralın uygulanması gereken sayfaların yol önekini belirtir.

Not. Clean-Param yönergesi kesitsel olduğundan robots.txt dosyasının herhangi bir yerinde belirtilebilir. Birden fazla direktif belirtilirse robot bunların hepsini dikkate alacaktır.

Önek şunları içerebilir: düzenli ifade robots.txt dosyasına benzer bir formattadır ancak bazı kısıtlamalara sahiptir: yalnızca A-Za-z0-9.-/*_ karakterleri kullanılabilir. Bu durumda * sembolü, robots.txt dosyasındakiyle aynı şekilde yorumlanır: * sembolü her zaman örtülü olarak önekin sonuna eklenir. Örneğin:

Temiz parametre: s /forum/showthread.php

Durum dikkate alınır. Kuralın uzunluğu konusunda bir sınır vardır: 500 karakter. Örneğin:

Temizleme parametresi: abc /forum/showthread.php Temizleme parametresi: sid&sort /forum/*.php Temizleme parametresi: someTrash&otherTrash

HOST direktifi

Şu anda Yandex bu yönergeyi desteklemeyi bırakmıştır.

Robots.txt dosyasını düzeltin: ayar

Robots.txt dosyasının içeriği sitenin türüne (çevrimiçi mağaza, blog), kullanılan CMS'ye, yapı özelliklerine ve bir dizi başka faktöre bağlı olarak farklılık gösterir. Bu nedenle ticari bir web sitesi için bu dosyanın oluşturulması, özellikle karmaşık bir proje ise, yeterli deneyime sahip bir SEO uzmanı tarafından yapılmalıdır.

Hazırlıksız bir kişi, içeriğin hangi bölümünün dizine eklenmesinin daha iyi olduğu ve hangi bölümün arama sonuçlarında görünmesine izin verileceği konusunda büyük olasılıkla doğru kararı veremeyecektir.

WordPress için doğru Robots.txt örneği

Kullanıcı aracısı: *# genel kurallar Yandex ve Google dışındaki robotlar için # çünkü onlar için kurallar aşağıdadır Disallow: /cgi-bin # barındırmadaki klasör Disallow: /? # ana sayfadaki tüm istek parametreleri İzin verme: /wp- # tüm WP dosyaları: /wp-json/, /wp-includes, /wp-content/plugins İzin verme: /wp/ # eğer bir /wp/ alt dizini varsa burada CMS kurulu (eğer değilse, # kural silinebilir) İzin verme: *?s= # arama İzin verme: *&s= # arama İzin verme: /arama/ # arama İzin verme: /yazar/ # yazar arşivi İzin verme: /users/ # yazar arşivi İzin verme: */ geri izleme # geri izlemeler, yorumlarda bir makaleye giden açık # bağlantının görünümüyle ilgili bildirimler İzin verme: */feed # tüm yayınlar İzin verme: */rss # rss beslemesi İzin verme: */embed # tüm yerleştirmelere İzin verme : */wlwmanifest.xml # xml manifest dosyası Windows Live Writer (eğer kullanmazsanız # kural silinebilir) Disallow: /xmlrpc.php # WordPress dosyası API İzin Verme: *utm*= # utm etiketli bağlantılar İzin verme: *openstat= # openstat etiketli bağlantılar İzin ver: */uploads # yüklenen dosyaları içeren klasörü aç Site Haritası: http://site.ru/sitemap.xml # harita adresi site Kullanıcı aracısı: GoogleBot # Google için kurallar (Yorumları kopyalamıyorum) İzin Verme: /cgi-bin İzin Verme: /? İzin verme: /wp- İzin verme: /wp/ İzin verme: *?s= İzin verme: *&s= İzin verme: /arama/ İzin verme: /author/ İzin verme: /users/ İzin verme: */geri izleme İzin verme: */feed İzin verme: */ rss İzin Verme: */embed İzin Verme: */wlwmanifest.xml İzin Verme: /xmlrpc.php İzin Verme: *utm*= İzin Verme: *openstat= İzin Ver: */uploads İzin Ver: /*/*.js # js komut dosyalarını / wp içinde aç - (/*/ - öncelik için) İzin ver: /*/*.css # css dosyalarını /wp- içinde aç (/*/ - öncelik için) İzin ver: /wp-*.png # eklentilerdeki, önbellek klasöründeki vb. resimler. İzin ver: /wp-*.jpg # eklentilerdeki, önbellek klasöründeki vb. resimler. İzin ver: /wp-*.jpeg # eklentilerdeki, önbellek klasöründeki vb. resimler. İzin ver: /wp-*.gif # eklentilerdeki, önbellek klasöründeki vb. resimler. İzin ver: /wp-admin/admin-ajax.php # JS ve CSS'yi engellememek için eklentiler tarafından kullanılır Kullanıcı aracısı: Yandex # Yandex için kurallar (Yorumları kopyalamıyorum) İzin Verme: /cgi-bin İzin Verme: /? İzin verme: /wp- İzin verme: /wp/ İzin verme: *?s= İzin verme: *&s= İzin verme: /arama/ İzin verme: /author/ İzin verme: /users/ İzin verme: */geri izleme İzin verme: */feed İzin verme: */ rss İzin Verme: */embed İzin Verme: */wlwmanifest.xml İzin Verme: /xmlrpc.php İzin Ver: */uploads İzin Ver: /*/*.js İzin Ver: /*/*.css İzin Ver: /wp-*.png İzin Ver: /wp-*.jpg İzin Ver: /wp-*.jpeg İzin Ver: /wp-*.gif İzin Ver: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Yandex, #'in indekslenmesini engellememeyi, aksine silmeyi önerir etiket parametreleri, # Google bu tür kuralları desteklemiyor Clean-Param: openstat # benzer

Joomla için Robots.txt örneği

Kullanıcı aracısı: *
İzin verme: /yönetici/
İzin verme: /cache/
İzin verme: /içerir/
İzin verme: /kurulum/
İzin verme: /dil/
İzin verme: /kütüphaneler/
İzin verme: /medya/
İzin verme: /modules/
İzin verme: /eklentiler/
İzin verme: /şablonlar/
İzin verme: /tmp/
İzin verme: /xmlrpc/

Bitrix için Robots.txt örneği

Kullanıcı aracısı: *
İzin verme: /*index.php$
İzin verme: /bitrix/
İzin verme: /auth/
İzin verme: /kişisel/
İzin verme: /upload/
İzin verme: /arama/
İzin verme: /*/arama/
İzin verme: /*/slide_show/
İzin verme: /*/gallery/*order=*
İzin verme: /*?print=
İzin verme: /*&print=
İzin verme: /*register=
İzin verme: /*forgot_password=
İzin verme: /*change_password=
İzin verme: /*login=
İzin verme: /*çıkış=
İzin verme: /*auth=
İzin verme: /*?action=
İzin verme: /*action=ADD_TO_COMPARE_LIST
İzin verme: /*action=DELETE_FROM_COMPARE_LIST
İzin verme: /*action=ADD2BASKET
İzin verme: /*action=SATIN AL
İzin verme: /*bitrix_*=
İzin verme: /*backurl=*
İzin verme: /*BACKURL=*
İzin verme: /*back_url=*
İzin verme: /*BACK_URL=*
İzin verme: /*back_url_admin=*
İzin verme: /*print_course=Y
İzin verme: /*COURSE_ID=
İzin verme: /*?COURSE_ID=
İzin verme: /*?PAGEN
İzin verme: /*PAGEN_1=
İzin verme: /*PAGEN_2=
İzin verme: /*PAGEN_3=
İzin verme: /*PAGEN_4=
İzin verme: /*PAGEN_5=
İzin verme: /*PAGEN_6=
İzin verme: /*PAGEN_7=

İzin verme: /*PAGE_NAME=arama
İzin verme: /*PAGE_NAME=user_post
İzin verme: /*PAGE_NAME=detail_slide_show
İzin verme: /*SHOWALL
İzin verme: /*show_all=
Site Haritası: http://haritanızın yolu XML biçimi

MODx için Robots.txt örneği

Kullanıcı aracısı: *
İzin verme: /assets/cache/
İzin verme: /assets/docs/
İzin verme: /assets/export/
İzin verme: /assets/import/
İzin verme: /assets/modules/
İzin verme: /assets/plugins/
İzin verme: /assets/snippet'ler/
İzin verme: /install/
İzin verme: /yönetici/
Site haritası: http://site.ru/sitemap.xml

Drupal için Robots.txt örneği

Kullanıcı aracısı: *
İzin verme: /veritabanı/
İzin verme: /içerir/
İzin verme: /misc/
İzin verme: /modules/
İzin verme: /siteler/
İzin verme: /temalar/
İzin verme: /scripts/
İzin verme: /güncellemeler/
İzin verme: /profiller/
İzin verme: /profil
İzin verme: /profil/*
İzin verme: /xmlrpc.php
İzin verme: /cron.php
İzin verme: /update.php
İzin verme: /install.php
İzin verme: /index.php
İzin verme: /admin/
İzin verme: /yorum/yanıt/
İzin verme: /contact/
İzin verme: /çıkış/
İzin verme: /arama/
İzin verme: /user/register/
İzin verme: /kullanıcı/şifre/
İzin verme: *kayıt ol*
İzin verme: *giriş yap*
İzin verme: /en çok oy alan-
İzin verme: /mesajlar/
İzin verme: /book/export/
İzin verme: /user2userpoints/
İzin verme: /kullanıcı puanlarım/
İzin verme: /tagadelic/
İzin verme: /yönlendirme/
İzin verme: /toplayıcı/
İzin verme: /files/pin/
İzin verme: /oylarınız
İzin verme: /yorumlar/en son
İzin verme: /*/düzenle/
İzin verme: /*/delete/
İzin verme: /*/dışa aktarma/html/
İzin verme: /taxonomy/term/*/0$
İzin verme: /*/düzenle$
İzin verme: /*/outline$
İzin verme: /*/revizyonlar$
İzin verme: /*/iletişim$
İzin verme: /*indirme borusu
İzin verme: /node$
İzin verme: /node/*/track$
İzin verme: /*&
İzin verme: /*%
İzin verme: /*?page=0
İzin verme: /*bölüm
İzin verme: /*sipariş
İzin verme: /*?sırala*
İzin verme: /*&sırala*
İzin verme: /*votesupdown
İzin verme: /*takvim
İzin verme: /*index.php
İzin ver: /*?page=
İzin verme: /*?
Site Haritası: http://XML formatı haritanızın yolu

DİKKAT!

CMS sürekli güncellenmektedir. Diğer sayfaların indekslenmesini engellemeniz gerekebilir. Amaca bağlı olarak indeksleme yasağı kaldırılabilir veya tam tersine eklenebilir.

robots.txt'yi kontrol edin

Robots.txt dosyasının tasarımı için her arama motorunun kendi gereksinimleri vardır.

İçin robots.txt'yi kontrol edin Dosyanın sözdiziminin ve yapısının doğruluğunu kontrol etmek için çevrimiçi hizmetlerden birini kullanabilirsiniz. Örneğin, Yandex ve Google, web yöneticileri için kendi site analiz hizmetlerini sunmaktadır. robots.txt analizi:

Yandex arama robotu için robotx.txt kontrol ediliyor

Bu kullanılarak yapılabilir özel alet Yandex'den - Yandex.Webmaster, ayrıca iki seçenekle.

Seçenek 1:

Sağ üstteki açılır liste - seçin Robots.txt analizi veya http://webmaster.yandex.ru/robots.xml bağlantısını takip edin

Robots.txt dosyasında yapacağınız tüm değişikliklerin hemen geçerli olmayacağını, ancak bir süre sonra geçerli olacağını unutmayın.

Google arama robotu için robotx.txt kontrol ediliyor

  1. Google Search Console'da sitenizi seçin, inceleme aracına gidin ve robots.txt dosyanızın içeriğini inceleyin. Sözdizimsel Ve mantıksal içindeki hatalar vurgulanacak ve bunların sayısı düzenleme penceresinin altında belirtilecektir.
  2. Arayüz sayfasının alt kısmındaki uygun pencerede istediğiniz URL'yi belirtin.
  3. Sağdaki açılır menüden seçin robot.
  4. Düğmeye tıklayın KONTROL ETMEK.
  5. Durum görüntülenecek MEVCUT veya MÜSAİT DEĞİL. İlk durumda Google robotları belirttiğiniz adrese gidebilir ancak ikinci durumda gidemezler.
  6. Gerekirse menüde değişiklik yapın ve testi yeniden gerçekleştirin. Dikkat! Bu düzeltmeler sitenizdeki robots.txt dosyasına otomatik olarak eklenmez.
  7. Değiştirilen içeriği kopyalayın ve web sunucunuzdaki robots.txt dosyasına ekleyin.

Yandex ve Google'ın doğrulama hizmetlerine ek olarak, başka birçok çevrimiçi hizmet de var robots.txt doğrulayıcıları.

Robots.txt oluşturucuları

  1. SEOlib.ru'dan hizmet Yardımı ile. bu enstrümanın Robots.txt dosyasındaki kısıtlamaları hızla alıp kontrol edebilirsiniz.
  2. pr-cy.ru'dan oluşturucu Robots.txt oluşturucunun bir sonucu olarak, Robots.txt adlı bir dosyaya kaydedilmesi ve sitenizin kök dizinine yüklenmesi gereken metni alacaksınız.

Belirli bir sorgu dizesi içeren sayfaları (her biri kendi adresine sahip olan kullanıcı için benzersiz raporlar) arama motorları tarafından dizine eklenmesinin dışında bırakma göreviyle karşı karşıya kaldım. Bu sorunu kendim çözdüm ve ayrıca site dizine eklemeye izin verme ve yasaklama sorunlarını tam olarak anlamaya karar verdim. Bu materyal buna adanmıştır. Yalnızca robots.txt için gelişmiş kullanım örneklerini değil, aynı zamanda site dizine eklemeyi kontrol etmenin daha az bilinen diğer yollarını da kapsar.

İnternette, belirli klasörlerin arama motorları tarafından indekslenmesinin nasıl hariç tutulacağına dair birçok örnek vardır. Ancak, hepsini değil, yalnızca belirtilen parametreleri içeren sayfaları hariç tutmanız gerektiğinde bir durum ortaya çıkabilir.

Parametrelerin bulunduğu örnek sayfa: site.ru/?act=report&id=7a98c5

Burada davranmak değeri olan değişkenin adıdır rapor, Ve İD- bu aynı zamanda değeri olan bir değişkendir 7a98c5. Onlar. sorgu dizesi (parametreler) soru işaretinden sonra gelir.

Parametreli sayfaların indekslenmesini engellemenin birkaç yolu vardır:

  • robots.txt dosyasını kullanma
  • .htaccess dosyasındaki kuralları kullanma
  • robots meta etiketini kullanma

Robots.txt dosyasındaki indekslemeyi kontrol etme

Robots.txt dosyası

Dosya robots.txt sitenin kök dizininde (klasöründe) bulunan ve bir veya daha fazla giriş içeren basit bir metin dosyasıdır. Dosya içeriğinin tipik örneği:

Kullanıcı aracısı: * İzin verme: /cgi-bin/ İzin verme: /tmp/ İzin verme: /~joe/

Bu dosyada üç dizin indekslemenin dışında bırakılır.

Şu satırı unutmayın: " İzin verme Hariç tutmak istediğiniz her URL öneki için " ayrı ayrı yazılmalıdır. Yani " yazamazsınız. İzin verme: /cgi-bin/ /tmp/" tek satıra. Boş satırların özel anlamını da unutmayın; bunlar kayıt bloklarını ayırır.

Normal ifadeler hiçbir dizede desteklenmez Kullanıcı aracısı, ne de İzin verme.

Robots.txt dosyası sitenizin kök klasöründe bulunmalıdır. Sözdizimi aşağıdaki gibidir:

Kullanıcı aracısı: * İzin verme: /klasör veya sayfanın indekslenmesi yasaktır İzin Verme: /diğer klasör

Değer olarak Kullanıcı aracısı belirtilen * (yıldız işareti) - bu herhangi bir değerle eşleşir; Kurallar tüm arama motorlarına yöneliktir. Yıldız işareti yerine, kuralın amaçlandığı belirli arama motorunun adını belirtebilirsiniz.

Birden fazla direktif belirtilebilir İzin verme.

robots.txt dosyanızda joker karakterler kullanabilirsiniz:

  • * herhangi bir geçerli karakterin 0 veya daha fazla örneğini belirtir. Onlar. bu, boş bir dize de dahil olmak üzere herhangi bir dizedir.
  • $ URL'nin sonunu işaretler.

&, ?, = vb. dahil olmak üzere diğer karakterler. kelimenin tam anlamıyla anlaşılmaktadır.

Robots.txt kullanılarak bir sayfanın belirli parametrelerle indekslenmesinin yasaklanması

Bu yüzden (yerine) gibi adresleri engellemek istiyorum ANLAM herhangi bir dize olabilir): site.ru/?act=report&id=VALUE

Bunun kuralı şudur:

Kullanıcı aracısı: * İzin verme: /*?*act=report&id=*

İçinde / (eğik çizgi) sitenin kök klasörü anlamına gelir ve ardından * (yıldız işareti), "herhangi bir şey" anlamına gelir. Onlar. bu herhangi bir göreceli adres olabilir, örneğin:

  • /sayfa.php
  • /sipariş/yeni/kimlik

Sonra takip eder ? (soru işareti), kelimenin tam anlamıyla yorumlanır, yani. soru işareti gibi. Bu nedenle, aşağıda sorgu satırı yer almaktadır.

Saniye * sorgu dizesinde her şeyin olabileceği anlamına gelir.

Sonra bir dizi karakter geliyor hareket=rapor&id=*, içinde hareket=rapor&id= kelimenin tam anlamıyla olduğu gibi yorumlanır ve son yıldız işareti yine herhangi bir satır anlamına gelir.

Arama motorları tarafından indekslemenin yasaklanması, ancak reklam ağlarının tarayıcılarına izin verilmesi

Sitenizin arama motorları için dizine eklenmesini veya belirli bölümlerini kapattıysanız, bu sitelerde AdSense reklamları gösterilmeyecektir! İndekslenmeye kapatılan sayfalara reklam yerleştirmek diğer ortaklık ağlarında ihlal olarak değerlendirilebilir.

Bunu düzeltmek için dosyanın en başına ekleyin robots.txt aşağıdaki satırlar:

Kullanıcı aracısı: Mediapartners-Google İzin Verme: Kullanıcı aracısı: AdsBot-Google* İzin Verme: Kullanıcı Aracısı: YandexDirect İzin Verme:

Bu çizgilerle botlara izin veriyoruz Mediapartners-Google, AdsBot-Google* Ve YandexDirect siteyi indeksleyin.

Onlar. benim durumuma ilişkin robots.txt dosyası şöyle görünüyor:

Kullanıcı aracısı: Mediapartners-Google İzin Verme: Kullanıcı aracısı: AdsBot-Google* İzin Verme: Kullanıcı Aracısı: YandexDirect İzin Verme: Kullanıcı aracısı: * İzin Verme: /*?*act=report&id=*

Sorgu dizesi içeren tüm sayfaların dizine eklenmesini engelle

Bu şu şekilde yapılabilir:

Kullanıcı aracısı: * İzin verme: /*?*

Bu örnek, URL'de yer alan tüm sayfaları engeller ? (soru işareti).

Unutmayın: alan adından hemen sonra bir soru işareti, ör. site.ru/? bir dizin sayfasına eşdeğerdir, bu nedenle bu kurala dikkat edin.

GET yöntemiyle iletilen belirli bir parametreye sahip sayfaların indekslenmesinin yasaklanması

Örneğin, sorgu dizesinde parametreyi içeren URL'leri engellemeniz gerekir emir, aşağıdaki kural bunun için uygundur:

Kullanıcı aracısı: * İzin verme: /*?*order=

Çeşitli parametrelerden herhangi birine sahip sayfaların indekslenmesini önleyin

Diyelim ki sorgu dizesi veya parametre içeren sayfaların dizine eklenmesini engellemek istiyoruz yön veya parametre emir veya parametre P. Bunu yapmak için, engelleme seçeneklerinin her birini ayrı kurallarda listeleyin, örneğin:

Kullanıcı aracısı: * İzin Verme: /*?*dir= İzin Verme: /*?*order= İzin Verme: /*?*p=

Arama motorlarının, URL'lerinde çeşitli spesifik parametreler bulunan sayfaları dizine eklemesi nasıl önlenir?

Örneğin, sorgu dizesindeki içerik parametresini sayfanın indekslenmesinden hariç tutmanız gerekir yön, parametre emir ve parametre P. Örneğin, bu URL'ye sahip bir sayfanın dizine eklenmesinin dışında tutulması gerekir: mydomain.com/new-printers?dir=asc&order=price&p=3

Bu, direktif kullanılarak elde edilebilir:

Kullanıcı aracısı: * İzin verme: /*?dir=*&order=*&p=*

Sürekli değişebilecek parametre değerleri yerine yıldız işaretlerini kullanın. Bir parametre her zaman aynı değere sahipse, harfi harfine yazılışını kullanın.

Bir sitenin indekslenmesi nasıl engellenir

Tüm robotların sitenin tamamını dizine eklemesini önlemek için:

Kullanıcı aracısı: * İzin verme: /

Tüm robotların tam erişimine izin ver

Tüm robotlara siteyi dizine ekleme konusunda tam erişim vermek için:

Kullanıcı aracısı: * İzin verme:

Ya boş bir /robots.txt dosyası oluşturun ya da hiç kullanmayın; varsayılan olarak, indekslenmesi yasak olmayan her şey açık olarak kabul edilir. Bu nedenle boş bir dosya veya onun yokluğu, tam indeksleme izni anlamına gelir.

Tüm arama motorlarının sitenin bir kısmını indekslemesinin yasaklanması

Sitenin bazı bölümlerini tüm robotlardan kapatmak için, değerleri kendi değerlerinizle değiştiren aşağıdaki türdeki yönergeleri kullanın:

Kullanıcı aracısı: * İzin verme: /cgi-bin/ İzin verme: /tmp/ İzin verme: /junk/

Bireysel robotların engellenmesi

Bireysel robotlara erişimi reddetmek ve arama motorları, satırda robot adını kullanın Kullanıcı aracısı. İÇİNDE bu örnekte erişim engellendi BadBot:

Kullanıcı aracısı: BadBot İzin Verme: /

Unutmayın: birçok robot robots.txt dosyasını yok sayar; dolayısıyla bu, bir sitenin veya bir kısmının dizine eklenmesini durdurmanın güvenilir bir yolu değildir.

Sitenin bir arama motoru tarafından dizine eklenmesine izin ver

Diyelim ki siteyi yalnızca Google'ın dizine eklemesine izin vermek ve diğer arama motorlarına erişimi engellemek istiyoruz, ardından şunu yapın:

Kullanıcı aracısı: Google İzin Verme: Kullanıcı aracısı: * İzin Verme: /

İlk iki satır, Google robotunun siteyi dizine eklemesine izin verir ve son iki satır, diğer tüm robotların bunu yapmasını yasaklar.

Biri hariç tüm dosyaların indekslenmesinin yasaklanması

Direktif İzin vermek Belirtilen arama robotlarının erişebilmesi gereken yolları tanımlar. Yol belirtilmezse dikkate alınmaz.

Kullanımı:

İzin ver: [yol]

Önemli: İzin vermekönce takip etmelisin İzin verme.

Not: İzin vermek standardın bir parçası değildir ancak birçok popüler arama motoru bunu desteklemektedir.

Alternatif olarak, kullanarak İzin verme bir dosya veya bir klasör dışında tüm klasörlere erişimi reddedebilirsiniz.

robots.txt dosyasının çalışması nasıl kontrol edilir

İÇİNDE Yandex.Web Yöneticisi Dosyanızın robots.txt dosyasına göre belirli URL'lere izin verilip verilmediğini kontrol etmek için bir araç vardır.

Bunu yapmak için sekmeye gidin Aletler, seçme Robots.txt analizi. Bu dosya otomatik olarak indirilmelidir; eski bir sürüm varsa, ardından düğmeye tıklayın. Kontrol etmek:

Daha sonra sahaya URL'lere izin veriliyor mu? kontrol etmek istediğiniz adresleri girin. Aynı anda birçok adres girebilirsiniz, her birinin yeni bir satıra yerleştirilmesi gerekir. Her şey hazır olduğunda düğmeye basın Kontrol etmek.

Sütunda Sonuç Eğer URL adresi Arama robotları tarafından indekslenmeye kapalıysa kırmızı ışıkla, açıksa yeşil ışıkla işaretlenecektir.

İÇİNDE Arama Konsolu buna benzer bir araç var. Bu sekmede Tarama. İsminde Robots.txt dosyası inceleme aracı.

Robots.txt dosyasını güncellediyseniz düğmesine tıklayın. Göndermek ve ardından açılan pencerede düğmeye tekrar tıklayın. Göndermek:

Bundan sonra sayfayı yeniden yükleyin (F5 tuşu):

Doğrulama adresini girin, botu seçin ve düğmeye tıklayın Kontrol etmek:

Robots meta etiketini kullanarak sayfa dizine eklemeyi yasaklama

Sayfanın dizine eklenmesini kapatmak istiyorsanız, etikette şunu yazın:

Hangi tür dosyaların indekslenmesinin yasak olduğunu belirtmek için.

Örneğin, .PDF uzantılı tüm dosyaların indekslenmesinin yasaklanması:

Başlık seti X-Robots-Tag "noindex, nofollow"

Tüm resim dosyalarının (.png, .jpeg, .jpg, .gif) indekslenmesi yasağı:

Başlık seti X-Robots-Tag "noindex"

mod_rewrite kullanarak arama motorlarına erişimi engelleme

Aslında yukarıda açıklananların tümü, arama motorlarının ve yasaklı robotların sitenize erişemeyeceğini ve dizine eklemeyeceğini GARANTİ VERMEZ. Robots.txt dosyasına "saygı duyan" robotlar var ve onu görmezden gelenler de var.

mod_rewrite kullanarak belirli botların erişimini engelleyebilirsiniz

RewriteCond'da RewriteEngine %(HTTP_USER_AGENT) Google RewriteCond %(HTTP_USER_AGENT) Yandex RewriteRule ^ - [F]

Yukarıdaki direktifler sitenin tamamı için Google ve Yandex robotlarına erişimi engelleyecektir.

rapor/

RewriteCond'da RewriteEngine %(HTTP_USER_AGENT) Google RewriteCond %(HTTP_USER_AGENT) Yandex RewriteRule ^report/ - [F]

Mod_rewrite kullanarak arama motorlarının bir sitenin ayrı sayfalarına ve bölümlerine erişimini engellemek istiyorsanız, yorumları yazın ve sorularınızı sorun - daha fazla örnek hazırlayacağım.

“ üzerine 13 gözlem URL'de belirli parametrelere sahip sayfaları indekslemenin dışında tutma ve arama motorları tarafından site indekslemeyi kontrol etmeye yönelik diğer teknikler
  1. Taras

    anlam olarak en yakın olanı, ancak işte klasör

    Örneğin indeksleme için yalnızca bir klasörü kapatmanız gerekiyorsa rapor/, ardından aşağıdaki yönergeler Google ve Yandex tarayıcıları için bu klasöre erişimi tamamen engelleyecektir (403 Erişim Reddedildi yanıt kodu verilecektir).

Bu kılavuzun amacı web yöneticilerinin ve yöneticilerin robots.txt'yi kullanmalarına yardımcı olmaktır.

giriiş

Robot muafiyet standardı özünde çok basittir. Kısaca şu şekilde çalışır:

Standardı takip eden bir robot bir siteyi ziyaret ettiğinde öncelikle “/robots.txt” isimli dosyayı talep eder. Böyle bir dosya bulunursa Robot, sitenin belirli bölümlerinin indekslenmesini yasaklayan talimatlar için bu dosyada arama yapar.

robots.txt dosyasının yerleştirileceği yer

Robot, sitenizdeki "/robots.txt" URL'sini ister; bu durumda site, belirli bir bağlantı noktasındaki belirli bir ana bilgisayardır.

Site URL'si Robots.txt dosya URL'si
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

Sitede yalnızca tek bir “/robots.txt” dosyası bulunabilir. Örneğin, robots.txt dosyasını kullanıcı alt dizinlerine yerleştirmemelisiniz; robotlar zaten onları orada aramayacaktır. Alt dizinlerde robots.txt dosyaları oluşturabilmek istiyorsanız bunları program aracılığıyla sitenin kökünde bulunan tek bir robots.txt dosyasında toplamanın bir yoluna ihtiyacınız vardır. Kullanabilirsiniz.

URL'lerin büyük/küçük harfe duyarlı olduğunu ve "/robots.txt" dosya adının tamamen küçük harfle yazılması gerektiğini unutmayın.

robots.txt dosyasının yanlış konumu
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt Dosya sitenin kökünde bulunmuyor
ftp://ftp.w3.com/robots.txt Robotlar ftp'yi indekslemiyor
http://www.w3.org/Robots.txt Dosya adı küçük harfle yazılmamış

Gördüğünüz gibi robots.txt dosyası yalnızca sitenin köküne yerleştirilmelidir.

robots.txt dosyasına ne yazılmalıdır?

robots.txt dosyası genellikle şunun gibi bir şey içerir:

Kullanıcı aracısı: *
İzin verme: /cgi-bin/
İzin verme: /tmp/
İzin verme: /~joe/

Bu örnekte üç dizinin indekslenmesi yasaktır.

Her dizinin ayrı bir satırda listelendiğini unutmayın; "Disallow: /cgi-bin/ /tmp/" yazamazsınız. Ayrıca bir Disallow veya User-agent deyimini birkaç satıra bölemezsiniz çünkü Satır sonları talimatları birbirinden ayırmak için kullanılır.

Normal ifadeler ve joker karakterler de kullanılamaz. Kullanıcı aracısı talimatındaki “yıldız işareti” (*), “herhangi bir robot” anlamına gelir. "Disallow: *.gif" veya "User-agent: Ya*" gibi talimatlar desteklenmez.

Robots.txt dosyasındaki özel talimatlar sitenize ve nelerin dizine eklenmesini engellemek istediğinize bağlıdır. İşte bazı örnekler:

Tüm sitenin tüm robotlar tarafından dizine eklenmesini engelle

Kullanıcı aracısı: *
İzin verme: /

Tüm robotların sitenin tamamını dizine eklemesine izin ver

Kullanıcı aracısı: *
İzin verme:

Veya boş bir “/robots.txt” dosyası oluşturabilirsiniz.

Yalnızca birkaç dizinin indekslenmesini engelle

Kullanıcı aracısı: *
İzin verme: /cgi-bin/
İzin verme: /tmp/
İzin verme: /özel/

Yalnızca bir robot için site dizine eklenmesini engelle

Kullanıcı aracısı: BadBot
İzin verme: /

Bir robotun siteyi dizine eklemesine ve diğerlerini reddetmesine izin ver

Kullanıcı aracısı: Yandex
İzin verme:

Kullanıcı aracısı: *
İzin verme: /

Biri hariç tüm dosyaların indekslenmesini reddet

Bu oldukça zor çünkü... “İzin ver” ifadesi yoktur. Bunun yerine, indekslenmesine izin vermek istediğiniz dosya dışındaki tüm dosyaları bir alt dizine taşıyabilir ve indekslenmesini engelleyebilirsiniz:

Kullanıcı aracısı: *
İzin verme: /docs/

Veya indekslenmesi yasak olan tüm dosyaları yasaklayabilirsiniz:

Kullanıcı aracısı: *
İzin verme: /private.html
İzin verme: /foo.html
İzin verme: /bar.html

Yazardan: Web sitenizde arama motorlarının görmesini istemediğiniz sayfalar mı var? Bu makaleden robots.txt dosyasında sayfa indekslemenin nasıl önleneceğini, bunun doğru olup olmadığını ve genel olarak sayfalara erişimin nasıl engelleneceğini ayrıntılı olarak öğreneceksiniz.

Bu nedenle belirli sayfaların dizine eklenmesini engellemeniz gerekir. Bunu yapmanın en kolay yolu, robots.txt dosyasının kendisine gerekli satırların eklenmesidir. Klasör adreslerini birbirine göre belirttiğimizi, belirli sayfaların URL'lerinin de aynı şekilde belirtildiğini veya mutlak bir yol girebileceğinizi belirtmek isterim.

Diyelim ki blogumda birkaç sayfa var: kişiler, benim ve hizmetlerim hakkında. Bunların indekslenmesini istemiyorum. Buna göre şunu yazıyoruz:

Kullanıcı aracısı: * İzin verme: /kontakty/ İzin verme: /about/ İzin verme: /uslugi/

Başka bir seçenek

Harika ama robotun belirli sayfalara erişimini engellemenin tek yolu bu değil. İkincisi ise html koduna özel bir meta etiket yerleştirmektir. Doğal olarak yalnızca kapatılması gereken kayıtlara yerleştirin. Şuna benziyor:

< meta name = "robots" content = "noindex,nofollow" >

Etiketin html belgesindeki başlık kabına yerleştirilmesi gerekir. doğru işlem. Gördüğünüz gibi iki parametresi var. Ad robot olarak belirtilmiştir ve bu talimatların web tarayıcılarına yönelik olduğunu belirtir.

İçerik parametresi virgülle ayrılmış iki değere sahip olmalıdır. Birincisi sayfadaki metin bilgilerinin indekslenmesine izin verilmesi veya yasaklanması, ikincisi ise sayfadaki bağlantıların indekslenip indekslenmeyeceğinin göstergesidir.

Bu nedenle sayfanın hiç indekslenmemesini istiyorsanız noindex, nofollow değerlerini belirtin yani metni indekslemeyin ve varsa bağlantıların takip edilmesini yasaklayın. Bir sayfada metin yoksa dizine eklenmeyeceğine dair bir kural vardır. Yani, eğer metnin tamamı noindex'te kapalıysa, indekslenecek hiçbir şey yoktur, dolayısıyla indekse hiçbir şey dahil edilmeyecektir.

Ayrıca aşağıdaki değerler de vardır:

noindex, takip et – metin indekslemenin yasaklanması, ancak bağlantıları takip etme izni;

index, nofollow – içeriğin indekse alınması gerektiği ancak içindeki tüm bağlantıların kapatılması gerektiği durumlarda kullanılabilir.

indeks, takip – varsayılan değer. Her şeye izin var.