रोबोट्स txt फोल्डर अनुक्रमणिका प्रतिबंधित करते. आवश्यक पृष्ठांची अनुक्रमणिका कशी रोखायची

वेबसाइटचा स्वतंत्रपणे प्रचार आणि प्रचार करताना, केवळ अद्वितीय सामग्री तयार करणे किंवा Yandex आकडेवारीमध्ये क्वेरी निवडणे महत्त्वाचे नाही (अर्थपूर्ण कोर तयार करण्यासाठी), परंतु आपण अशा निर्देशकाकडे देखील योग्य लक्ष दिले पाहिजे. Yandex आणि Google मध्ये साइट अनुक्रमणिका. हे दोन शोध इंजिन आहेत जे RuNet वर वर्चस्व गाजवतात आणि Yandex आणि Google मध्ये तुमच्या साइटचे अनुक्रमणिका किती पूर्ण आणि जलद आहे हे प्रमोशनचे पुढील यश निश्चित करते.



आमच्याकडे दोन मुख्य साधने आहेत ज्याद्वारे आम्ही Google आणि Yandex मध्ये साइट अनुक्रमणिका व्यवस्थापित करू शकतो. प्रथम, ही अर्थातच एक फाइल आहे robots.txt, जे आम्हाला मुख्य सामग्री (इंजिन फाइल्स आणि डुप्लिकेट सामग्री) नसलेल्या साइटवरील प्रत्येक गोष्टीच्या अनुक्रमणिकेवर बंदी घालण्यास अनुमती देईल आणि या लेखात robots.txt ची चर्चा केली जाईल, परंतु robots.txt व्यतिरिक्त आणखी एक महत्त्वाचे आहे. अनुक्रमणिका व्यवस्थापित करण्यासाठी साधन — साइटमॅप (साइटमॅप xml), ज्याबद्दल मी आधीच लिंक केलेल्या लेखात काही तपशीलवार लिहिले आहे.

Robots.txt - Yandex आणि Google मध्ये साइट अनुक्रमणिका व्यवस्थापित करणे इतके महत्त्वाचे का आहे

Robots.txt आणि Sitemap xml (फाईल्स ज्या तुम्हाला साइट इंडेक्सिंग व्यवस्थापित करण्यास परवानगी देतात) तुमच्या प्रकल्पाच्या यशस्वी विकासासाठी खूप महत्त्वाच्या आहेत आणि हे निराधार विधान नाही. साइटमॅप xml वरील लेखात (वरील दुवा पहा), मी उदाहरण म्हणून नवशिक्या वेबमास्टर्सच्या सर्वात सामान्य तांत्रिक चुकांवरील अत्यंत महत्त्वाच्या अभ्यासाचे परिणाम उद्धृत केले आणि तेथे दुसऱ्या आणि तिसऱ्या स्थानावर (गैर-अद्वितीय सामग्रीनंतर) फक्त आहेत. robots.txt आणि साइटमॅप xml, किंवा त्याऐवजी, या फाइल्सची अनुपस्थिती किंवा त्यांची चुकीची रचना आणि वापर.

हे अगदी स्पष्टपणे समजून घेणे आवश्यक आहे की कोणत्याही इंजिनवर (सीएमएस जूमला, एसएमएफ किंवा वर्डप्रेस) तयार केलेल्या साइटची सर्व सामग्री (फाईल्स आणि निर्देशिका) यांडेक्स आणि गुगलद्वारे अनुक्रमित करण्यासाठी उपलब्ध नसावी (मी इतर शोध इंजिनांचा विचार करत नाही, RuNet शोध मध्ये त्यांच्या अल्प वाटेमुळे).

जर तुम्ही शोध इंजिन बॉट्ससाठी robots.txt मध्ये वागण्याचे काही नियम निर्दिष्ट केले नाहीत, तर अनुक्रमणिका दरम्यान, साइटच्या सामग्रीशी संबंधित नसलेली अनेक पृष्ठे शोध इंजिनमध्ये संपतील आणि माहिती सामग्रीची एकाधिक डुप्लिकेशन देखील होऊ शकते. (समान सामग्री वेगवेगळ्या लिंक्स साइटद्वारे उपलब्ध असेल), जे शोध इंजिनांना आवडत नाही. robots.txt मध्ये अनुक्रमणिका अक्षम करणे हा एक चांगला उपाय आहे.

शोध बॉट्ससाठी वर्तनाचे नियम सेट करण्यासाठी, ते वापरले जाते robots.txt फाइल. त्याच्या मदतीने, आम्ही Yandex आणि Google द्वारे साइट अनुक्रमणिकेच्या प्रक्रियेवर प्रभाव टाकण्यास सक्षम होऊ. Robot.txt ही एक नियमित मजकूर फाइल आहे जी तुम्ही कोणत्याही मजकूर संपादकात तयार करू शकता आणि नंतर संपादित करू शकता (उदाहरणार्थ, Notepad++). शोध रोबोट ही फाइल तुमच्या साइटच्या रूट निर्देशिकेत शोधेल आणि जर ती सापडली नाही, तर तो पोहोचू शकणाऱ्या प्रत्येक गोष्टीची अनुक्रमणिका करेल.

म्हणून, आवश्यक robots.txt फाईल लिहिल्यानंतर (नावामधील सर्व अक्षरे लहान अक्षरात असणे आवश्यक आहे - कोणतेही कॅपिटल अक्षरे नाहीत), ती साइटच्या रूट फोल्डरमध्ये जतन करणे आवश्यक आहे, उदाहरणार्थ, Filezilla Ftp क्लायंट वापरून, त्यामुळे की ते या पत्त्यावर उपलब्ध आहे: http:// /your_site.ru/robots.txt.

तसे, जर तुम्हाला एखाद्या विशिष्ट साइटची robots.txt फाइल कशी दिसते हे जाणून घ्यायचे असेल, तर या साइटच्या मुख्य पृष्ठाच्या पत्त्यावर /robots.txt जोडणे पुरेसे आहे. तुमच्या robots.txt फाइलसाठी सर्वोत्तम पर्याय ठरवण्यासाठी हे उपयुक्त ठरू शकते, परंतु हे लक्षात ठेवा की इष्टतम robots.txt फाइल वेगवेगळ्या साइट इंजिनसाठी वेगळी दिसेल ( robots.txt मध्ये अनुक्रमणिका करण्यास मनाईइंजिनच्या वेगवेगळ्या फोल्डर्स आणि फाइल्ससाठी करणे आवश्यक आहे). म्हणून, जर तुम्हाला robots.txt> फाईलची सर्वोत्तम आवृत्ती ठरवायची असेल, तर SMF वरील फोरमसाठी म्हणा, तर तुम्हाला या इंजिनवर तयार केलेल्या फोरमसाठी robots.txt फाइल्सचा अभ्यास करणे आवश्यक आहे.

robots.txt फाइल लिहिण्यासाठी निर्देश आणि नियम (मंजूर, वापरकर्ता-एजंट, होस्ट)

robots.txt फाइलमध्ये एक अतिशय सोपी वाक्यरचना आहे, ज्याचे वर्णन अतिशय तपशीलवार आहे, उदाहरणार्थ, निर्देशांकात. सामान्यतः, robots.txt फाइल दर्शवते की खाली वर्णन केलेले निर्देश कोणत्या शोध रोबोटसाठी आहेत (निर्देश "वापरकर्ता-एजंट"), स्वतः परवानगी देत ​​(" परवानगी द्या") आणि प्रतिबंधात्मक निर्देश (" नकार द्या"), आणि निर्देश " साइट मॅपसाइटमॅप फाइल नेमकी कुठे आहे हे शोध इंजिनांना सूचित करण्यासाठी.

robots.txt फाइलमध्ये तुमच्या साइटचा कोणता मिरर मुख्य आहे हे सूचित करणे देखील उपयुक्त आहे "होस्ट" निर्देशामध्ये"तुमच्या साइटवर मिरर नसले तरीही, तुमच्या साइटच्या स्पेलिंगपैकी www सह किंवा शिवाय कोणते स्पेलिंग मुख्य आहे हे या निर्देशात सूचित करणे उपयुक्त ठरेल. कारण हे देखील एक प्रकारचे मिररिंग आहे. मी याबद्दल बोललो. या लेखातील तपशील: www सह आणि त्याशिवाय डोमेन - त्यांच्या स्वरूपाचा इतिहास, त्यांना एकत्र चिकटविण्यासाठी 301 पुनर्निर्देशनांचा वापर.

आता याबद्दल थोडे बोलूया robots.txt फाइल लिहिण्याचे नियम. robots.txt फाइलमधील निर्देश यासारखे दिसतात:

robots.txt फाइल बरोबर कराप्रत्येक "वापरकर्ता-एजंट" एंट्रीनंतर किमान एक "नकार द्या" निर्देश असणे आवश्यक आहे. रिक्त robots.txt फाइल संपूर्ण साइट अनुक्रमित करण्याची परवानगी गृहित धरते.

"वापरकर्ता-एजंट" निर्देशशोध रोबोटचे नाव असणे आवश्यक आहे. robots.txt मध्ये या निर्देशाचा वापर करून, तुम्ही प्रत्येक विशिष्ट शोध रोबोटसाठी साइट अनुक्रमणिका कॉन्फिगर करू शकता (उदाहरणार्थ, फक्त Yandex साठी स्वतंत्र फोल्डर अनुक्रमित करण्यावर बंदी घाला). तुमच्या संसाधनाला भेट देणाऱ्या सर्व शोध रोबोट्सना उद्देशून "वापरकर्ता-एजंट" निर्देश लिहिण्याचे उदाहरण असे दिसते:

मी तुम्हाला काही सोपी उदाहरणे देतो Yandex मध्ये साइट अनुक्रमणिका व्यवस्थापित करणे, Google आणि इतर शोध इंजिने robots.txt फाइलचे निर्देश वापरून त्याच्या क्रियांच्या स्पष्टीकरणासह.

    1 . robots.txt फाइलसाठी खालील कोड सर्व शोध रोबोट्सना कोणत्याही अपवादाशिवाय संपूर्ण साइट अनुक्रमित करण्यास अनुमती देतो. हे रिक्त नाकारण्याच्या निर्देशाद्वारे निर्दिष्ट केले आहे.

    3 . अशी robots.txt फाइल सर्व शोध इंजिनांना /image/ निर्देशिकेतील सामग्री अनुक्रमित करण्यापासून प्रतिबंधित करेल (http://mysite.ru/image/ - या निर्देशिकेचा मार्ग)

    5 . परवानगी-नकार निर्देशांसाठी पथांचे वर्णन करताना, तुम्ही वापरू शकता चिन्हे "*" आणि "$", अशा प्रकारे काही तार्किक अभिव्यक्ती परिभाषित करणे. "*" चिन्हाचा अर्थ वर्णांचा कोणताही (रिक्त समावेश) क्रम असा आहे. खालील उदाहरण सर्व शोध इंजिनांना “.aspx” विस्तारासह साइटवरील फायली अनुक्रमित करण्यापासून प्रतिबंधित करते:

    परवानगी न द्या: *.aspx

साइट मिररसह अप्रिय समस्या टाळण्यासाठी (www सह आणि त्याशिवाय डोमेन - दिसण्याचा इतिहास, त्यांना एकत्र चिकटविण्यासाठी 301 पुनर्निर्देशनांचा वापर), फाइलमध्ये जोडण्याची शिफारस केली जाते. robots.txt होस्ट निर्देश, जे Yandex रोबोटला तुमच्या साइटच्या मुख्य मिररकडे निर्देशित करते (होस्ट डायरेक्टिव्ह, जे तुम्हाला Yandex साठी साइटचा मुख्य मिरर सेट करण्याची परवानगी देते). robots.txt लिहिण्याच्या नियमांनुसार, वापरकर्ता-एजंटच्या एंट्रीमध्ये कमीत कमी एक Disallow निर्देश असणे आवश्यक आहे (सामान्यत: रिकामे जे काहीही प्रतिबंधित करत नाही):

वापरकर्ता-एजंट: यांडेक्स

होस्ट: www.site.ru

रोबोट्स आणि Robots.txt - साइटवर डुप्लिकेट अनुक्रमित करण्यापासून शोध इंजिनांना प्रतिबंधित करणे


दुसरा मार्ग आहे वैयक्तिक वेबसाइट पृष्ठांचे अनुक्रमणिका कॉन्फिगर करा Yandex आणि Google साठी. हे करण्यासाठी, इच्छित पृष्ठाच्या "HEAD" टॅगमध्ये, रोबोट्स META टॅग लिहिलेला आहे आणि हे सर्व पृष्ठांसाठी पुनरावृत्ती होते ज्यावर एक किंवा दुसरा अनुक्रमणिका नियम (बंदी किंवा परवानगी) लागू करणे आवश्यक आहे. मेटा टॅग वापरण्याचे उदाहरण:

...

या प्रकरणात, सर्व शोध इंजिनच्या रोबोट्सना हे पृष्ठ अनुक्रमित करणे (हे मेटा टॅगमध्ये noindex द्वारे सूचित केले आहे) आणि त्यावर ठेवलेल्या दुव्यांचे विश्लेषण करणे विसरून जावे लागेल (हे nofollow द्वारे सूचित केले आहे).

फक्त दोन जोड्या आहेत रोबोट मेटा टॅग निर्देश: अनुक्रमणिका आणि अनुसरण करा:

  1. अनुक्रमणिका - रोबोट हे पृष्ठ अनुक्रमित करू शकतो की नाही ते सूचित करा
  2. अनुसरण करा - तो पृष्ठावरील दुव्यांचे अनुसरण करू शकतो का

डीफॉल्ट मूल्ये "इंडेक्स" आणि "फॉलो" आहेत. "सर्व" आणि "काहीही नाही" वापरून एक लहान आवृत्ती देखील आहे, जी सर्व निर्देशांची क्रिया दर्शवते किंवा त्यानुसार, उलट: all=index,follow आणि none=noindex,nofollow.

वर्डप्रेस ब्लॉगसाठी, तुम्ही रोबोट्स मेटा टॅग सानुकूलित करू शकता, उदाहरणार्थ, ऑल इन वन एसइओ पॅक प्लगइन वापरून. बरं, तेच आहे, सिद्धांत संपला आहे आणि सराव करण्यासाठी पुढे जाण्याची वेळ आली आहे, म्हणजे, जूमला, SMF आणि WordPress साठी इष्टतम robots.txt फाइल्स संकलित करण्यासाठी.

तुम्हाला माहिती आहेच की, कोणत्याही इंजिनच्या (जुमला, वर्डप्रेस, एसएमएफ इ.) आधारे तयार केलेल्या प्रकल्पांमध्ये अनेक सहाय्यक फाइल्स असतात ज्या कोणत्याही माहितीचा भार वाहून घेत नाहीत.

आपण या सर्व कचऱ्याचे अनुक्रमणिका करण्यास मनाई न केल्यास robots.txt, नंतर तुमची साइट अनुक्रमित करण्यासाठी Yandex आणि Google शोध इंजिनांनी दिलेला वेळ शोध रोबोट्समध्ये इंजिन फाइल्सद्वारे क्रमवारी लावण्यासाठी खर्च केला जाईल, उदा. सामग्री, जे, तसे, बहुतेक CMS मध्ये एका डेटाबेसमध्ये संग्रहित केले जाते ज्यामध्ये शोध रोबोट कोणत्याही प्रकारे प्रवेश करू शकत नाहीत (आपण PhpMyAdmin द्वारे डेटाबेससह कार्य करू शकता). या प्रकरणात, पूर्ण वेळ साइट अनुक्रमणिकायांडेक्स आणि Google रोबोट्समध्ये कदाचित काही शिल्लक नसेल.

या व्यतिरिक्त, तुम्ही तुमच्या प्रोजेक्टवर अनन्य सामग्रीसाठी प्रयत्न केले पाहिजे आणि अनुक्रमित केल्यावर तुमच्या साइटच्या डुप्लिकेट सामग्री (माहिती सामग्री) ला अनुमती देऊ नये. समान सामग्री भिन्न URL वर उपलब्ध असल्यास डुप्लिकेशन येऊ शकते. यांडेक्स आणि गुगल ही शोध इंजिने, साइट अनुक्रमित करताना, डुप्लिकेट शोधतील आणि कदाचित, मोठ्या संख्येने असल्यास आपल्या संसाधनांना काहीसे निराश करण्यासाठी उपाय करतील.

जर तुमचा प्रकल्प कोणत्याही इंजिनच्या (जुमला, एसएमएफ, वर्डप्रेस) आधारावर तयार केला गेला असेल, तर सामग्रीचे डुप्लिकेशन उच्च संभाव्यतेसह होईल, याचा अर्थ तुम्हाला त्यास सामोरे जाणे आवश्यक आहे, यासह robots.txt मध्ये अनुक्रमणिका अक्षम करून.

उदाहरणार्थ, वर्डप्रेसमध्ये, श्रेणी सामग्री, टॅग संग्रहण सामग्री आणि तात्पुरत्या संग्रहण सामग्रीच्या अनुक्रमणिकेला अनुमती असल्यास, अगदी समान सामग्री असलेली पृष्ठे Yandex आणि Google द्वारे अनुक्रमित केली जाऊ शकतात. परंतु जर तुम्ही रोबोट्स मेटा टॅगचा वापर टॅगच्या संग्रहण आणि तात्पुरत्या संग्रहणावर बंदी घालण्यासाठी केला असेल (तुम्ही टॅग सोडू शकता, परंतु श्रेण्यांच्या सामग्रीच्या अनुक्रमणिकेला प्रतिबंधित करू शकता), तर सामग्रीची डुप्लिकेशन होणार नाही. वर्डप्रेसमध्ये या उद्देशासाठी, ऑल इन वन एसइओ पॅक प्लगइनची क्षमता वापरणे सर्वोत्तम आहे.

SMF फोरम इंजिनमध्ये सामग्रीच्या डुप्लिकेशनसह परिस्थिती आणखी कठीण आहे. तुम्ही robots.txt द्वारे Yandex आणि Google मध्ये साइट इंडेक्सिंग फाइन-ट्यून (प्रतिबंधित) न केल्यास, त्याच पोस्टचे एकाधिक डुप्लिकेट शोध इंजिन इंडेक्समध्ये समाप्त होतील. जूमलाला काहीवेळा नियमित पृष्ठांची सामग्री आणि त्यांच्या मुद्रित प्रती अनुक्रमित करण्यात आणि डुप्लिकेट करण्यात समस्या येतात.

Robots.txt हे संपूर्ण साइट डिरेक्ट्रीजमध्ये किंवा ज्यांच्या नावांमध्ये (मुखवटाद्वारे) निर्दिष्ट वर्ण आहेत अशा फायली आणि निर्देशिकांमध्ये अनुक्रमणिका प्रतिबंधित करण्यासाठी जागतिक नियम सेट करण्याचा हेतू आहे. आपण या लेखाच्या पहिल्या लेखात अशा अनुक्रमणिका प्रतिबंध सेट करण्याची उदाहरणे पाहू शकता.

Yandex आणि Google मध्ये अनुक्रमणिका प्रतिबंधित करण्यासाठीएका पृष्ठावर, इच्छित पृष्ठाच्या शीर्षलेखात (HEAD टॅग दरम्यान) लिहिलेला रोबोट्स मेटा टॅग वापरणे सोयीचे आहे. रोबोट्स मेटा टॅगच्या वाक्यरचनाबद्दल अधिक तपशील मजकुरात थोडे जास्त आहेत. पृष्ठाच्या आत अनुक्रमणिका प्रतिबंधित करण्यासाठी, आपण NOINDEX टॅग वापरू शकता, परंतु हे केवळ Yandex शोध इंजिनद्वारे समर्थित आहे.

Yandex साठी robots.txt मध्ये होस्ट निर्देश

आता वेगवेगळ्या इंजिनांसाठी डिझाइन केलेली robots.txt ची विशिष्ट उदाहरणे पाहू - Joomla, WordPress आणि SMF. साहजिकच, वेगवेगळ्या इंजिनांसाठी तयार केलेल्या तीनही robots.txt फायली एकमेकांपासून लक्षणीयरीत्या (मूलभूतपणे नसल्यास) वेगळ्या असतील. खरे आहे, या सर्व robots.txt मध्ये एक समान बिंदू असेल आणि हा बिंदू Yandex शोध इंजिनशी संबंधित आहे.

कारण रुनेटमध्ये, यांडेक्स शोध इंजिनचे वजन बरेच आहे, म्हणून आपल्याला त्याच्या कामातील सर्व बारकावे विचारात घेणे आवश्यक आहे, नंतर योग्य. Yandex मध्ये साइट अनुक्रमित करण्यासाठी robots.txt मध्ये होस्ट निर्देश आवश्यक आहे. हा निर्देश स्पष्टपणे यांडेक्सला तुमच्या साइटचा मुख्य आरसा सूचित करेल. आपण याबद्दल अधिक येथे वाचू शकता: होस्ट निर्देश, जो आपल्याला यांडेक्ससाठी साइटचा मुख्य मिरर सेट करण्याची परवानगी देतो.

होस्ट निर्देश निर्दिष्ट करण्यासाठी, फक्त Yandex (वापरकर्ता-एजंट: Yandex) साठी अभिप्रेत असलेल्या robots.txt फाइलमध्ये एक वेगळा वापरकर्ता-एजंट ब्लॉग वापरण्याची शिफारस केली जाते. हे या वस्तुस्थितीमुळे आहे की इतर शोध इंजिनांना होस्ट निर्देश समजू शकत नाहीत आणि त्यानुसार, सर्व शोध इंजिनांसाठी (यूजर-एजंट: *) हेतू असलेल्या वापरकर्ता-एजंट निर्देशामध्ये त्याचा समावेश केल्याने नकारात्मक परिणाम होऊ शकतात आणि चुकीचे अनुक्रमणिका होऊ शकते. जागा.

परिस्थिती खरोखर काय आहे हे सांगणे कठीण आहे, कारण शोध इंजिन अल्गोरिदम ही एक गोष्ट आहे, म्हणून सल्ल्यानुसार सर्वकाही robots.txt मध्ये करणे चांगले आहे. परंतु या प्रकरणात, robots.txt फाइलमध्ये, तुम्हाला User-agent: Yandex directive मध्ये डुप्लिकेट करावे लागेल जे तुम्ही User-agent: * निर्देशामध्ये नमूद केलेले सर्व नियम. तुम्ही वापरकर्ता-एजंट सोडल्यास: यांडेक्स निर्देश रिकामे Disallow: directive सह, तर अशा प्रकारे तुम्ही robots.txt मध्ये, Yandex ला संपूर्ण साइट अनुक्रमित करण्यास अनुमती द्या.

robots.txt फाइलसाठी विशिष्ट पर्यायांवर विचार करण्याआधी, मी तुम्हाला आठवण करून देऊ इच्छितो की तुम्ही Yandex Webmaster आणि Google Webmaster मध्ये तुमच्या robots.txt फाइलचे ऑपरेशन तपासू शकता.

SMF फोरमसाठी योग्य robots.txt

परवानगी द्या: /forum/*sitemap

परवानगी द्या: /forum/*arcade

परवानगी द्या: /forum/*rss

अनुमती द्या: /forum/attachments/

परवानगी न द्या: /forum/avatars/

परवानगी न द्या: /forum/Packages/

परवानगी न द्या: /forum/Smileys/

परवानगी न द्या: /forum/Sources/

परवानगी न द्या: /forum/Themes/

परवानगी न द्या: /forum/Games/

परवानगी न द्या: /forum/*.msg

नाकारू द्या: /फोरम/*. नवीन

नाकारणे: /फोरम/*सॉर्ट

अनुमती द्या: /फोरम/*विषय पाहिले

नाकारू द्या: /forum/*wap

नाकारू द्या: /forum/*imode

नाकारणे: /फोरम/*कृती

वापरकर्ता-एजंट: Slurp

क्रॉल-विलंब: 100

कृपया लक्षात घ्या की ही robots.txt मुख्य साइटच्या फोरम निर्देशिकेत तुमचा SMF फोरम स्थापित केलेला आहे अशा बाबतीत आहे. फोरम निर्देशिकेत नसल्यास, सर्व नियमांमधून फक्त /forum काढून टाका. SMF इंजिनवरील फोरमसाठी robots.txt फाइलच्या या आवृत्तीचे लेखक म्हणतात की तुम्ही तुमच्या फोरमवर अनुकूल URL (FUR) सक्रिय न केल्यास ते Yandex आणि Google मध्ये योग्य अनुक्रमणिकेसाठी जास्तीत जास्त परिणाम देईल.

SMF मधील फ्रेंडली URL खालील मार्गाचा अवलंब करून फोरम ॲडमिनमध्ये सक्रिय किंवा निष्क्रिय केल्या जाऊ शकतात: ॲडमिन पॅनेलच्या डाव्या स्तंभात, उघडणाऱ्या विंडोच्या तळाशी, "वैशिष्ट्ये आणि सेटिंग्ज" आयटम निवडा, "अनुमती द्या" शोधा. अनुकूल URL" आयटम, जेथे तुम्ही ते तपासू किंवा अनचेक करू शकता.

दुसरा SMF फोरमसाठी योग्य robots.txt फाइल(परंतु कदाचित अद्याप पूर्णपणे चाचणी केलेली नाही):

परवानगी द्या: /forum/*sitemap

परवानगी द्या: /forum/*arcade # जर गेम मोड उपयुक्त नसेल तर, एक ओळ वगळल्याशिवाय हटवा

परवानगी द्या: /forum/*rss

परवानगी द्या: /forum/*type=rss

अनुमती द्या: /forum/attachments/

परवानगी न द्या: /forum/avatars/

परवानगी न द्या: /forum/Packages/

परवानगी न द्या: /forum/Smileys/

परवानगी न द्या: /forum/Sources/

परवानगी न द्या: /forum/Themes/

परवानगी न द्या: /forum/Games/

परवानगी न द्या: /forum/*.msg

नाकारू द्या: /फोरम/*. नवीन

नाकारणे: /फोरम/*सॉर्ट

अनुमती द्या: /फोरम/*विषय पाहिले

नाकारू द्या: /forum/*wap

नाकारू द्या: /forum/*imode

नाकारणे: /फोरम/*कृती

अनुमती द्या: /forum/*prev_next

नाकारणे: /फोरम/*सर्व

नाकारू द्या: /forum/*go.php # किंवा तुमच्याकडे जे काही पुनर्निर्देशन आहे

होस्ट: www.my site.ru # तुमचा मुख्य आरसा सूचित करा

वापरकर्ता-एजंट: Slurp

क्रॉल-विलंब: 100

जसे की तुम्ही या robots.txt मध्ये पाहू शकता, Yandex-only Host निर्देश सर्व शोध इंजिनांसाठी वापरकर्ता-एजंट निर्देशामध्ये समाविष्ट केले आहेत. मी कदाचित सर्व नियमांची पुनरावृत्ती करून, फक्त Yandex साठी robots.txt मध्ये स्वतंत्र वापरकर्ता-एजंट निर्देश जोडेल. पण तुम्हीच ठरवा.

वापरकर्ता-एजंट: Slurp

क्रॉल-विलंब: 100

हे याहू शोध इंजिन (स्लर्प हे त्याच्या शोध बॉटचे नाव आहे) साइटला अनेक थ्रेड्समध्ये अनुक्रमित करते, ज्यामुळे त्याच्या कार्यक्षमतेवर नकारात्मक परिणाम होऊ शकतो. या robots.txt नियमामध्ये, क्रॉल-विलंब निर्देश तुम्हाला Yahoo शोध रोबोटला एक पृष्ठ डाउनलोड करणे संपेपर्यंत आणि पुढील डाउनलोड सुरू होण्याच्या दरम्यानचा किमान कालावधी (सेकंदांमध्ये) सेट करण्याची परवानगी देतो. यामुळे सर्व्हरवरील भार कमी होईल जेव्हा एखादी साइट Yahoo शोध इंजिनद्वारे अनुक्रमित केली जाते.

SMF फोरम पृष्ठांच्या प्रिंट आवृत्त्यांचे Yandex आणि Google मध्ये अनुक्रमणिका टाळण्यासाठी, खाली वर्णन केलेल्या ऑपरेशन्स करण्याची शिफारस केली जाते (त्यांना पार पाडण्यासाठी, तुम्हाला FileZilla प्रोग्राम वापरून संपादनासाठी काही SMF फाइल्स उघडण्याची आवश्यकता असेल). Sources/Printpage.php फाइलमध्ये, (उदाहरणार्थ, Notepad++ मधील अंगभूत शोध वापरून) ओळ शोधा:

Themes/name_of_theme/Printpage.template.php फाइलमध्ये, ओळ शोधा:

जर तुम्हाला फोरमच्या पूर्ण आवृत्तीवर जाण्यासाठी प्रिंट आवृत्तीची लिंक हवी असेल (जर काही प्रिंट पृष्ठे आधीच Yandex आणि Google मध्ये अनुक्रमित केली गेली असतील), तर त्याच फाईलमध्ये तुम्हाला Printpage.template.php सापडेल. ओपनिंग हेड टॅगसह ओळ:

या फाइल प्रकारावर अधिक माहिती मिळवा SMF फोरमसाठी robots.txtतुम्ही रशियन-भाषेतील SMF सपोर्ट फोरमचा हा धागा वाचू शकता.

जूमला साइटसाठी योग्य robots.txt

Robots.txt ही साइटच्या रूट निर्देशिकेत असलेली एक विशेष फाइल आहे. वेबमास्टर त्यात सूचित करतो की कोणती पृष्ठे आणि डेटा शोध इंजिनद्वारे अनुक्रमित करण्यापासून वगळायचा आहे. फाइलमध्ये निर्देश आहेत जे साइटच्या विभागांमध्ये प्रवेशाचे वर्णन करतात (तथाकथित रोबोट अपवाद मानक). उदाहरणार्थ, मोबाइल डिव्हाइस आणि डेस्कटॉप संगणकांसाठी डिझाइन केलेल्या शोध रोबोटसाठी भिन्न प्रवेश सेटिंग्ज सेट करण्यासाठी याचा वापर केला जाऊ शकतो. ते योग्यरित्या सेट करणे खूप महत्वाचे आहे.

robots.txt आवश्यक आहे का?

robots.txt सह तुम्ही हे करू शकता:

  • क्रॉलिंग मर्यादा (शोध रोबोट एका क्रॉलमध्ये क्रॉल करू शकणाऱ्या URL ची संख्या) वाया घालवू नये म्हणून समान आणि अनावश्यक पृष्ठांचे अनुक्रमणिका प्रतिबंधित करा. त्या. रोबोट अधिक महत्त्वाची पृष्ठे अनुक्रमित करण्यास सक्षम असेल.
  • शोध परिणामांमधून प्रतिमा लपवा.
  • इंडेक्सिंगमधून महत्त्वाच्या नसलेल्या स्क्रिप्ट्स, स्टाइल फाइल्स आणि इतर गैर-महत्त्वपूर्ण पृष्ठ संसाधने बंद करा.

हे Google किंवा Yandex क्रॉलरला पृष्ठांचे विश्लेषण करण्यापासून प्रतिबंधित करत असल्यास, फायली अवरोधित करू नका.

Robots.txt फाइल कुठे आहे?

जर तुम्हाला फक्त robots.txt फाइलमध्ये काय आहे ते पहायचे असेल, तर तुमच्या ब्राउझरच्या ॲड्रेस बारमध्ये फक्त एंटर करा: site.ru/robots.txt.

भौतिकदृष्ट्या, robots.txt फाइल होस्टिंगवर साइटच्या रूट फोल्डरमध्ये स्थित आहे. माझ्याकडे beget.ru होस्टिंग आहे, म्हणून मी या होस्टिंगवर robots.txt फाइलचे स्थान दर्शवेल.


योग्य robots.txt कसे तयार करावे

robots.txt फाइलमध्ये एक किंवा अधिक नियम असतात. प्रत्येक नियम साइटवर पथ अनुक्रमणिका अवरोधित करतो किंवा अनुमती देतो.

  1. टेक्स्ट एडिटरमध्ये, robots.txt नावाची फाइल तयार करा आणि ती खालील नियमांनुसार भरा.
  2. robots.txt फाइल ASCII किंवा UTF-8 एन्कोड केलेली मजकूर फाइल असणे आवश्यक आहे. इतर एन्कोडिंगमधील वर्णांना परवानगी नाही.
  3. साइटवर अशी एकच फाइल असावी.
  4. robots.txt फाइल मध्ये ठेवली पाहिजे रूट निर्देशिकाजागा. उदाहरणार्थ, http://www.example.com/ साइटवरील सर्व पृष्ठांची अनुक्रमणिका नियंत्रित करण्यासाठी, robots.txt फाइल http://www.example.com/robots.txt वर स्थित असावी. ते उपनिर्देशिकेत नसावे(उदाहरणार्थ, पत्त्यावर http://example.com/pages/robots.txt). तुम्हाला रूट निर्देशिकेत प्रवेश करण्यात अडचण येत असल्यास, तुमच्या होस्टिंग प्रदात्याशी संपर्क साधा. जर तुम्हाला साइटच्या रूट निर्देशिकेत प्रवेश नसेल, तर मेटा टॅगसारख्या पर्यायी ब्लॉकिंग पद्धतीचा वापर करा.
  5. robots.txt फाईल या पत्त्यांवर जोडली जाऊ शकते उपडोमेन(उदाहरणार्थ http:// संकेतस्थळ.example.com/robots.txt) किंवा नॉन-स्टँडर्ड पोर्ट (उदाहरणार्थ, http://example.com: 8181 /robots.txt).
  6. Yandex.Webmaster सेवा आणि Google Search Console मधील फाइल तपासा.
  7. तुमच्या साइटच्या रूट निर्देशिकेवर फाइल अपलोड करा.

येथे दोन नियमांसह robots.txt फाइलचे उदाहरण आहे. खाली त्याचे स्पष्टीकरण आहे.

वापरकर्ता-एजंट: Googlebot Disallow: /nogooglebot/ वापरकर्ता-एजंट: * परवानगी द्या: / साइटमॅप: http://www.example.com/sitemap.xml

स्पष्टीकरण

  1. Googlebot नावाच्या वापरकर्ता एजंटने निर्देशिका http://example.com/nogooglebot/ आणि त्याच्या उपनिर्देशिका अनुक्रमित करू नये.
  2. इतर सर्व वापरकर्ता एजंटना संपूर्ण साइटवर प्रवेश आहे (वगळले जाऊ शकते, परिणाम समान असेल, कारण पूर्ण प्रवेश डीफॉल्टनुसार मंजूर केला जातो).
  3. या साइटसाठी साइटमॅप फाइल http://www.example.com/sitemap.xml येथे आहे.

नाकारणे आणि निर्देशांना परवानगी द्या

साइट किंवा त्याच्या काही विभागांमध्ये अनुक्रमणिका आणि रोबोट प्रवेश प्रतिबंधित करण्यासाठी, परवानगी नाकारण्याचे निर्देश वापरा.

वापरकर्ता-एजंट: Yandex Disallow: / # संपूर्ण साइटवर प्रवेश अवरोधित करतो वापरकर्ता-एजंट: Yandex Disallow: /cgi-bin # पृष्ठांवर प्रवेश अवरोधित करतो # "/cgi-bin" ने सुरू होणारी

मानकानुसार, प्रत्येक वापरकर्ता-एजंट निर्देशापूर्वी रिक्त ओळ फीड घालण्याची शिफारस केली जाते.

# चिन्ह टिप्पण्यांचे वर्णन करण्यासाठी आहे. या वर्णानंतर आणि पहिल्या ओळीच्या ब्रेकपूर्वी सर्व काही विचारात घेतले जात नाही.

साइट किंवा त्याच्या काही विभागांमध्ये रोबोट प्रवेशास अनुमती देण्यासाठी, परवानगी द्या निर्देश वापरा

वापरकर्ता-एजंट: Yandex Allow: /cgi-bin Disallow: / # "/cgi-bin" ने सुरू होणारी पृष्ठे वगळता सर्व काही डाउनलोड करण्यास प्रतिबंधित करते

वापरकर्ता-एजंट, परवानगी नाकारणे आणि अनुमती द्या अशा निर्देशांमध्ये रिकामे लाइन ब्रेक असण्याची परवानगी नाही.

संबंधित वापरकर्ता-एजंट ब्लॉकमधील अनुमती आणि नकार निर्देश URL उपसर्गाच्या लांबीनुसार (सर्वात लहान ते सर्वात मोठे) क्रमवारीत लावले जातात आणि अनुक्रमे लागू केले जातात. दिलेल्या साइट पृष्ठासाठी अनेक निर्देश योग्य असल्यास, रोबोट क्रमवारी केलेल्या सूचीमध्ये दिसण्याच्या क्रमाने शेवटचा एक निवडतो. अशाप्रकारे, robots.txt फाईलमधील निर्देशांचा क्रम रोबोट कसा वापरतो यावर परिणाम होत नाही. उदाहरणे:

# मूळ robots.txt: वापरकर्ता-एजंट: Yandex Allow: /catalog Disallow: / # सॉर्ट केलेले robots.txt: वापरकर्ता-एजंट: Yandex Disallow: / Allow: /catalog # फक्त पृष्ठे डाउनलोड करण्याची परवानगी देते # "/catalog" ने सुरू होणारी # मूळ robots.txt: वापरकर्ता-एजंट: Yandex Allow: / Allow: /catalog/auto Disallow: /catalog # क्रमवारी लावलेले robots.txt: वापरकर्ता-एजंट: Yandex Allow: / Disallow: /catalog Allow: /catalog/auto # पेज डाउनलोड करण्यास प्रतिबंधित करते "/catalog" # ने सुरू होत आहे परंतु "/catalog/auto" ने सुरू होणारी पृष्ठे डाउनलोड करण्यास अनुमती देते.

समान लांबीच्या उपसर्गांसह दोन निर्देशांमध्ये संघर्ष असल्यास, अनुमती निर्देश प्राधान्य घेतात.

विशेष वर्ण * आणि $ वापरणे

Allow आणि Disallow निर्देशांचे पथ निर्दिष्ट करताना, तुम्ही विशिष्ट अक्षरे * आणि $ वापरू शकता, अशा प्रकारे विशिष्ट रेग्युलर एक्सप्रेशन्स निर्दिष्ट करू शकता.

विशेष वर्ण * म्हणजे वर्णांचा कोणताही (रिक्त समावेश) क्रम.

विशेष वर्ण $ म्हणजे ओळीचा शेवट, त्याच्या आधीचे वर्ण शेवटचे आहे.

वापरकर्ता-एजंट: Yandex Disallow: /cgi-bin/*.aspx # प्रतिबंधित करते "/cgi-bin/example.aspx" # आणि "/cgi-bin/private/test.aspx" नाकारतो: /*private # केवळ प्रतिबंधित नाही "/खाजगी", # पण "/cgi-bin/private"

साइटमॅप निर्देश

तुम्ही साइट संरचनेचे वर्णन करण्यासाठी साइटमॅप फाइल वापरत असल्यास, साइटमॅप निर्देशाच्या पॅरामीटर म्हणून फाइलचा मार्ग निर्दिष्ट करा (अनेक फाइल्स असल्यास, सर्व निर्दिष्ट करा). उदाहरण:

वापरकर्ता-एजंट: यांडेक्स परवानगी द्या: / साइटमॅप: https://example.com/site_structure/my_sitemaps1.xml साइटमॅप: https://example.com/site_structure/my_sitemaps2.xml

निर्देश छेदनबिंदू आहे, त्यामुळे robots.txt फाईलमध्ये ते निर्दिष्ट केलेले ठिकाण काहीही असले तरी ते रोबोटद्वारे वापरले जाईल.

रोबोट फाईलचा मार्ग लक्षात ठेवेल, डेटावर प्रक्रिया करेल आणि त्यानंतरच्या डाउनलोड सत्रांमध्ये परिणाम वापरेल.

क्रॉल-विलंब निर्देश

जर सर्व्हर खूप लोड झाला असेल आणि रोबोटच्या विनंत्यांवर प्रक्रिया करण्यासाठी वेळ नसेल, तर क्रॉल-विलंब निर्देश वापरा. हे आपल्याला शोध रोबोटला एक पृष्ठ लोड करण्याच्या समाप्तीपासून आणि पुढील लोड सुरू होण्याच्या दरम्यानचा किमान कालावधी (सेकंदांमध्ये) सेट करण्यास अनुमती देते.

साइट क्रॉल गती बदलण्यापूर्वी, रोबोट कोणत्या पृष्ठांवर अधिक वेळा प्रवेश करतो ते शोधा.

  • सर्व्हर लॉगचे विश्लेषण करा. साइटसाठी जबाबदार व्यक्ती किंवा होस्टिंग प्रदात्याशी संपर्क साधा.
  • Yandex.Webmaster मधील अनुक्रमणिका → क्रॉल आकडेवारी पृष्ठावरील URL ची सूची पहा (सर्व पृष्ठांवर स्विच करा).

जर तुम्हाला असे आढळले की रोबोट सेवा पृष्ठे ॲक्सेस करत आहे, तर त्यांना नकारा द्या निर्देश वापरून robots.txt फाइलमध्ये अनुक्रमित होण्यापासून प्रतिबंधित करा. यामुळे रोबोटकडून अनावश्यक कॉल्सची संख्या कमी होण्यास मदत होईल.

स्वच्छ-परम निर्देश

निर्देश केवळ यांडेक्स रोबोटसह कार्य करते.

जर साइट पृष्ठ पत्त्यांमध्ये डायनॅमिक पॅरामीटर्स असतील जे त्यांच्या सामग्रीवर परिणाम करत नाहीत (सत्र अभिज्ञापक, वापरकर्ते, संदर्भकर्ते इ.), तुम्ही क्लीन-परम निर्देश वापरून त्यांचे वर्णन करू शकता.

Yandex रोबोट, या निर्देशाचा वापर करून, डुप्लिकेट माहिती वारंवार रीलोड करणार नाही. यामुळे तुमची साइट क्रॉल करण्याची कार्यक्षमता वाढेल आणि सर्व्हरवरील लोड कमी होईल.

उदाहरणार्थ, साइटवर पृष्ठे आहेत:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_book. 123

रेफ पॅरामीटरचा वापर फक्त कोणत्या संसाधनातून केला गेला याचा मागोवा घेण्यासाठी केला जातो आणि ती सामग्री बदलत नाही book_id=123 हे सर्व तीन पत्त्यांवर दाखवले जाईल; नंतर, जर तुम्ही खालीलप्रमाणे निर्देश निर्दिष्ट केले तर:

वापरकर्ता-एजंट: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

यांडेक्स रोबोट सर्व पृष्ठ पत्ते कमी करेल:

www.example.com/some_dir/get_book.pl?book_id=123

साइटवर असे पृष्ठ उपलब्ध असल्यास, ते शोध परिणामांमध्ये समाविष्ट केले जाईल.

निर्देशात्मक वाक्यरचना

क्लीन-परम: p0[&p1&p2&..&pn]

प्रथम फील्ड, & ने विभक्त केलेले, रोबोटला विचारात घेण्याची आवश्यकता नसलेल्या पॅरामीटर्सची सूची देते. दुसरे फील्ड पानांचा पथ उपसर्ग निर्दिष्ट करते ज्यासाठी नियम लागू केला जावा.

नोंद. क्लीन-परम निर्देश क्रॉस-सेक्शनल आहे, त्यामुळे ते robots.txt फाइलमध्ये कुठेही नमूद केले जाऊ शकते. जर अनेक निर्देश निर्दिष्ट केले असतील, तर ते सर्व रोबोटद्वारे विचारात घेतले जातील.

उपसर्गामध्ये robots.txt फाइल प्रमाणेच एक नियमित अभिव्यक्ती असू शकते, परंतु काही निर्बंधांसह: फक्त A-Za-z0-9.-/*_ वर्ण वापरले जाऊ शकतात. या प्रकरणात, * चिन्हाचा अर्थ robots.txt फाइल प्रमाणेच केला जातो: * चिन्ह नेहमी उपसर्गाच्या शेवटी अस्पष्टपणे जोडले जाते. उदाहरणार्थ:

क्लीन-परम: s /forum/showthread.php

प्रकरण विचारात घेतले जाते. नियमाच्या लांबीवर मर्यादा आहे - 500 वर्ण. उदाहरणार्थ:

क्लीन-परम: abc /forum/showthread.php क्लीन-परम: sid&sort /forum/*.php क्लीन-परम: काही कचरा आणि इतर कचरा

HOST निर्देश

याक्षणी, यांडेक्सने या निर्देशाला समर्थन देणे थांबवले आहे.

बरोबर robots.txt: सेटअप

robots.txt फाइलची सामग्री साइटच्या प्रकारावर (ऑनलाइन स्टोअर, ब्लॉग), वापरलेले CMS, संरचना वैशिष्ट्ये आणि इतर अनेक घटकांवर अवलंबून असते. म्हणून, व्यावसायिक वेबसाइटसाठी ही फाईल तयार करणे, विशेषत: जर तो एक जटिल प्रकल्प असेल तर, पुरेसा अनुभव असलेल्या एसइओ तज्ञाने केले पाहिजे.

सामग्रीचा कोणता भाग अनुक्रमणिकेतून बंद करणे अधिक चांगले आहे आणि शोध परिणामांमध्ये कोणता भाग दिसण्याची अनुमती द्यायची याबद्दल एक अप्रस्तुत व्यक्ती बहुधा योग्य निर्णय घेऊ शकणार नाही.

वर्डप्रेससाठी योग्य Robots.txt उदाहरण

वापरकर्ता-एजंट: * # रोबोट्ससाठी सामान्य नियम, Yandex आणि Google वगळता, # कारण त्यांच्यासाठी नियम खाली आहेत Disallow: /cgi-bin # होस्टिंगवरील फोल्डर Disallow: /? # मुख्य पृष्ठावरील सर्व विनंती पॅरामीटर्स नाकारू द्या: /wp- # सर्व WP फायली: /wp-json/, /wp-includes, /wp-content/plugins नाकारू द्या: /wp/ # उपनिर्देशिका असल्यास /wp/ जेथे CMS स्थापित आहे (जर नसेल तर, # नियम हटवला जाऊ शकतो) Disallow: *?s= # search Disallow: *&s= # search Disallow: /search/ # search Disallow: /author/ # author archive Disallow: /users/ # लेखक संग्रहण नाकारणे: */ ट्रॅकबॅक # ट्रॅकबॅक, लेखाच्या उघडलेल्या # दुव्याच्या दिसण्याबद्दल टिप्पण्यांमधील सूचना नाकारणे: */फीड # सर्व फीड्स नाकारणे: */आरएसएस # आरएसएस फीड नाकारणे: */एम्बेड # सर्व एम्बेडिंग नाकारणे : */wlwmanifest.xml # मॅनिफेस्ट xml फाइल Windows Live Writer (जर तुम्ही ती वापरत नसाल तर, # नियम हटवला जाऊ शकतो) Disallow: /xmlrpc.php # WordPress API फाइल Disallow: *utm*= # utm टॅगसह दुवे नाकारणे: *openstat= # openstat टॅगसह दुवे परवानगी द्या: */uploads # अपलोड फाइल्ससह फोल्डर उघडा साइटमॅप: http://site.ru/sitemap.xml # साइटमॅप पत्ता वापरकर्ता-एजंट: GoogleBot # Google साठी नियम (मी टिप्पण्या डुप्लिकेट करू नका) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm*= Disallow: *openstat= Allow: */uploads Allow: /*/*.js # उघडा js स्क्रिप्ट आत / wp - (/*/ - प्राधान्यासाठी) परवानगी द्या: /*/*.css # सीएसएस फाइल्स आत उघडा /wp- (/*/ - प्राधान्यासाठी) परवानगी द्या: /wp-*.png # प्लगइन, कॅशे फोल्डर इ. मध्ये प्रतिमा. अनुमती द्या: /wp-*.jpg # प्लगइन्स, कॅशे फोल्डर इ. मध्ये प्रतिमा. अनुमती द्या: /wp-*.jpeg # इमेज इन प्लगइन्स, कॅशे फोल्डर इ. अनुमती द्या: /wp-*.gif # इमेज इन प्लगइन्स, कॅशे फोल्डर इ. परवानगी द्या: /wp-admin/admin-ajax.php # प्लगइनद्वारे वापरलेले जेएस आणि सीएसएस वापरकर्ता-एजंट: Yandex # Yandex साठी नियम (मी टिप्पण्या डुप्लिकेट करत नाही) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Allow: */uploads Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png परवानगी द्या: /wp-*.jpg परवानगी द्या: /wp-*.jpeg अनुमती द्या: /wp-*.gif परवानगी द्या: /wp-admin/admin-ajax.php क्लीन-परम: utm_source&utm_medium&utm_campaign # Yandex # अनुक्रमित करण्यापासून अवरोधित न करण्याची शिफारस करते, परंतु हटवण्याची शिफारस करते टॅग पॅरामीटर्स, # Google अशा नियमांना समर्थन देत नाही Clean-Param: openstat # समान

Joomla साठी Robots.txt उदाहरण

वापरकर्ता-एजंट: *
अनुमती द्या: /प्रशासक/
परवानगी न द्या: /cache/
नाकारणे: /समाविष्ट/
नाकारणे: /स्थापना/
परवानगी देऊ नका: /language/
परवानगी न द्या: /लायब्ररी/
परवानगी न द्या: /media/
परवानगी न द्या: /modules/
अनुमती द्या: /plugins/
अनुमती द्या: /टेम्प्लेट्स/
अनुमती द्या: /tmp/
नाकारू द्या: /xmlrpc/

Bitrix साठी Robots.txt उदाहरण

वापरकर्ता-एजंट: *
अनुमती द्या: /*index.php$
परवानगी न द्या: /bitrix/
अनुमती द्या: /auth/
परवानगी नाकार: /वैयक्तिक/
अनुमती द्या: /अपलोड/
अनुमती द्या: /शोध/
अनुमती द्या: /*/search/
परवानगी नाकार: /*/slide_show/
परवानगी न द्या: /*/gallery/*order=*
परवानगी नाकार: /*?print=
परवानगी न द्या: /*&print=
नाकारणे: /*register=
अनुमती द्या: /*forgot_password=
अनुमती द्या: /*change_password=
नाकारणे: /*लॉगिन=
नाकारणे: /*लॉगआउट=
नाकारणे: /*auth=
नाकारणे: /*?action=
नाकारणे: /*action=ADD_TO_COMPARE_LIST
नाकारणे: /*action=DELETE_FROM_COMPARE_LIST
नाकारणे: /*कृती=ADD2BASKET
नाकारणे: /*कृती=खरेदी
नाकारणे: /*बिट्रिक्स_*=
अनुमती द्या: /*backurl=*
अनुमती द्या: /*BACKURL=*
अनुमती द्या: /*back_url=*
अनुमती द्या: /*BACK_URL=*
अनुमती द्या: /*back_url_admin=*
अनुमती द्या: /*print_course=Y
अनुमती द्या: /*COURSE_ID=
परवानगी नाकार: /*?COURSE_ID=
परवानगी नाकार: /*?PAGEN
अनुमती द्या: /*PAGEN_1=
अनुमती द्या: /*PAGEN_2=
अनुमती द्या: /*PAGEN_3=
अनुमती द्या: /*PAGEN_4=
अनुमती द्या: /*PAGEN_5=
अनुमती द्या: /*PAGEN_6=
अनुमती द्या: /*PAGEN_7=

अनुमती द्या: /*PAGE_NAME=शोध
अनुमती द्या: /*PAGE_NAME=user_post
नाकारू द्या: /*PAGE_NAME=detail_slide_show
अनुमती द्या: /*शोवाल
नाकारणे: /*show_all=
साइटमॅप: तुमच्या XML फॉरमॅट मॅपचा http://path

MODx साठी Robots.txt उदाहरण

वापरकर्ता-एजंट: *
परवानगी न द्या: /assets/cache/
अनुमती द्या: /assets/docs/
नाकारू द्या: /मालमत्ता/निर्यात/
नाकारू द्या: /assets/import/
नाकारणे: /assets/modules/
नाकारू द्या: /assets/plugins/
नाकारू द्या: /assets/snippets/
परवानगी न द्या: /install/
अनुमती द्या: /व्यवस्थापक/
साइटमॅप: http://site.ru/sitemap.xml

Drupal साठी Robots.txt उदाहरण

वापरकर्ता-एजंट: *
नाकारणे: /डेटाबेस/
नाकारणे: /समाविष्ट/
अनुमती द्या: /misc/
परवानगी न द्या: /modules/
अनुमती द्या: /साइट्स/
परवानगी देऊ नका: /themes/
अनुमती द्या: /scripts/
अनुमती द्या: /अद्यतन/
अनुमती द्या: /प्रोफाइल/
अनुमती द्या: /प्रोफाइल
अनुमती द्या: /प्रोफाइल/*
अनुमती द्या: /xmlrpc.php
परवानगी नाकारू द्या: /cron.php
अनुमती द्या: /update.php
नाकारू द्या: /install.php
अनुमती द्या: /index.php
परवानगी न द्या: /admin/
अनुमती द्या: /टिप्पणी/उत्तर/
परवानगी न द्या: /contact/
परवानगी न द्या: /logout/
अनुमती द्या: /शोध/
परवानगी न द्या: /user/register/
परवानगी न द्या: /user/password/
नाकारणे: *नोंदणी*
अनुमती द्या: *लॉगिन*
अनुमती द्या: /टॉप-रेट-
परवानगी न द्या: /messages/
परवानगी न द्या: /book/export/
अनुमती द्या: /user2userpoints/
अनुमती द्या: /myuserpoints/
अनुमती द्या: /tagadelic/
अनुमती द्या: /रेफरल/
नाकारणे: /एग्रीगेटर/
परवानगी न द्या: /files/pin/
अनुमती द्या: /तुमची मते
अनुमती द्या: /टिप्पण्या/अलीकडील
परवानगी न द्या: /*/edit/
परवानगी न द्या: /*/delete/
परवानगी न द्या: /*/export/html/
अनुमती द्या: /वर्गीकरण/टर्म/*/0$
परवानगी न द्या: /*/edit$
नाकारू द्या: /*/आउटलाइन$
अनुमती द्या: /*/पुनरावृत्ती$
परवानगी नाकारू द्या: /*/contact$
नाकारणे: /*डाउनलोडपाईप
अनुमती द्या: /node$
नाकारू द्या: /node/*/track$
अनुमती द्या: /*&
अनुमती द्या: /*%
नाकारणे: /*?page=0
नाकारणे: /*विभाग
नाकारणे: /*ऑर्डर
अनुमती द्या: /*?क्रमवारी*
अनुमती द्या: /*&क्रमवारी*
नाकारणे: /*votesupdown
नाकारणे: /*कॅलेंडर
परवानगी न द्या: /*index.php
परवानगी द्या: /*?page=
नाकारणे: /*?
साइटमॅप: तुमच्या XML फॉरमॅट मॅपचा http://path

लक्ष द्या!

CMS सतत अपडेट केले जातात. तुम्हाला इतर पृष्ठे अनुक्रमित करण्यापासून अवरोधित करण्याची आवश्यकता असू शकते. उद्देशानुसार, इंडेक्सिंगवरील बंदी काढली जाऊ शकते किंवा, उलट, जोडली जाऊ शकते.

robots.txt तपासा

robots.txt फाइलच्या डिझाइनसाठी प्रत्येक शोध इंजिनच्या स्वतःच्या आवश्यकता असतात.

करण्यासाठी robots.txt तपासाफाइलची वाक्यरचना आणि संरचनेची शुद्धता तपासण्यासाठी, तुम्ही ऑनलाइन सेवांपैकी एक वापरू शकता. उदाहरणार्थ, Yandex आणि Google वेबमास्टरसाठी त्यांच्या स्वतःच्या साइट विश्लेषण सेवा देतात, ज्यात समाविष्ट आहे robots.txt विश्लेषण:

Yandex शोध रोबोटसाठी robotx.txt तपासत आहे

हे Yandex - Yandex.Webmaster मधील विशेष साधन वापरून केले जाऊ शकते आणि दोन पर्याय देखील आहेत.

पर्याय 1:

शीर्षस्थानी उजवीकडे ड्रॉप-डाउन सूची - निवडा Robots.txt विश्लेषणकिंवा http://webmaster.yandex.ru/robots.xml या दुव्याचे अनुसरण करा

हे विसरू नका की तुम्ही robots.txt फाइलमध्ये केलेले सर्व बदल त्वरित उपलब्ध होणार नाहीत, परंतु काही काळानंतरच.

Google शोध रोबोटसाठी robotx.txt तपासत आहे

  1. Google Search Console मध्ये, तुमची साइट निवडा, तपासणी टूलवर जा आणि तुमच्या robots.txt फाइलमधील सामग्रीचे पुनरावलोकन करा. वाक्यरचनाआणि मेंदू टीझरत्यातील त्रुटी हायलाइट केल्या जातील आणि त्यांची संख्या संपादन विंडो अंतर्गत दर्शविली जाईल.
  2. इंटरफेस पृष्ठाच्या तळाशी, योग्य विंडोमध्ये इच्छित URL निर्दिष्ट करा.
  3. उजवीकडील ड्रॉप-डाउन मेनूमधून, निवडा रोबोट.
  4. बटणावर क्लिक करा तपासा.
  5. स्थिती प्रदर्शित होईल उपलब्धकिंवा उपलब्ध नाही. पहिल्या प्रकरणात, Google रोबोट्स आपण निर्दिष्ट केलेल्या पत्त्यावर जाऊ शकतात, परंतु दुसऱ्यामध्ये - नाही.
  6. आवश्यक असल्यास, मेनूमध्ये बदल करा आणि पुन्हा चाचणी करा. लक्ष द्या!या सुधारणा तुमच्या साइटवरील robots.txt फाइलमध्ये आपोआप जोडल्या जाणार नाहीत.
  7. सुधारित सामग्री कॉपी करा आणि ती तुमच्या वेब सर्व्हरवरील robots.txt फाइलमध्ये जोडा.

Yandex आणि Google कडील सत्यापन सेवांव्यतिरिक्त, इतर अनेक ऑनलाइन आहेत robots.txt प्रमाणक.

Robots.txt जनरेटर

  1. SEOlib.ru कडून सेवा या साधनाचा वापर करून तुम्ही Robots.txt फाइलमधील निर्बंध पटकन मिळवू शकता आणि तपासू शकता.
  2. pr-cy.ru कडून जनरेटर Robots.txt जनरेटरच्या परिणामी, तुम्हाला मजकूर प्राप्त होईल जो Robots.txt नावाच्या फाइलमध्ये जतन केला गेला पाहिजे आणि तुमच्या साइटच्या रूट निर्देशिकेवर अपलोड केला गेला पाहिजे.

मला शोध इंजिनांद्वारे अनुक्रमित करण्यापासून विशिष्ट क्वेरी स्ट्रिंग (वापरकर्त्यासाठी अद्वितीय अहवाल, ज्यापैकी प्रत्येकाचा स्वतःचा पत्ता आहे) असलेली पृष्ठे वगळण्याचे कार्य होते. मी स्वतःसाठी ही समस्या सोडवली आणि साइट इंडेक्सिंगला परवानगी देण्याच्या आणि प्रतिबंधित करण्याच्या समस्या पूर्णपणे समजून घेण्याचा निर्णय घेतला. हे साहित्य यासाठी समर्पित आहे. यात robots.txt साठी केवळ प्रगत वापर प्रकरणेच नाहीत तर साइट इंडेक्सिंग नियंत्रित करण्याचे इतर, कमी ज्ञात मार्ग देखील समाविष्ट आहेत.

शोध इंजिनांद्वारे अनुक्रमणिकेतून विशिष्ट फोल्डर कसे वगळावे याची अनेक उदाहरणे इंटरनेटवर आहेत. परंतु अशी परिस्थिती उद्भवू शकते जेव्हा आपल्याला पृष्ठे वगळण्याची आवश्यकता असते आणि सर्वच नाही, परंतु केवळ निर्दिष्ट पॅरामीटर्स असतात.

पॅरामीटर्ससह उदाहरण पृष्ठ: site.ru/?act=report&id=7a98c5

येथे कृतीव्हेरिएबलचे नाव आहे ज्याचे मूल्य आहे अहवाल, आणि आयडी- हे व्हॅल्यूसह व्हेरिएबल देखील आहे 7a98c5. त्या. प्रश्नचिन्हानंतर क्वेरी स्ट्रिंग (पॅरामीटर्स) येते.

अनुक्रमणिकेपासून पॅरामीटर्ससह पृष्ठे अवरोधित करण्याचे अनेक मार्ग आहेत:

  • robots.txt फाइल वापरून
  • .htaccess फाइलमधील नियम वापरणे
  • रोबोट मेटा टॅग वापरणे

robots.txt फाइलमध्ये अनुक्रमणिका नियंत्रित करणे

Robots.txt फाइल

फाईल robots.txtही एक साधी मजकूर फाइल आहे जी साइटच्या मूळ निर्देशिकेत (फोल्डर) असते आणि त्यात एक किंवा अधिक नोंदी असतात. फाइल सामग्रीचे विशिष्ट उदाहरण:

वापरकर्ता-एजंट: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/

या फाइलमध्ये, तीन डिरेक्टरी अनुक्रमणिकेतून वगळल्या आहेत.

लक्षात ठेवा " सह ओळ नकार द्या"आपण वगळू इच्छित असलेल्या प्रत्येक URL उपसर्गासाठी स्वतंत्रपणे लिहावे. म्हणजेच, आपण लिहू शकत नाही" अनुमती द्या: /cgi-bin/ /tmp/"एका ओळीत. रिकाम्या ओळींचा विशेष अर्थ देखील लक्षात ठेवा - ते रेकॉर्डचे ब्लॉक वेगळे करतात.

नियमित अभिव्यक्ती कोणत्याही स्ट्रिंगमध्ये समर्थित नाहीत वापरकर्ता-एजंट, किंवा मध्ये नकार द्या.

robots.txt फाइल तुमच्या साइटच्या रूट फोल्डरमध्ये स्थित असावी. त्याची वाक्यरचना खालीलप्रमाणे आहे.

वापरकर्ता-एजंट: * Disallow: /folder किंवा अनुक्रमणिकेसाठी पृष्ठ प्रतिबंधित Disallow: /other फोल्डर

मूल्य म्हणून वापरकर्ता-एजंटअसे सूचित * (तारक) - हे कोणत्याही मूल्याशी जुळते, उदा. नियम सर्व शोध इंजिनांसाठी आहेत. तारकाऐवजी, आपण विशिष्ट शोध इंजिनचे नाव निर्दिष्ट करू शकता ज्यासाठी नियम अभिप्रेत आहे.

एकापेक्षा जास्त निर्देश निर्दिष्ट केले जाऊ शकतात नकार द्या.

तुम्ही तुमच्या robots.txt फाइलमध्ये वाइल्डकार्ड वर्ण वापरू शकता:

  • * कोणत्याही वैध वर्णाची 0 किंवा अधिक उदाहरणे दर्शवते. त्या. ही कोणतीही स्ट्रिंग आहे, रिकाम्या स्ट्रिंगसह.
  • $ URL च्या शेवटी चिन्हांकित करते.

इतर वर्ण, ज्यात &, ?, =, इ. शब्दशः घेतले जातात.

robots.txt वापरून विशिष्ट पॅरामीटर्ससह पृष्ठ अनुक्रमित करण्यास प्रतिबंधित करणे

म्हणून मला पत्ते अवरोधित करायचे आहेत (त्याऐवजी अर्थकोणतीही स्ट्रिंग असू शकते): site.ru/?act=report&id=VALUE

यासाठी नियम आहे:

वापरकर्ता-एजंट: * नाकारणे: /*?*act=report&id=*

त्याच्यात / (स्लॅश) म्हणजे साइटचे रूट फोल्डर, त्यानंतर * (तारक), याचा अर्थ "काहीही" असा होतो. त्या. हा कोणताही सापेक्ष पत्ता असू शकतो, उदाहरणार्थ:

  • /page.php
  • /ऑर्डर/नवीन/आयडी

नंतर खालील ? (प्रश्नचिन्ह), ज्याचा शब्दशः अर्थ लावला जातो, म्हणजे. प्रश्नचिन्ह सारखे. म्हणून, खालील क्वेरी ओळ आहे.

दुसरा * म्हणजे क्वेरी स्ट्रिंगमध्ये काहीही असू शकते.

त्यानंतर वर्णांचा क्रम येतो act=report&id=*, त्यात act=report&id=शब्दशः आहे तसा अर्थ लावला जातो आणि शेवटच्या तारकाचा अर्थ पुन्हा कोणतीही ओळ आहे.

शोध इंजिनांद्वारे अनुक्रमित करण्यास मनाई, परंतु जाहिरात नेटवर्कच्या क्रॉलर्सना परवानगी

तुम्ही सर्च इंजिनसाठी इंडेक्सिंगपासून साइट बंद केली असेल किंवा त्यातील काही विभाग बंद केले असतील, तर त्यावर AdSense जाहिराती दाखवल्या जाणार नाहीत! अनुक्रमणिका बंद केलेल्या पृष्ठांवर जाहिराती देणे हे इतर संलग्न नेटवर्कमध्ये उल्लंघन मानले जाऊ शकते.

याचे निराकरण करण्यासाठी, फाइलच्या अगदी सुरुवातीस जोडा robots.txtखालील ओळी:

वापरकर्ता-एजंट: Mediapartners-Google Disallow: User-agent: AdsBot-Google* Disallow: User-Agent: YandexDirect Disallow:

या ओळींसह आम्ही बॉट्सला परवानगी देतो Mediapartners-Google, AdsBot-Google*आणि YandexDirectसाइट अनुक्रमित करा.

त्या. माझ्या केससाठी robots.txt फाइल अशी दिसते:

वापरकर्ता-एजंट: Mediapartners-Google Disallow: User-agent: AdsBot-Google* Disallow: User-Agent: YandexDirect Disallow: User-agent: * Disallow: /*?*act=report&id=*

क्वेरी स्ट्रिंग असलेली सर्व पृष्ठे अनुक्रमित होण्यापासून प्रतिबंधित करा

हे खालीलप्रमाणे केले जाऊ शकते:

वापरकर्ता-एजंट: * disallow: /*?*

हे उदाहरण URL मध्ये असलेली सर्व पृष्ठे अवरोधित करते ? (प्रश्न चिन्ह).

लक्षात ठेवा: डोमेन नावानंतर लगेचच प्रश्नचिन्ह, उदा. site.ru/?अनुक्रमणिका पृष्ठाच्या समतुल्य आहे, म्हणून या नियमाची काळजी घ्या.

GET पद्धतीद्वारे पास केलेल्या विशिष्ट पॅरामीटरसह पृष्ठांचे अनुक्रमणिका प्रतिबंधित करणे

उदाहरणार्थ, तुम्हाला क्वेरी स्ट्रिंगमध्ये पॅरामीटर असलेल्या URL ब्लॉक करण्याची आवश्यकता आहे ऑर्डर, खालील नियम यासाठी योग्य आहे:

वापरकर्ता-एजंट: * नाकारणे: /*?* ऑर्डर=

अनेक पॅरामीटर्ससह पृष्ठांचे अनुक्रमणिका प्रतिबंधित करा

आपण क्वेरी स्ट्रिंग किंवा पॅरामीटर असलेली पृष्ठे अनुक्रमित होण्यापासून रोखू इच्छितो असे समजा dir, किंवा पॅरामीटर ऑर्डर, किंवा पॅरामीटर p. हे करण्यासाठी, प्रत्येक ब्लॉकिंग पर्यायांची स्वतंत्र नियमांमध्ये यादी करा, असे काहीतरी:

वापरकर्ता-एजंट: * Disallow: /*?*dir= Disallow: /*?*order= Disallow: /*?*p=

शोध इंजिनांना त्यांच्या URL मध्ये अनेक विशिष्ट पॅरामीटर्स असलेली पृष्ठे अनुक्रमित करण्यापासून कसे रोखायचे

उदाहरणार्थ, तुम्हाला क्वेरी स्ट्रिंगमधील सामग्री पॅरामीटर पृष्ठ अनुक्रमित करण्यापासून वगळण्याची आवश्यकता आहे dir, पॅरामीटर ऑर्डरआणि पॅरामीटर p. उदाहरणार्थ, या URL असलेले पृष्ठ अनुक्रमणिकेतून वगळले जावे: mydomain.com/new-printers?dir=asc&order=price&p=3

हे निर्देश वापरून साध्य केले जाऊ शकते:

वापरकर्ता-एजंट: * नाकारणे: /*?dir=*&order=*&p=*

सतत बदलू शकणाऱ्या पॅरामीटर मूल्यांऐवजी, तारका वापरा. पॅरामीटरमध्ये नेहमी समान मूल्य असल्यास, नंतर त्याचे शाब्दिक शब्दलेखन वापरा.

अनुक्रमणिका पासून साइट अवरोधित कसे

सर्व रोबोट्सना संपूर्ण साइट अनुक्रमित करण्यापासून रोखण्यासाठी:

वापरकर्ता-एजंट: * नाकारणे: /

सर्व रोबोट्सना पूर्ण प्रवेश द्या

सर्व रोबोट्सला साइट इंडेक्स करण्यासाठी पूर्ण प्रवेश देण्यासाठी:

वापरकर्ता-एजंट: * अनुमती द्या:

एकतर फक्त रिकामी /robots.txt फाइल तयार करा, किंवा ती अजिबात वापरू नका - डीफॉल्टनुसार, अनुक्रमणिकेसाठी प्रतिबंधित नसलेली प्रत्येक गोष्ट खुली मानली जाते. म्हणून, रिकामी फाइल किंवा तिची अनुपस्थिती म्हणजे पूर्ण अनुक्रमणिका करण्याची परवानगी.

सर्व शोध इंजिनांना साइटचा भाग अनुक्रमित करण्यापासून प्रतिबंधित करणे

सर्व रोबोट्सवरून साइटचे काही विभाग बंद करण्यासाठी, खालील प्रकारच्या निर्देशांचा वापर करा, ज्यामध्ये आपल्या स्वतःच्या मूल्यांसह पुनर्स्थित करा:

वापरकर्ता-एजंट: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /junk/

वैयक्तिक रोबोट अवरोधित करणे

वैयक्तिक रोबोट आणि शोध इंजिनचा प्रवेश अवरोधित करण्यासाठी, ओळीत रोबोटचे नाव वापरा वापरकर्ता-एजंट. या उदाहरणात, प्रवेश नाकारला आहे बॅडबॉट:

वापरकर्ता-एजंट: बॅडबॉट नाकारणे: /

लक्षात ठेवा: बरेच रोबोट robots.txt फाइलकडे दुर्लक्ष करतात, त्यामुळे साइट किंवा तिचा भाग अनुक्रमित होण्यापासून थांबवण्याचे हे विश्वसनीय साधन नाही.

साइटला एका शोध इंजिनद्वारे अनुक्रमित करण्याची अनुमती द्या

समजा आम्ही फक्त Google ला साइट अनुक्रमित करण्याची परवानगी देऊ इच्छितो आणि इतर शोध इंजिनांमध्ये प्रवेश नाकारू इच्छितो, नंतर हे करा:

वापरकर्ता-एजंट: Google Disallow: User-agent: * Disallow: /

पहिल्या दोन ओळी Google रोबोटला साइट अनुक्रमित करण्याची परवानगी देतात आणि शेवटच्या दोन ओळी इतर सर्व रोबोटला तसे करण्यास प्रतिबंधित करतात.

एक वगळता सर्व फायली अनुक्रमित करण्यावर बंदी

निर्देश परवानगी द्यानिर्दिष्ट शोध रोबोट्ससाठी प्रवेश करण्यायोग्य मार्ग परिभाषित करते. मार्ग निर्दिष्ट न केल्यास, त्याकडे दुर्लक्ष केले जाते.

वापर:

परवानगी द्या: [पथ]

महत्वाचे: परवानगी द्याआधी अनुसरण करणे आवश्यक आहे नकार द्या.

नोंद: परवानगी द्यामानकाचा भाग नाही, परंतु अनेक लोकप्रिय शोध इंजिने त्यास समर्थन देतात.

वैकल्पिकरित्या, वापरून नकार द्यातुम्ही एक फाईल किंवा एक फोल्डर वगळता सर्व फोल्डरमध्ये प्रवेश नाकारू शकता.

robots.txt चे ऑपरेशन कसे तपासायचे

IN Yandex.Webmasterतुमच्या फाइलच्या robots.txt फाइलनुसार त्यांना परवानगी आहे की नाही हे पाहण्यासाठी विशिष्ट URL तपासण्यासाठी एक साधन आहे.

हे करण्यासाठी, टॅबवर जा साधने, निवडा Robots.txt विश्लेषण. ही फाईल आपोआप डाउनलोड झाली पाहिजे, जर जुनी आवृत्ती असेल तर बटण क्लिक करा तपासा:

मग शेतात URL ला परवानगी आहे का?तुम्हाला तपासायचे असलेले पत्ते प्रविष्ट करा. आपण एकाच वेळी अनेक पत्ते प्रविष्ट करू शकता, त्यापैकी प्रत्येक नवीन ओळीवर ठेवणे आवश्यक आहे. सर्वकाही तयार झाल्यावर, बटण दाबा तपासा.

स्तंभात परिणामजर URL शोध रोबोट्सद्वारे अनुक्रमित करण्यासाठी बंद असेल, तर ती लाल दिव्याने चिन्हांकित केली जाईल, जर उघडली असेल तर ती हिरव्या दिव्याने चिन्हांकित केली जाईल.

IN शोध कन्सोलएक समान साधन आहे. ते टॅबमध्ये आहे स्कॅनिंग. कॉल केला Robots.txt फाइल तपासणी साधन.

जर तुम्ही robots.txt फाइल अपडेट केली असेल, तर बटणावर क्लिक करा पाठवा, आणि नंतर उघडलेल्या विंडोमध्ये, बटणावर पुन्हा क्लिक करा पाठवा:

त्यानंतर, पृष्ठ रीलोड करा (F5 की):

सत्यापित करण्यासाठी पत्ता प्रविष्ट करा, बॉट निवडा आणि बटणावर क्लिक करा तपासा:

रोबोट मेटा टॅग वापरून पृष्ठ अनुक्रमणिका प्रतिबंधित करणे

आपण अनुक्रमणिका पासून पृष्ठ बंद करू इच्छित असल्यास, नंतर टॅग मध्ये लिहा:

अनुक्रमणिकेसाठी कोणत्या प्रकारच्या फाइल्स प्रतिबंधित आहेत हे सूचित करण्यासाठी.

उदाहरणार्थ, .PDF विस्तारासह सर्व फायली अनुक्रमित करण्यावर बंदी:

हेडर सेट X-Robots-Tag "noindex, nofollow"

सर्व इमेज फाइल्स (.png, .jpeg, .jpg, .gif) अनुक्रमित करण्यासाठी प्रतिबंध:

हेडर सेट X-Robots-Tag "noindex"

mod_rewrite वापरून शोध इंजिनमध्ये प्रवेश अवरोधित करणे

खरं तर, वर वर्णन केलेली प्रत्येक गोष्ट हमी देत ​​नाही की शोध इंजिने आणि प्रतिबंधित रोबोट तुमच्या साइटवर प्रवेश करणार नाहीत आणि अनुक्रमित करणार नाहीत. असे रोबोट आहेत जे robots.txt फाईलचा "आदर" करतात आणि असे काही आहेत जे त्याकडे दुर्लक्ष करतात.

mod_rewrite वापरून तुम्ही विशिष्ट बॉट्ससाठी प्रवेश अवरोधित करू शकता

RewriteEngine On RewriteCond %(HTTP_USER_AGENT) Google RewriteCond %(HTTP_USER_AGENT) Yandex RewriteRule ^ - [F]

वरील निर्देश संपूर्ण साइटसाठी Google आणि Yandex रोबोट्सचा प्रवेश अवरोधित करतील.

अहवाल/

RewriteEngine On RewriteCond %(HTTP_USER_AGENT) Google RewriteCond %(HTTP_USER_AGENT) Yandex RewriteRule ^report/ - [F]

mod_rewrite वापरून वैयक्तिक पृष्ठे आणि साइटच्या विभागांमध्ये शोध इंजिनसाठी प्रवेश अवरोधित करण्यात आपल्याला स्वारस्य असल्यास, टिप्पण्यांमध्ये लिहा आणि आपले प्रश्न विचारा - मी आणखी उदाहरणे तयार करेन.

13 निरीक्षणे " URL मधील विशिष्ट पॅरामीटर्ससह पृष्ठे अनुक्रमित करण्यापासून कसे वगळावे आणि शोध इंजिनद्वारे साइट अनुक्रमणिका नियंत्रित करण्यासाठी इतर तंत्रे
  1. तरस

    अर्थाने सर्वात जवळचे, परंतु येथे फोल्डर आहे

    जर, उदाहरणार्थ, आपल्याला अनुक्रमणिकेसाठी फक्त एक फोल्डर बंद करणे आवश्यक आहे अहवाल/, नंतर खालील निर्देश Google आणि Yandex स्कॅनरसाठी या फोल्डरमध्ये प्रवेश पूर्णपणे अवरोधित करतील (403 प्रवेश नाकारलेला प्रतिसाद कोड जारी केला जाईल)

या मार्गदर्शकाचा उद्देश वेबमास्टर आणि प्रशासकांना robots.txt वापरण्यात मदत करणे हा आहे.

परिचय

रोबोट सूट मानक त्याच्या मुळाशी अगदी सोपे आहे. थोडक्यात, हे असे कार्य करते:

जेव्हा मानकांचे अनुसरण करणारा रोबोट एखाद्या साइटला भेट देतो तेव्हा तो प्रथम “/robots.txt” नावाच्या फाइलची विनंती करतो. अशी फाइल आढळल्यास, रोबोट साइटच्या काही भागांना अनुक्रमित करण्यास प्रतिबंधित करण्याच्या सूचनांसाठी त्याचा शोध घेतो.

robots.txt फाइल कुठे ठेवायची

रोबोट फक्त तुमच्या साइटवर "/robots.txt" URL ची विनंती करतो;

साइट URL Robots.txt फाइल URL
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

साइटवर फक्त एक फाइल “/robots.txt” असू शकते. उदाहरणार्थ, तुम्ही robots.txt फाइल वापरकर्त्याच्या उपडिरेक्टरीमध्ये ठेवू नये - तरीही रोबोट त्यांना तिथे शोधणार नाहीत. जर तुम्हाला उपडिरेक्टरीमध्ये robots.txt फाइल्स तयार करायच्या असतील, तर तुम्हाला त्या साइटच्या रूटवर असलेल्या एकल robots.txt फाइलमध्ये प्रोग्रामॅटिकरित्या एकत्रित करण्याचा मार्ग आवश्यक आहे. तुम्ही वापरू शकता.

लक्षात ठेवा की URL केस संवेदनशील असतात आणि फाइल नाव “/robots.txt” पूर्णपणे लोअरकेसमध्ये लिहिलेले असणे आवश्यक आहे.

robots.txt चे चुकीचे स्थान
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt फाइल साइटच्या रूटवर स्थित नाही
ftp://ftp.w3.com/robots.txt रोबोट्स एफटीपी इंडेक्स करत नाहीत
http://www.w3.org/Robots.txt फाइलचे नाव लोअरकेसमध्ये नाही

तुम्ही बघू शकता, robots.txt फाइल साइटच्या मुळाशीच ठेवली पाहिजे.

robots.txt फाइलमध्ये काय लिहायचे

robots.txt फाईल सहसा असे लिहिलेली असते:

वापरकर्ता-एजंट: *
परवानगी न द्या: /cgi-bin/
अनुमती द्या: /tmp/
अनुमती द्या: /~joe/

या उदाहरणात, तीन निर्देशिकांचे अनुक्रमणिका निषिद्ध आहे.

लक्षात ठेवा की प्रत्येक निर्देशिका वेगळ्या ओळीवर सूचीबद्ध आहे - तुम्ही "Disallow: /cgi-bin/ /tmp/" लिहू शकत नाही. तुम्ही एक Disallow किंवा User-agent स्टेटमेंटला अनेक ओळींमध्ये विभाजित करू शकत नाही, कारण एकमेकांपासून सूचना विभक्त करण्यासाठी लाइन ब्रेकचा वापर केला जातो.

रेग्युलर एक्सप्रेशन्स आणि वाइल्डकार्ड्स देखील वापरता येत नाहीत. वापरकर्ता-एजंट निर्देशातील "तारका" (*) चा अर्थ "कोणताही रोबोट" असा होतो. "Disallow: *.gif" किंवा "वापरकर्ता-एजंट: Ya*" सारख्या सूचना समर्थित नाहीत.

robots.txt मधील विशिष्ट सूचना तुमच्या साइटवर आणि तुम्हाला अनुक्रमित होण्यापासून काय रोखायचे आहे यावर अवलंबून असते. येथे काही उदाहरणे आहेत:

संपूर्ण साइटला सर्व रोबोट्सद्वारे अनुक्रमित करण्यापासून अवरोधित करा

वापरकर्ता-एजंट: *
अनुमती द्या: /

सर्व रोबोटला संपूर्ण साइट अनुक्रमित करण्यास अनुमती द्या

वापरकर्ता-एजंट: *
परवानगी देऊ नका:

किंवा तुम्ही फक्त एक रिकामी फाइल “/robots.txt” तयार करू शकता.

अनुक्रमित करण्यापासून फक्त काही निर्देशिका अवरोधित करा

वापरकर्ता-एजंट: *
परवानगी न द्या: /cgi-bin/
अनुमती द्या: /tmp/
अनुमती द्या: /खाजगी/

केवळ एका रोबोटसाठी साइट अनुक्रमणिका प्रतिबंधित करा

वापरकर्ता-एजंट: बॅडबॉट
अनुमती द्या: /

एका रोबोटला साइट अनुक्रमित करण्यास अनुमती द्या आणि इतर सर्व नाकारू द्या

वापरकर्ता-एजंट: यांडेक्स
परवानगी देऊ नका:

वापरकर्ता-एजंट: *
अनुमती द्या: /

अनुक्रमणिकेतून एक वगळता सर्व फायली नाकारा

हे खूप अवघड आहे, कारण... कोणतेही "परवानगी द्या" विधान नाही. त्याऐवजी, सबडिरेक्टरीमध्ये अनुक्रमित करण्याची परवानगी देऊ इच्छित असलेल्या फाइल वगळता तुम्ही सर्व फायली हलवू शकता आणि त्यास अनुक्रमित होण्यापासून प्रतिबंधित करू शकता:

वापरकर्ता-एजंट: *
परवानगी न द्या: /docs/

किंवा तुम्ही सर्व फायलींना इंडेक्स करण्यापासून प्रतिबंधित करू शकता:

वापरकर्ता-एजंट: *
परवानगी देऊ नका: /private.html
अनुमती द्या: /foo.html
अनुमती द्या: /bar.html

लेखकाकडून:तुमच्या वेबसाइटवर अशी पृष्ठे आहेत जी तुम्हाला शोध इंजिनांनी पाहू नयेत? या लेखातून तुम्ही robots.txt मध्ये पृष्ठ अनुक्रमणिका कसे रोखायचे, हे बरोबर आहे की नाही आणि पृष्ठांचा ॲक्सेस कसा ब्लॉक करायचा हे तपशीलवार शिकाल.

म्हणून, तुम्हाला काही पृष्ठे अनुक्रमित होण्यापासून रोखण्याची आवश्यकता आहे. हे करण्याचा सर्वात सोपा मार्ग म्हणजे robots.txt फाइलमध्येच आवश्यक ओळी जोडणे. मला हे लक्षात घ्यायचे आहे की आम्ही एकमेकांशी संबंधित फोल्डर पत्ते निर्दिष्ट केले आहेत, विशिष्ट पृष्ठांचे URL समान प्रकारे निर्दिष्ट केले आहेत किंवा आपण एक परिपूर्ण मार्ग निर्दिष्ट करू शकता.

समजा माझ्या ब्लॉगमध्ये दोन पृष्ठे आहेत: संपर्क, माझ्याबद्दल आणि माझ्या सेवांबद्दल. मी त्यांना अनुक्रमित करू इच्छित नाही. त्यानुसार, आम्ही लिहितो:

वापरकर्ता-एजंट: * नाकारणे: /kontakty/ नाकारणे: /about/ नाकारणे: /uslugi/

दुसरा प्रकार

छान, परंतु काही पृष्ठांवर रोबोटचा प्रवेश अवरोधित करण्याचा हा एकमेव मार्ग नाही. दुसरे म्हणजे html कोडमध्ये एक विशेष मेटा टॅग लावणे. स्वाभाविकच, फक्त त्या रेकॉर्डमध्ये ठेवा ज्यांना बंद करणे आवश्यक आहे. हे असे दिसते:

< meta name = "robots" content = "noindex,nofollow" >

टॅग योग्यरित्या कार्य करण्यासाठी html दस्तऐवजातील हेड कंटेनरमध्ये ठेवणे आवश्यक आहे. जसे आपण पाहू शकता, त्यात दोन पॅरामीटर्स आहेत. नाव रोबोट म्हणून निर्दिष्ट केले आहे आणि हे निर्देश वेब क्रॉलर्ससाठी आहेत हे निर्दिष्ट करते.

सामग्री पॅरामीटरमध्ये स्वल्पविरामाने विभक्त केलेली दोन मूल्ये असणे आवश्यक आहे. प्रथम पृष्ठावरील मजकूर माहिती अनुक्रमित करण्यासाठी बंदी किंवा परवानगी आहे, दुसरे पृष्ठावरील दुवे अनुक्रमित करावे की नाही याचे संकेत आहे.

अशा प्रकारे, जर तुम्हाला पृष्ठ अजिबात अनुक्रमित केले जाऊ नये असे वाटत असेल तर, noindex, nofollow ही मूल्ये निर्दिष्ट करा, म्हणजे, मजकूर अनुक्रमित करू नका आणि खालील लिंक्स, असल्यास, प्रतिबंधित करा. पानावर मजकूर नसेल तर तो अनुक्रमित केला जाणार नाही असा नियम आहे. म्हणजेच, जर सर्व मजकूर noindex मध्ये बंद केला असेल, तर अनुक्रमित करण्यासारखे काहीही नाही, त्यामुळे निर्देशांकात काहीही समाविष्ट केले जाणार नाही.

याव्यतिरिक्त, खालील मूल्ये आहेत:

noindex, फॉलो - टेक्स्ट इंडेक्सिंगवर बंदी, परंतु लिंक्स फॉलो करण्याची परवानगी;

अनुक्रमणिका, nofollow - जेव्हा सामग्री अनुक्रमणिकेमध्ये घेतली पाहिजे तेव्हा वापरली जाऊ शकते, परंतु त्यातील सर्व दुवे बंद केले पाहिजेत.

अनुक्रमणिका, फॉलो - डीफॉल्ट मूल्य. सर्व गोष्टींना परवानगी आहे.