ფაილის რობოტები. რობოტი Yandex. მარტივი ფაილის შექმნა ნებისმიერი ხმის სისტემისთვის

SEO-ს არანაირი პრობლემა არ აქვს. ზოგჯერ შეგიძლიათ დაამატოთ მხოლოდ ერთი პატარა ფაილი თქვენს საიტზე - Robots.txt.თუ გსურთ თქვენი საიტი იყოს ინდექსირებული, რათა საძიებო რობოტებმა მოინახულონ საჭირო გვერდები, თქვენ უნდა დაწეროთ მათთვის რეკომენდაციები.

"Შესაძლებელია?", - ჩართეთ vi.პოჟლივო. ამ მიზეზით, თქვენს ვებსაიტზე არის robots.txt ფაილი.როგორ დავკეცოთ ფაილი სწორად რობოტები, დააყენეთ და დაამატეთ საიტზე - ჩვენ გვესმის ეს სტატია.

რა არის robots.txt და რატომ არის საჭირო?

Robots.txt – პირველადი ტექსტური ფაილირა არის რეკომენდაციები საძიებო რობოტებისთვის: რომელი გვერდების სკანირებაა საჭირო და რომელი არა.

მნიშვნელოვანია: ფაილი შეიცავს UTF-8 დაშიფვრებს, წინააღმდეგ შემთხვევაში საძიებო რობოტებმა შეიძლება ვერ აღმოაჩინონ იგი.

საიტის ინდექსზე რომ შეხვიდე ფაილი არ იქნება?გთხოვთ შედით, მაგრამ რობოტებს შეუძლიათ „ვიოპიონ“ ის გვერდები, რომლებიც არ ჩანს ძიების შედეგებში: მაგალითად, შესვლის გვერდები, ადმინისტრაციული პანელი, საიტის მახასიათებლებიკორისტუვაჩივი, საიტი-სარკე და ა.შ. ყველაფერს პატივს სცემენ "პრანკი სმიტები":

თუ კონკრეტული ინფორმაციის ძიების შედეგები ფუჭად დაიხარჯება, შეიძლება ზიანი მიაყენოთ როგორც თქვენ, ასევე საიტს. კიდევ ერთი - ამ ფაილის გარეშე საიტი უფრო სწრაფად ინდექსირებული იქნება.

Robots.txt ფაილში შეგიძლიათ მიუთითოთ სამი ტიპის ბრძანება ხმის ბგერებისთვის:

  • სკანერი შემოღობილია;
  • დასაშვებია სკანირება;
  • სკანირება დასაშვებია ნაწილობრივ.

ყველაფერი უნდა დარეგისტრირდეს დამატებითი დირექტივებით.

როგორ შევქმნათ სწორი Robots.txt ფაილი საიტისთვის

Robots.txt ფაილი შეიძლება შეიქმნას უბრალოდ Notepad პროგრამაში, ისევე როგორც ნებისმიერ კომპიუტერზე. ფაილის რეგისტრაცია დამწყებს მაქსიმუმ ერთი წელი დასჭირდება (როგორც მოგეხსენებათ ბრძანებები).

თქვენ ასევე შეგიძლიათ გამოიყენოთ სხვა პროგრამები - Notepad, მაგალითად. Є і ონლაინ სერვისები, რომელსაც შეუძლია ავტომატურად შექმნას ფაილი. მაგალითად, ზუსტად ასეCY-PR.comან მედიასოვა.

თქვენ უბრალოდ უნდა შეიყვანოთ თქვენი ვებსაიტის მისამართი, ნებისმიერისთვის ხმის სისტემებიაუცილებელია წესების დადგენა, ბრენდის სარკე (www-ით ან მის გარეშე). დაე, სერვისმა თავად შეაგროვოს ყველაფერი.

მე განსაკუთრებით უპირატესობას ვანიჭებ ძველ „მოძველებულ“ მეთოდს - ფაილის ხელით ჩაწერა ნოუთბუქში. კიდევ ერთი „ზარმაცი გზა“ არის მკითხველთან საფუძვლიანად ყოფნა 🙂 წინააღმდეგ შემთხვევაში, თქვენ უნდა შეამოწმოთ, რომ იქ ყველაფერი სწორად არის დაწერილი. მოდით გავარკვიოთ, როგორ გავაერთიანოთ ეს ფაილი და ვინ არის ამაში დამნაშავე.

დასრულებული Robots.txt ფაილი მდებარეობს საიტის ძირში. უბრალოდ ფაილი საქაღალდის გარეშე:

გსურთ შეამოწმოთ რა არის თქვენს საიტზე? შეიყვანეთ შემდეგი მისამართი მისამართის ზოლში: site.ru/robots.txt. თქვენ ნახავთ შემდეგ გვერდს (ფაილის სახით):

ფაილი შედგება რამდენიმე ბლოკისგან, რომლებიც გამაგრებულია ჩაღრმავებით. კანისთვის - რეკომენდაციები სხვადასხვა ხმის სისტემის ხმის რობოტებისთვის (პლუს ბინძური წესების მქონე ბლოკი ყველასთვის) და სრული ბლოკი საიტის რუკაზე წარდგენით - საიტის რუკა.

ბლოკის შუაში ერთი საძიებო რობოტის წესებით, არ არის საჭირო სამუშაოში შესვლა.

კანის ბლოკი იწყება მომხმარებლის აგენტის დირექტივით.

ყოველი დირექტივის შემდეგ ჩადეთ ნიშანი ":" (ორმაგი), ინტერვალი, ნებისმიერი მნიშვნელობის მითითების შემდეგ (მაგალითად, რომელი მხარე უნდა დაიხუროს ინდექსაციისთვის).

აუცილებელია მიუთითოთ გვერდების კონკრეტული მისამართები და ის, რაც არ არის აბსოლუტური. Vidnosni – არა www.site.ru-ს გარეშე. მაგალითად, თქვენ უნდა დაიცვათ გვერდი ინდექსირებამდეwww.site.ru/shop. ასე რომ, ორმაგების შემდეგ ჩვენ ვაყენებთ კლირინგს, წინ ხაზს და „მაღაზიას“:

აკრძალვა: / მაღაზია.

ვარსკვლავი (*) ნიშნავს სიმბოლოების ნებისმიერ კომპლექტს.

დოლარის ნიშანი ($) არის რიგის დასასრული.

შეიძლება ფიქრობთ, რომ თქვენ უნდა დაწეროთ ფაილი ნულიდან, რათა ის ნებისმიერ ვებსაიტზე გახსნათ და უბრალოდ დააკოპიროთ?

თითოეული საიტისთვის აუცილებელია უნიკალური წესების დადგენა. აუცილებელია ხაზგასმით აღვნიშნოთ სპეციფიკა CMS. მაგალითად, თავად ადმინისტრაციული პანელი მდებარეობს WordPress ძრავის მისამართის უკან /wp-admin და დაკავშირებული იქნება სხვა მისამართზე. რამდენიმე გვერდის მისამართებით, საიტის რუქით და სხვა.

Robots.txt ფაილის შესწორება: ინდექსირება, ხელმძღვანელი სარკე, დირექტივები

როგორც უკვე აღნიშნეთ ეკრანის სურათზე, მომხმარებლის აგენტის დირექტივა პირველ რიგში მოდის. ვონი მიუთითებს მათზე, რომლებისთვისაც საძიებო რობოტების წესები უფრო დაბალი იქნება.

მომხმარებლის აგენტი: * - წესები ყველა საძიებო რობოტისთვის, ნებისმიერი საძიებო სისტემის ჩათვლით (Google, Yandex, Bing, Rambler და ა.შ.).

მომხმარებლის აგენტი: Googlebot – განსაზღვრავს Google-ის ძიების წესებს.

მომხმარებლის აგენტი: Yandex - წესები Yandex საძიებო რობოტისთვის.

ნებისმიერი საძიებო რობოტისთვის, პირველ რიგში წესების დადგენა დიდ მნიშვნელობას ანიჭებს. ალე ახლავე დაიწყე წერა ყველა რობოტის გულისთვის.

აკრძალვა: ღობე ინდექსაციისთვის

საიტის მთლიანად ან სხვა გვერდების ინდექსაციის თავიდან ასაცილებლად, გამოიყენება Disallow დირექტივა.

მაგალითად, შეგიძლიათ მთლიანად დახუროთ საიტი ინდექსაციისთვის (თუ რესურსი შემდგომი დამუშავების პროცესშია და არ გსურთ, რომ ასეთ სიტუაციაში დაიხარჯოს). ამისათვის თქვენ უნდა დაწეროთ ეს:

მომხმარებლის აგენტი: *

აკრძალვა:/

ამრიგად, ყველა საძიებო რობოტს ეკრძალება საიტზე შინაარსის ინდექსირება.

და აი, როგორ შეგიძლიათ გახსნათ საიტი ინდექსაციისთვის:

მომხმარებლის აგენტი: *

აკრძალვა:

ამიტომ, დარწმუნდით, რომ არის სიტყვა Disallow დირექტივის შემდეგ, თუ გსურთ საიტის დახურვა. თუ მოგვიანებით გსურთ მისი გამოვლენა, არ დაგავიწყდეთ დაიმახსოვროთ წესი (და ეს ხშირად კეთდება).

გვერდის მახლობლად ინდექსირების ხედის დასახურად, თქვენ უნდა შეიყვანოთ მისი მისამართი. მე უკვე დავწერე როგორ ავიცილოთ თავიდან:

მომხმარებლის აგენტი: *

აკრძალვა: /wp-admin

ამრიგად, საიტის ადმინისტრაციული პანელი დაიხურა ცნობისმოყვარე თვალებისგან.

რა უნდა იყოს დაფარული ინდექსაციამდე:

  • ადმინისტრაციული პანელი;
  • კორისტუვაჩების მხარის თავისებურებები;
  • კატები;
  • ძიების შედეგები საიტზე;
  • გვერდები შესვლის, რეგისტრაციის, ავტორიზაციისთვის.

შეგიძლიათ დახუროთ ხედის ინდექსირება და ფაილის სხვა ტიპები. ვთქვათ, თქვენ გაქვთ ფაილები თქვენს site.pdf ფაილებში, რომლებიც არ არის ინდექსირებული. და საძიებო რობოტებს შეუძლიათ მარტივად დაასკანირონ საიტზე ატვირთული ფაილები. შეგიძლიათ დახუროთ ისინი შემდეგნაირად ინდექსირების შემდეგ:

მომხმარებლის აგენტი: *

აკრძალვა: /*. pdf$

როგორ გავხსნათ საიტი ინდექსაციისთვის

როდესაც საიტი მთლიანად დახურულია ინდექსაციისთვის, შეგიძლიათ გახსნათ რობოტები ფაილებსა და გვერდებზე წვდომისთვის. ვთქვათ, თქვენ განაახლეთ საიტის დიზაინი და სერვისების კატალოგი არასრული ხდება. თქვენ შეგიძლიათ გაგზავნოთ ხმის რობოტები იქ, რათა მათ გააგრძელონ განყოფილების ინდექსირება. რისთვისაც გამოიყენება ნებართვის დირექტივა:

მომხმარებლის აგენტი: *

დაშვება: /uslugi

აკრძალვა:/

გოლოვნის სარკის საიტი

2018 წლის 20 იანვრამდე, Yandex-ის საძიებო რობოტისთვის robots.txt ფაილი უნდა შეკვეთილიყო საიტის ასახვა Host-ის დირექტივის მეშვეობით. ინფექცია, რომლის მუშაობაც არ არის საჭირო - საკმარისია დააყენეთ მესამე მხარის 301 გადამისამართება .

როგორი სმუტი იყო სარკისებული? გთხოვთ, გაითვალისწინოთ თქვენი ვებსაიტის მისამართი - www-ით ან მის გარეშე. თუ გადამისამართება არ არის მორგებული, მაშინ ორივე საიტი იქნება ინდექსირებული, რაც გამოიწვევს ყველა გვერდის დუბლიკატს.

საიტის რუკა: robots.txt საიტის რუკა

რობოტების ყველა დირექტივის დაზუსტების შემდეგ, აუცილებელია მიუთითოთ ბილიკი საიტის რუქისკენ. საიტის რუკა აჩვენებს რობოტებს, რომ ყველა URL, რომელიც უნდა იყოს ინდექსირებული, მდებარეობს იმავე მისამართზე. Მაგალითად:

საიტის რუკა: site.ru/sitemap.xml

თუ რობოტი დაცოცავს საიტზე, გაირკვევა, რა ცვლილებები განხორციელდა ამ ფაილში. შედეგად, ახალი გვერდები უფრო სწრაფად ინდექსირებული იქნება.

სუფთა პარამის დირექტივა

2009 წელს Yandex-მა შემოიღო ახალი დირექტივა - Clean-param. ეს დაგეხმარებათ აღწეროთ დინამიური პარამეტრები, რომლებიც ცვლის მხარეებს. ეს დირექტივა ყველაზე ხშირად განიხილება ფორუმებზე. აქ არის ბევრი ინფორმაცია, მაგალითად სესიის id, დახარისხების პარამეტრები. როგორც კი ეს დირექტივა დაიწერება, Yandex-ის საძიებო რობოტი ხშირად აგროვებს ძვირფას ინფორმაციას, რომელიც დუბლირებულია.

თქვენ შეგიძლიათ დაწეროთ ეს დირექტივა robots.txt ფაილში.

პარამეტრები, რომლებისთვისაც რობოტს დაზღვევა არ სჭირდება, ღირებულების პირველი ნაწილი ხელახლა უნდა იყოს დაზღვეული & ნიშნით:

Clean-param: sid&sort /forum/viewforum.php

ეს დირექტივა საშუალებას გაძლევთ წაშალოთ დუბლიკატი გვერდები დინამიური მისამართებიდან (როგორიცაა ჩანაცვლება დენის ნიშანი).

სეირნობის დაყოვნების დირექტივა

ეს დირექტივა დაეხმარება მათ, ვისაც სუსტი სერვერი აქვს.

საძიებო რობოტის მოსვლა ნიშნავს დამატებით წვდომას სერვერზე. თუ თქვენ გაქვთ საიტის მაღალი ხილვადობა, მაშინ რესურსი შეიძლება უბრალოდ არ იყოს ხილული და "დააგდო". შედეგად, რობოტი აჩვენებს შეტყობინებას 5xx გადახდის შესახებ. თუ ასეთი სიტუაცია მუდმივად ხდება, საძიებო სისტემამ შეიძლება აღმოაჩინოს, რომ საიტი არაფუნქციონირებს.

გაარკვიეთ რას აკეთებთ და ამავდროულად მუდმივად უნდა უპასუხოთ ზარებს. თქვენი პროდუქტიულობა დროდადრო ეცემა.

იგივე სერვერზე.

დავუბრუნდეთ დირექტივას. Crawl-delay საშუალებას გაძლევთ დაბლოკოთ გვერდების ცოცხალი საიტზე სერვერზე ტრაფიკის შემცირების მიზნით. სხვა სიტყვებით რომ ვთქვათ, თქვენ ადგენთ პერიოდს, რომლის განმავლობაშიც საიტის გვერდები იქნება დაკავებული. მიუთითეთ დანიური პარამეტრიწამებში, როგორც მთელი რიცხვი:

Robots.txt ფაილი— ტექსტური ფაილი .txt ფორმატში, რომელიც საძიებო რობოტებს http სერვერზე წვდომის საშუალებას აძლევს. იაკ vyzanennya, Robots.txt-ცე სტანდარტი რობოტებისთვის, რომელიც მიღებული იქნა W3C კონსორციუმის მიერ 1994 წლის 30 ივნისს და რომელიც ნებაყოფლობით უჭერს მხარს ხმის სისტემების უმეტესობას. robots.txt ფაილი შედგება საძიებო რობოტების ჩანართებისგან, რომლებიც ხელს უშლიან საიტზე ფაილების, გვერდების ან დირექტორიების ინდექსაციას. მოდით გადავხედოთ robots.txt-ის აღწერას ამ ვარიანტისთვის, თუ ვებსაიტი არ დაბლოკავს რობოტებს ვებსაიტზე წვდომას.

მარტივი robots.txt მაგალითი:

მომხმარებლის აგენტი: * დაშვება: /

აქ რობოტები სრულად იძლევიან საშუალებას მთელი საიტის ინდექსირებას.

robots.txt ფაილი უნდა განთავსდეს თქვენი საიტის root დირექტორიაში, ასე რომ თქვენ შეგიძლიათ მიაღწიოთ შემდეგ მისამართზე:

Your_site.ru/robots.txt

robots.txt ფაილის საიტის ძირში დასაყენებლად, საჭიროა წვდომა FTP-ის საშუალებით. თუმცა, ოპერაციული სისტემა (CMS) შესაძლებელს ხდის robots.txt შექმნას უშუალოდ ვებსაიტის მართვის პანელიდან ან FTP მენეჯერის გამოყენებით.

თუ ფაილი ხელმისაწვდომია, ამის ნაცვლად შეგიძლიათ ჩამოტვირთოთ robots.txt თქვენი ბრაუზერიდან.

რატომ გჭირდებათ robots.txt?

Roots.txt საიტისთვის მნიშვნელოვანი ასპექტია. Robots.txt საჭიროა? მაგალითად, in SEO robots.txt საჭიროა იმისათვის, რომ ჩართოთ გვერდები ინდექსიდან, რათა ხელი არ შეუშალოთ კორის შინაარსიდა კიდევ ბევრი. როგორ, რა, ახლა და რატომ გამორთულია, უკვე აღწერილია სტატიაში, აქ არავისზე არ ვისაუბრებთ. საჭირო robots.txt ფაილიყველა საიტზე? და ასე და არა. მას შემდეგ, რაც robots.txt ვებგვერდი იპოვის გვერდებს ძიების საფუძველზე, მაშინ მარტივი სტრუქტურისა და სტატიკური გვერდების მქონე მცირე საიტებისთვის, მსგავსი ხარვეზები შეიძლება შესამჩნევი იყოს. თუმცა, მცირე საიტისთვის შეიძლება იყოს გარკვეული ხარვეზები robots.txt დირექტივებიმაგალითად, ჰოსტის ან საიტის რუქის დირექტივა, მაგრამ ფასი უფრო დაბალია.

როგორ შევქმნათ robots.txt

Robots.txt ფრაგმენტები არის ტექსტური ფაილი და შექმენით robots.txt ფაილი, შეგიძლიათ სწრაფად გამოიყენოთ ნებისმიერი ტექსტური რედაქტორი, მაგალითად Notepad. როგორ გახსენით ახალი? ტექსტური დოკუმენტი, თქვენ უკვე დაიწყეთ robots.txt-ის შექმნა, სამაგიეროდ მან დაკარგა სიტკბო, თქვენთვის მნიშვნელოვანია, რომ შეძლოთ მისი გადარჩენა მხედველობიდან ტექსტური ფაილი სახელწოდებით რობოტები txt ფორმატში. ყველაფერი მარტივია და robots.txt ფაილის შექმნა ახალბედებს პრობლემებს არ შეუქმნის. მე გაჩვენებთ ქვემოთ, თუ როგორ უნდა დაწეროთ robots.txt და რა დაწეროთ რობოტებში კონდახებზე.

შექმენით robots.txt ონლაინ

ვარიანტი ზარმაცებისთვის შექმენით რობოტები ონლაინ და ატვირთეთ robots.txt ფაილიროგორც ჩანს უკვე მზადაა. რობოტების txt ონლაინ შექმნა გთავაზობთ მომსახურების ფართო სპექტრს, არჩევანი თქვენზეა. თავი - ნათლად გაიგე რა დაიბლოკება და რა არის ნებადართული, წინააღმდეგ შემთხვევაში robots.txt ფაილის ონლაინ შექმნა შეიძლება ტრაგედიად იქცეს, ასე რომ ჩვენ შეგვიძლია ადვილად გამოვასწოროთ იგი. განსაკუთრებით ღირებულია მოძებნოთ ისინი, რომლებსაც ცოტათი დავხურავთ. იყავით პატივისცემით - ჯერ გადააბრუნეთ თქვენი რობოტების ფაილი და ატვირთეთ იგი საიტზე. Ისევ koristuvach robots.txt ფაილიუფრო ზუსტად, ის ასახავს ბირჟის სტრუქტურას, რომელიც განსხვავდება იმისგან, რომელიც ავტომატურად წარმოქმნის და იზიდავს სხვა საიტიდან. წაიკითხეთ იმის გასაგებად, თუ რას უნდა მიაქციოთ განსაკუთრებული ყურადღება robots.txt-ის რედაქტირებისას.

robots.txt-ის რედაქტირება

როგორც კი მოახერხებთ robots.txt ფაილის შექმნას ონლაინ ან საკუთარი ხელით, შეგიძლიათ robots.txt-ის რედაქტირება. ამის ნაცვლად შეგიძლიათ ნებისმიერ დროს შეცვალოთ, უბრალოდ დაიცავით შემდეგი წესები და robots.txt სინტაქსი. საიტზე მუშაობის პროცესში შეიძლება შეიცვალოს robots ფაილი და თუ თქვენ დაარედაქტირებთ robots.txt, მაშინ არ დაგავიწყდეთ განახლებული საიტის განახლება, მოქმედი ვერსიაფაილი ბევრი ცვლილებით. შემდეგი, მოდით გადავხედოთ ფაილის დაყენების წესებს, ასე რომ თქვენ იცით როგორ შევცვალოთ robots.txt ფაილიდა "არ დაჭრა შეშა."

დააყენეთ robots.txt სწორად

სწორი დაყენება robots.txtსაშუალებას გაძლევთ გამორიცხოთ პირადი ინფორმაცია დიდი საძიებო სისტემების ძიების შედეგებიდან. თუმცა, არ დაგავიწყდეთ ეს robots.txt ბრძანებები არის არაუმეტეს kerivnitstvo მოქმედებამდე და არა zakhist. სანდო საძიებო სისტემების რობოტები, როგორიცაა Yandex და Google, კონტროლდება robots.txt ინსტრუქციებით; სხვა რობოტებს შეუძლიათ მათი იგნორირება მარტივად. სწორი გაგებარომ robots.txt ფორმატი არის შედეგის მიღწევის გასაღები.

Გაგება, როგორ ვიმუშაოთ სწორად რობოტები txt, დასაწყებად, თქვენ უნდა გესმოდეთ robots.txt ფაილში არსებული ძირითადი წესები, სინტაქსი და დირექტივები.

სწორი robots.txt იწყება მომხმარებლის აგენტის დირექტივითროგორც აღვნიშნე, ნებისმიერ მხრივ, კონკრეტული დირექტივები განხორციელდა.

დაამატეთ მომხმარებლის აგენტი robots.txt-ზე:

# განსაზღვრავს დირექტივებს ყველა რობოტისთვის ერთდროულად მომხმარებლის აგენტი: * # განსაზღვრავს დირექტივებს Yandex-ის ყველა რობოტისთვის მომხმარებლის აგენტი: Yandex # განსაზღვრავს დირექტივებს Yandex-ის მთავარი ინდექსირების რობოტისთვის

ვრაჰოვატი, რა მსგავსია robots.txt ფაილის მორგებაავალებს რობოტს გაანალიზოს დირექტივები, რომლებიც მიუთითებს მისი სახელის მომხმარებლის აგენტზე.

robots.txt-ის მაგალითი მრავალი მომხმარებლის აგენტის შეყვანით:

# იქნება ვიკორისტანი Yandex-ის ყველა რობოტის მიერ მომხმარებლის აგენტი: Yandex Disallow: /*utm_ # იქნება vikoristan ყველა რობოტის მიერ Google User-agent: Googlebot Disallow: /*utm_ # იქნება vikoristana ყველა რობოტის მიერ Yandex რობოტებისა და Google მომხმარებლის მიერ -აგენტი: * დაშვება: / *utm_

მომხმარებლის აგენტის დირექტივაის მხოლოდ კონკრეტულ რობოტს ქმნის და მომხმარებლის აგენტის დირექტივის შემდეგ დაუყოვნებლივ უნდა იყოს ბრძანება ან ბრძანება, რომელიც პირდაპირ მინიჭებული იქნება არჩეულ რობოტზე. აპლიკაცია ჩვეულებრივ იყენებს "Disallow" დირექტივას, რაც ნიშნავს "/*utm_". ო, ძვირფასო, ყველაფერი დახურულია. სწორად კონფიგურირებული robots.txt ხელს უშლის ცარიელი მწკრივის გადაცემის არსებობას "მომხმარებლის აგენტს", "აკრძალვა" დირექტივებსა და დირექტივებს შორის, რომლებიც მემკვიდრეობით იღებენ "Disallow" ნაკადს "მომხმარებლის აგენტი".

მწკრივის არასწორი თარგმანის მაგალითი robots.txt-ში:

სწორი მწკრივის თარგმანის მაგალითი robots.txt-ში:

მომხმარებლის აგენტი: Yandex-ის დაშვება: /*utm_ დაშვება: /*id= მომხმარებლის აგენტი: * დაუშვებელი: /*utm_ დაშვება: /*id=

როგორც კონდახიდან ხედავთ, robots.txt-ში ჩანართები მოთავსებულია ბლოკებში, სკინები, საიდანაც ათავსებენ წარწერებს ან კონკრეტული რობოტისთვის ან ყველა რობოტისთვის "*".

გარდა ამისა, მნიშვნელოვანია უზრუნველყოთ robots.txt-ში ბრძანებების სწორი თანმიმდევრობა და დახარისხება მრავალი დირექტივის გამოყენებისას, როგორიცაა „Disallow“ და „Allow“. "Allow" დირექტივა არის ძლიერი დირექტივა, რომელიც მსგავსია robots.txt ბრძანების "Disallow" - დამცავი დირექტივა.

აი robots.txt-ის დირექტივების მაგალითი:

მომხმარებლის აგენტი: * დაშვება: /blog/page არ დაუშვას: /blog

ეს მეთოდი ხელს უშლის ყველა რობოტს ყველა გვერდის ინდექსირებაში, რომელიც იწყება „/blog“-ით, მაგრამ იძლევა გვერდების ინდექსირებას, რომლებიც იწყება „/blog/page“.

წინა კონდახის robots.txt სწორი დალაგებით:

მომხმარებლის აგენტი: * არ დაუშვას: /blog დაშვება: /blog/page

თავდაპირველად, მთელი მონაკვეთი იბლოკება, შემდეგ დაშვებულია ზოგიერთი ნაწილი.

Კიდევ ერთი სწორი უკანალი robots.txtშემდგომი დირექტივებიდან:

მომხმარებლის აგენტი: * დაშვება: / აკრძალვა: /ბლოგი დაშვება: /ბლოგი/გვერდი

დაუბრუნდით დირექტივების სწორ თანმიმდევრობას თქვენს robots.txt-ში.

"ნებადართული" და "აკრძალვა" დირექტივები შეიძლება მითითებული იყოს პარამეტრების გარეშე, ამ შემთხვევაში მნიშვნელობა ინტერპრეტირებულია უკან "/" პარამეტრზე.

აკრძალვა/დაშვების დირექტივის მაგალითი პარამეტრების გარეშე:

მომხმარებლის აგენტი: * აკრძალვა: # თანაბრად დაშვება: / აკრძალვა: / ბლოგი დაშვება: /ბლოგი/გვერდი

როგორ შევქმნათ სწორი robots.txtდა როგორ განმარტავთ დირექტივებს, თქვენი არჩევანია. ორივე ვარიანტი იქნება სწორი. გოლოვნე - არ დაიკარგო.

robots.txt-ის სწორი ფორმირებისთვის აუცილებელია დირექტივების პარამეტრებში ზუსტად მიეთითოს ის პრიორიტეტები, რომლებიც დაჯავშნული იქნება რობოტების მოსაზიდად. ჩვენ უფრო დეტალურად განვიხილავთ Disallow და Allow დირექტივებს ოდნავ ქვემოთ და შემდეგ გადავხედავთ robots.txt-ის სინტაქსს. robots.txt-ის სინტაქსის ცოდნა უფრო ახლოს მოგიყვანთ შექმენით სრულყოფილი რობოტების txt საკუთარი ხელით.

Robots.txt სინტაქსი

საძიებო სისტემების რობოტები ნებაყოფლობით იჭრება robots.txt ბრძანებებით— სტანდარტი რობოტებისთვის, მაგრამ ყველა საძიებო სისტემა არ ახდენს robots.txt სინტაქსის ერთნაირად ინტერპრეტაციას. robots.txt ფაილს აქვს იგივე სინტაქსი, მაგრამ ამავე დროს დაწერეთ რობოტები txtეს არ არის რთული, რადგან მისი სტრუქტურა ძალიან მარტივი და გასაგებია.

ღერძი არის მარტივი წესების კონკრეტული ჩამონათვალი, რომელიც შეგიძლიათ გაიგოთ და გამორთოთ საჭმლის ნაწილები robots.txt:

  1. კანის დირექტივა იწყება ახალი რიგით;
  2. არ შეიყვანოთ ერთზე მეტი დირექტივა ერთ რიგში;
  3. არ მოათავსოთ ხვრელები რიგის ყურზე;
  4. დირექტივის პარამეტრი მოთავსებულია ერთ რიგში;
  5. არ არის საჭირო ძირში პარამეტრების და დირექტივების ჩარჩოები;
  6. როგორც ჩანს, დირექტივების პარამეტრები არ ფარავს კომის უკან ლაქებს;
  7. robots.txt ბრძანება მითითებულია ფორმატში - [Name_directives]:[required space][value][required space];
  8. კომენტარები დასაშვებია robots.txt-ში ჰეშის ნიშნის #;
  9. ცარიელი მწკრივის გადაცემა შეიძლება განიმარტოს, როგორც მომხმარებლის აგენტის დირექტივის დასასრული;
  10. Disallow: დირექტივა (ცარიელი მნიშვნელობებით) უდრის Allow: / - დაუშვას ყველაფერი;
  11. "ნებადართული", "აკრძალვა" დირექტივები მოითხოვს არაუმეტეს ერთი პარამეტრის;
  12. ფაილის სახელწოდება robots.txt არ იძლევა დიდი ასოების არსებობას, მილკოვის ნაწერში ფაილის სახელია Robots.txt ან ROBOTS.TXT;
  13. დირექტივების და პარამეტრების წერილობითი სახელები დიდი მწერლებიპატივს სცემენ ცუდ ტონს და მიჰყვება robots.txt სტანდარტსა და ასოებს, ხშირად ადრე მგრძნობიარე ფაილებისა და დირექტორიების სახელებს;
  14. თუ დირექტივის პარამეტრი არის დირექტორია, მაშინ დირექტორიას სახელს ყოველთვის წინ უძღვის ხაზი „/“, მაგალითად: აკრძალვა: /category
  15. ზედმეტად დიდი robots.txt (32 KB-ზე მეტი) განიხილება უნივერსალური, ექვივალენტური "Disallow:";
  16. Robots.txt, რომელიც რაიმე მიზეზით მიუწვდომელია, შეიძლება განიმარტოს, როგორც სრულიად არასწორი;
  17. თუ robots.txt ცარიელია, მაშინ ის განიმარტება, როგორც სრულიად არასწორი;
  18. რამდენიმე მომხმარებლის აგენტის დირექტივის ცარიელი მწკრივის გადაცემის გარეშე გადაცემის გამო, ყველა მომდევნო მომხმარებლის აგენტის დირექტივა, გარდა პირველისა, შეიძლება იგნორირებული იყოს;
  19. robots.txt-ში ეროვნული ანბანის ნებისმიერი სიმბოლოს გამოყენება დაუშვებელია.

ზოგიერთ საძიებო სისტემას შეუძლია robots.txt სინტაქსის განსხვავებულად ინტერპრეტაცია და ზოგიერთი პუნქტის გამოტოვება. მაგალითად, თუ თქვენ შეიყვანთ უამრავ "მომხმარებლის აგენტის" დირექტივას ცარიელი მწკრივის თარგმანის გარეშე, ყველა "მომხმარებლის აგენტის" დირექტივა სწორად მიიღება Yandex-ის მიერ, სანამ Yandex ხედავს ჩანაწერებს ხილვადობით "მომხმარებლის აგენტის" მწკრივში. .

რობოტს შეიძლება ჰქონდეს მხოლოდ ის, რაც საჭიროა და არაფერი ექსტრავაგანტული. არ იფიქრო როგორ დავწეროთ ყველაფერი რობოტებში txtრა შემიძლია და როგორ დავიმახსოვრო? იდეალური რობოტები txt- ის, რომელსაც აქვს ნაკლები რიგები, მაგრამ მეტი აზრი. "ტინესი ნიჭის დაა." ეს გამოთქმა აქ კიდევ უფრო მდინარის წინაა.

როგორ გადავამოწმოთ robots.txt

Იმისათვის, რომ შეამოწმეთ robots.txtთქვენ შეგიძლიათ სწრაფად შეამოწმოთ ფაილის სინტაქსისა და სტრუქტურის სისწორე ერთ-ერთი ონლაინ სერვისის გამოყენებით. მაგალითად, Yandex და Google გთავაზობთ მძლავრ სერვისებს ვებმასტერებისთვის, რომლებიც მოიცავს robots.txt ანალიზი:

robots.txt ფაილის შემოწმება Yandex.Webmaster-ში: http://webmaster.yandex.ru/robots.xml

Იმისათვის, რომ შეამოწმეთ robots.txt ონლაინსაჭირო დაამატეთ robots.txt საიტზე root დირექტორიაში. წინააღმდეგ შემთხვევაში, სერვისს შეუძლია გითხრათ რა robots.txt-ის დამატება არ შევწუხდი. რეკომენდირებულია ჯერ შეამოწმოთ robots.txt ხელმისაწვდომობისთვის იმ მისამართზე, სადაც ფაილი მდებარეობს, მაგალითად: your_site.ru/robots.txt.

Yandex-ისა და Google-ის გადამოწმების სერვისების გარდა, სხვა ონლაინ არ არის robots.txt ვალიდატორები.

Robots.txt vs Yandex და Google

სუბიექტური აზრია, რომ მომხმარებლის აგენტის დირექტივების მიმდებარე ბლოკის ჩასმა: Yandex robots.txt-ში Yandex უფრო დადებითად აღიქვამს, დირექტივების ქვედა ბლოკს User-agent-ით: *. მსგავსი სიტუაციაა robots.txt-სა და Google-თან დაკავშირებით. Yandex-ისა და Google-ისთვის დამატებითი დირექტივების ჩასმა საშუალებას აძლევს საიტის ინდექსირებას robots.txt-ის საშუალებით. არ არის გამორიცხული, რომ პიროვნულ ურჩხულს მივაბაძოთ, მით უმეტეს, რომ საიტების უმეტესობისთვის Yandex-ის, Google-ის და სხვა საძიებო სისტემების robots.txt ბლოკების ნაცვლად. იშვიათ შემთხვევებში, ყველა "მომხმარებლის აგენტის" ბლოკი არის სტანდარტი robots.txt-ისთვისდირექტივების ნაკრები. ასევე, შესაძლებელია "მომხმარებლის აგენტის" დაყენება ინდექსაციის დაცვა robots.txt-ისგან Yandex-ისთვის, მაგრამ, მაგალითად, არა Google-ისთვის.

მნიშვნელოვანია აღინიშნოს, რომ Yandex პასუხისმგებელია ისეთ მნიშვნელოვან დირექტივაზე, როგორიცაა „მასპინძელი“, ხოლო Yandex-ისთვის სწორი robots.txt უნდა შეიცავდეს ამ დირექტივას სათაური სარკის საიტზე ჩასართავად. "მასპინძლის" დირექტივა განხილულია ქვემოთ.

დაიცავით ინდექსირება: robots.txt დაუშვებელია

აკრძალვა - უკანონო დირექტივა, რომელსაც ყველაზე ხშირად ბოროტად იყენებს robots.txt ფაილი. არ დაუშვას საიტის ან მისი რომელიმე ნაწილის ინდექსირების ბლოკირება, რაც დამოკიდებულია Disallow დირექტივის პარამეტრში მითითებულ გზაზე.

მაგალითი იმისა, თუ როგორ აფერხებს robots.txt საიტის ინდექსაციას:

მომხმარებლის აგენტი: * აკრძალვა: /

ეს მაგალითი ბლოკავს მთელ საიტს ყველა რობოტისგან ინდექსაციისგან.

Disallow დირექტივის პარამეტრი ბოროტად გამოყენების საშუალებას იძლევა სპეციალური პერსონაჟები* і $:

* - რაც არ უნდა იყოს სიმბოლოების რაოდენობა, მაგალითად, /page* პარამეტრი კმაყოფილდება /page, /page1, /page-be-cool, /page/kak-skazat და ა.შ. ამასთან, არ არის საჭირო * კანის პარამეტრის მითითება, რადგან, თუმცა, ასეთი დირექტივები განიმარტება იმავე გზით:

მომხმარებლის აგენტი: Yandex Disallow: /page User-agent: Yandex Disallow: /page*

$ - მიუთითებს პარამეტრის მნიშვნელობის ზუსტ ტიპზე, რომელიც გამორთულია:

მომხმარებლის აგენტი: Googlebot არ დაუშვას: /page$

ამ შემთხვევაში, Disallow დირექტივა დაცულია /page, მაგრამ არა გვერდის /page1, /page-be-cool ან /page/kak-skazat ინდექსაციით.

იაკშჩო დახურეთ საიტის ინდექსირება robots.txt, საძიებო სისტემებს შეუძლიათ ამაზე უპასუხონ გაფრთხილებით „დაბლოკილია robots.txt ფაილით“ ან „url შეზღუდულია robots.txt-ით“ (url დაბლოკილია robots.txt ფაილით). Რა გჭირდება დაიცავით გვერდის ინდექსირება, შეგიძლიათ დააჩქაროთ არა მხოლოდ რობოტების txt, არამედ მსგავსი html ტეგები:

  • - არ განათავსოთ ინდექსირება გვერდის ნაცვლად;
  • - არ გადახვიდეთ გვერდზე შეტყობინებებისთვის;
  • - აკრძალულია ამის ნაცვლად ინდექსირება და გვერდზე არსებული შეტყობინებების თვალყურის დევნება;
  • - ანალოგიურად შინაარსი = "არცერთი".

ინდექსირების დაშვება: robots.txt დაშვება

დაშვება - ცალკე შენობის დირექტივაეს არის აკრძალვის დირექტივის ხანგრძლივობა. ამ დირექტივას აქვს Disallow-ის მსგავსი სინტაქსი.

მაგალითი იმისა, თუ როგორ აფერხებს robots.txt საიტის ინდექსაციას, გარდა გარკვეული გვერდებისა:

მომხმარებლის აგენტი: * აკრძალვა: /დაშვება: /გვერდი

აკრძალულია მთელი საიტის ინდექსირება, გარდა გვერდებისა, რომლებიც იწყება /page.

აკრძალვა და დაშვება პარამეტრის ცარიელი მნიშვნელობებით

ცარიელი აკრძალვის დირექტივა:

მომხმარებლის აგენტი: * აკრძალვა:

არაფრის დაბლოკვა ან მთელი საიტის ინდექსაციის დაშვება უდრის:

მომხმარებლის აგენტი: * დაშვება: /

ცარიელი დაშვების დირექტივა:

მომხმარებლის აგენტი: * დაშვება:

არაფრის დაშვება ან საიტის ინდექსაციის სრულად დაბლოკვა ნიშნავს:

მომხმარებლის აგენტი: * აკრძალვა: /

საიტის მთავარი სარკე: robots.txt ჰოსტი

მასპინძლის დირექტივა გამოიყენება Yandex რობოტის ჩასართავად თქვენი საიტის მთავარ სარკეში. ყველა პოპულარული ხმის სისტემიდან, დირექტივა მასპინძელი აღიარებულია მხოლოდ Yandex რობოტების მიერ. მასპინძლის დირექტივა სასარგებლოა, რადგან თქვენი საიტი ხელმისაწვდომია უფასოდ, მაგალითად:

Mysite.ru mysite.com

ან უპირატესობა მიანიჭოთ:

Mysite.ru www.mysite.ru

შეგიძლიათ გამოიყენოთ Yandex რობოტი, როგორც სარკე და თავი. მასპინძლის დირექტივა მითითებულია "მომხმარებლის აგენტი: Yandex" დირექტივის ბლოკში და როგორც პარამეტრი, მითითებულია საიტის მისამართი "http://" გარეშე.

robots.txt-ის მაგალითი ხელმძღვანელი სარკის მიზნიდან:

მომხმარებლის აგენტი: Yandex Disallow: /გვერდის მასპინძელი: mysite.ru

როგორც ცეცხლოვანი სარკე ჩნდება დომენის სახელი mysite.ru გარეშე www. ამრიგად, ძიების შედეგები მიუთითებს ამ ტიპის მისამართზე.

მომხმარებლის აგენტი: Yandex Disallow: /გვერდის მასპინძელი: www.mysite.ru

როგორც ძირითადი სარკე, დომენის სახელია www.mysite.ru.

ჰოსტის დირექტივა robots.txt ფაილშითუ მასპინძლის დირექტივა მითითებულია არაერთხელ, მხოლოდ პირველია მოქმედი, სხვა მასპინძელი დირექტივები იგნორირებულია.

თუ ფიქრობთ Google რობოტისთვის თავის სარკის შეკვეთაზე, იჩქარეთ Google სერვისიინსტრუმენტები ვებ ოსტატებისთვის.

საიტის რუკა: robots.txt საიტის რუკა

საიტის რუქის დირექტივის, robots.txt-ის დახმარებით, შეგიძლიათ მიუთითოთ განლაგება საიტზე.

robots.txt-ის მაგალითი მითითებული მისამართებიდან და საიტის ბარათებიდან:

მომხმარებლის აგენტი: * არ დაუშვას: /გვერდი საიტის რუკა: http://www.mysite.ru/sitemap.xml

მისამართისა და ბარათის საიტზე ჩასმა მეშვეობით საიტის რუქის დირექტივა robots.txt-შისაშუალებას აძლევს საძიებო რობოტს დაადგინოს, ჩანს თუ არა რუკა საიტზე და დაბეჭდოს იგი ინდექსაციისთვის.

სუფთა პარამის დირექტივა

Clean-param დირექტივა საშუალებას გაძლევთ გამორთოთ დინამიური პარამეტრების მქონე გვერდები ინდექსაციისგან. თუმცა, მსგავსმა გვერდებმა შეიძლება მოგვაწოდოს სხვადასხვა გვერდის URL. მარტივად რომ ვთქვათ, ეს გვერდი ხელმისაწვდომია სხვადასხვა მისამართები. ჩვენი მიზანია შევაგროვოთ ყველა დინამიური მისამართი, რომელთაგან შესაძლოა მილიონები იყოს. რისთვისაც ყველა დინამიური პარამეტრი გამორთულია, vikorista in robots.txt დირექტივა Clean-param.

Clean-param დირექტივის სინტაქსია:

სუფთა პარამი: parm1[&parm2&parm3&parm4&..&parmn] [გზა]

მოდით გადავხედოთ გვერდს შემდეგი URL-ით:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Butt robots.txt Clean-param:

Clean-param: parm1&parm2&parm3 /page.html # მხოლოდ page.html

Clean-param: parm1&parm2&parm3 / # ყველასთვის

სეირნობის დაყოვნების დირექტივა

ეს ინსტრუქცია საშუალებას გაძლევთ შეამციროთ დატვირთვა სერვერზე, თუ რობოტებს სჭირდებათ ხშირად ეწვიონ თქვენს საიტს. ეს დირექტივა აქტუალურია ძირითადად გვერდების დიდი რაოდენობის მქონე საიტებისთვის.

Butt robots.txt Crawl-delay:

მომხმარებლის აგენტი: Yandex-ის აკრძალვა: /გვერდი Crawl-dalay: 3

ამ დროს, Yandex-ის რობოტებს „ვთხოვთ“ ჩვენი საიტის გვერდებზე შეჭრას არა უმეტეს ერთხელ სამი წამის განმავლობაში. ზოგიერთი ხმის სისტემა მხარს უჭერს წილადი რიცხვის ფორმატს, როგორც პარამეტრს Crawl-delay robots.txt დირექტივები.

საძიებო სისტემებისთვის საიტის ოპტიმიზაციის ერთ-ერთი ეტაპი არის robots.txt ფაილის შექმნა. შემდგომი დახმარებისთვის ამ ფაილსთქვენ შეგიძლიათ თავიდან აიცილოთ ნებისმიერი ან ყველა საძიებო სისტემის რობოტი თქვენი საიტის ან ნაწილების ინდექსირებაში, რომლებიც არ არის განკუთვნილი ინდექსირებისთვის. ასე რომ, თქვენ შეგიძლიათ დაიცვათ დუბლირებული შინაარსის აღწერილობა, როგორიცაა გვერდების ვერსიები ერთმანეთისთვის.

საძიებო რობოტები, ინდექსირების დაწყებამდე, ყოველთვის გარდაიქმნება robots.txt ფაილად თქვენი საიტის root დირექტორიაში, მაგალითად, http://site.ru/robots.txt, რათა იცოდეთ საიტის რა ნაწილებია ინდექსირების რობოტი. დაბლოკილია. თუმცა, თუ არაფრის დაცვას არ აპირებთ, მაინც რეკომენდებულია ამ ფაილის შექმნა.

როგორც ხედავთ, robots.txt გაფართოება არის ტექსტური ფაილი. ფაილის შესაქმნელად ან რედაქტირებისთვის გამოიყენეთ უმარტივესი გზა ტექსტის რედაქტორებიიხილეთ Notepad. robots.txt შეიძლება განთავსდეს root კატალოზის საიტზე და არის ოფიციალურ ფორმატში, რომელსაც ქვემოთ განვიხილავთ.

Robots.txt ფაილის ფორმატი

robots.txt ფაილი უნდა შედგებოდეს მინიმუმ ორი სავალდებულო ჩანაწერისგან. პირველი არის მომხმარებლის აგენტის დირექტივა, რომელიც მიუთითებს რომელ საძიებო რობოტს მოეთხოვება ქვემოთ მოცემული ინსტრუქციების შესრულება. მნიშვნელობები შეიძლება იყოს რობოტის სახელი (googlebot, Yandex, StackRambler) ან სიმბოლო *, რომელიც შეესაბამება ყველა რობოტს. Მაგალითად:

მომხმარებლის აგენტი: googlebot

რობოტის სახელი შეგიძლიათ გაიგოთ პოპულარული საძიებო სისტემის ვებსაიტზე. შემდეგი შეიძლება იყოს აკრძალვის დირექტივების ერთი რაოდენობა. ეს დირექტივები აცნობებს რობოტს, თუ რომელი ფაილები და საქაღალდეები ინდექსირებულია დაბლოკილი. მაგალითად, შემდეგი ნაბიჯები დაბლოკილია რობოტების მიერ feedback.php ფაილის და cgi-bin დირექტორიას ინდექსირებით:

აკრძალვა: /feedback.php აკრძალვა: /cgi-bin/

თქვენ ასევე შეგიძლიათ შეცვალოთ ფაილების ან საქაღალდეების ორიგინალური სიმბოლოები. Disallow: /forum მწკრივი ბლოკავს ყველა ფაილის და საქაღალდის ინდექსირებას საიტის ძირში, რომელთა სახელები იწყება ფორუმით, მაგალითად, ფაილი http://site.ru/forum.php და საქაღალდე http://site. .ru/forum/ ყველა ერთად. Disallow ცარიელი იქნება, რაც ნიშნავს, რომ რობოტს შეუძლია ყველა გვერდის ინდექსირება. თუ Disallow მნიშვნელობა არის /, ეს ნიშნავს, რომ მთელი საიტი დაბლოკილია ინდექსაციისგან.

კანის ველისთვის მომხმარებელ-აგენტს სურს ერთი ველი "აკრძალვა". თუ არ გსურთ არაფრის შენახვა ინდექსაციისთვის, robots.txt ფაილი შეიძლება გააუარესოს შემდეგი ჩანაწერები:

მომხმარებლის აგენტი: * აკრძალვა:

დამატებითი დირექტივები

რეგულარული შედეგების გარდა, Yandex და Google ნებას რთავენ გამოიყენონ Allow დირექტივა, რომელიც უდრის Disallow-ს, რომელიც მიუთითებს რომელი გვერდების ინდექსირება შეიძლება. მიმდინარე Yandex აპლიკაციას დაბლოკილია ყველაფრის ინდექსირება, გარდა გვერდების მისამართისა, რომელიც იწყება /სტატიებით:

მომხმარებლის აგენტი: Yandex Allow: /articles Disallow: /

რომელი აპლიკაციისთვის უნდა იყოს მითითებული Allow დირექტივა Disallow-მდე, წინააღმდეგ შემთხვევაში Yandex ესმის, როგორც საიტის ინდექსაციის შემდგომი დაბლოკვა. ცარიელი ნებართვის დირექტივა ასევე მთლიანად ბლოკავს საიტის ინდექსირებას:

მომხმარებლის აგენტი: Yandex Allow:

თანაბრად

მომხმარებლის აგენტი: Yandex Disallow: /

არასტანდარტული დირექტივები უნდა იყოს მითითებული მხოლოდ ხმის სისტემებისთვის, რომლებიც მხარს უჭერენ მათ. წინააღმდეგ შემთხვევაში, რობოტს არ ესმის ეს ჩანაწერითქვენ შეიძლება არ დაამუშავოთ მთელი robots.txt ფაილი სწორად. ანგარიში დამატებითი დირექტივების შესახებ და ინფორმაცია რობოტთან დაკავშირებული robots.txt ფაილში ბრძანებების გაგების შესახებ შეგიძლიათ იხილოთ საძიებო სისტემის ვებსაიტზე.

რეგულარული ცვლილებები robots.txt-ში

ხმის სისტემების უმეტესობა აშკარად არ ექვემდებარება დაზღვევას დარქმეული სახელიფაილები და საქაღალდეები და უფრო მეტი დაზიანებაა ხმის სისტემაში. Google რობოტი და Yandex რობოტი ხელს უწყობს მარტივი რეგულარული გამონათქვამების გამოყენებას robots.txt-ში, რაც მნიშვნელოვნად ცვლის რობოტების რაოდენობას ვებმასტერებისთვის. მაგალითად, ახალი ბრძანებები ხელს უშლის Google რობოტს ყველა ფაილის ინდექსირებაში გაფართოებით.

მომხმარებლის აგენტი: googlebot არ დაუშვას: *.pdf$

ამ შემთხვევაში, სიმბოლო * არის სიმბოლოების თანმიმდევრობა, ხოლო $ მიუთითებს შეტყობინების დასრულებაზე.

მომხმარებლის აგენტი: Yandex Allow: /articles/*.html$ არ დაუშვას: /

მეტი დირექტივები საშუალებას მისცემს Yandex-ს განახორციელოს ფაილების ინდექსირება „.html“ გაფართოებით, რომლებიც მდებარეობს /articles/ საქაღალდეში. რაშთა შემოღობილია ინდექსაციისთვის.

საიტის რუკა

robots.txt ფაილში შეგიძლიათ მიუთითოთ XML ბარათის განლაგება საიტისთვის:

მომხმარებლის აგენტი: googlebot არ დაუშვას: საიტის რუკა: http://site.ru/sitemap.xml

თუ თქვენ უკვე გაქვთ ბევრი გვერდი თქვენს საიტზე და თქვენ დაყოფთ საიტის რუკას ნაწილებად, მაშინ თქვენ უნდა მიუთითოთ რუკის ყველა ნაწილი robots.txt ფაილში:

მომხმარებლის აგენტი: Yandex Disallow: საიტის რუკა: http://mysite.ru/my_sitemaps1.xml საიტის რუკა: http://mysite.ru/my_sitemaps2.xml

საიტის სარკეები

მოგეხსენებათ, ერთი და იგივე საიტი ხელმისაწვდომია ორი მისამართით: www-ითაც და მის გარეშეც. საძიებო რობოტისთვის site.ru და www.site.ru სხვადასხვა საიტებია, მაგრამ ერთი და იგივე. სუნებს სარკეს უწოდებენ.

საიტის გვერდით მყოფთა მეშვეობით არის შეტყობინება www-ით და მის გარეშე, შემდეგ თქვენი გვერდები შეიძლება დაიყოს www.site.ru-სა და site.ru-ს შორის. იმისათვის, რომ არაფერი მოხდეს, თქვენ უნდა აჩვენოთ სარკე საიტს. „წებოვნების“ შედეგად მთელი ენერგია თავსდება ერთ სარკეზე და საიტს შეუძლია სხვა პოზიცია დაიკავოს ძიების რეჟიმში.

შეგიძლიათ მიუთითოთ Yandex-ის მთავარი სარკე პირდაპირ robots.txt ფაილიდან Host დირექტივის გამოყენებით:

მომხმარებლის აგენტი: Yandex Disallow: /feedback.php არ დაუშვას: /cgi-bin/ მასპინძელი: www.site.ru

www.site.ru სარკის წებოვნების შემდეგ, მთელი თქვენი ძალისხმევა ადგილზე იქნება და ჩვენ ვიკავებთ პოზიციას ძიების რეჟიმში. და საძიებო სისტემა არ იქნება ინდექსირებული.

სხვა ხმაურის შემქმნელებისთვის, სათავე სარკის არჩევანი არის მუდმივი სერვერის გადამისამართება (კოდი 301) დამატებითი სარკეებიდან. სცადეთ გამოიყენოთ .htaccess ფაილი და mod_rewrite მოდული. ამ მიზნით საიტის root-ში ვდებთ .htaccess ფაილს და ვწერთ იქ:

RewriteEngine On Options +FollowSymlinks RewriteBase / RewriteCond %(HTTP_HOST) ^site.ru$ RewriteRule ^(.*)$ http://www.site.ru/$1

შედეგად, site.ru-დან ყველა მოთხოვნა გადავა www.site.ru-ზე, შემდეგ site.ru/page1.php გადამისამართდება www.site.ru/page1.php-ზე.

გადამისამართების მეთოდი იმუშავებს ყველა საძიებო სისტემისთვის და ბრაუზერისთვის, მაგრამ მაინც რეკომენდირებულია Host-ის დირექტივის დამატება robots.txt ფაილში Yandex-ისთვის.

კომენტარები robots.txt-ში

თქვენ ასევე შეგიძლიათ დაამატოთ კომენტარები robots.txt ფაილზე - ისინი იწყება # სიმბოლოთი და მთავრდება მწკრივის შებრუნებით. კომენტარები უნდა დაიწეროს ზედმიწევნით რიგზე და კიდევ უკეთესი, არ ჩაიწეროს.

vikoristanny კომენტარების მაგალითი:

მომხმარებლის აგენტი: StackRambler არ დაუშვას: /garbage/ # ამ საქაღალდეში ღირებული არაფერია არ დაუშვას: /doc.xhtml # ამ გვერდზე # და ამ ფაილში ყველა კომენტარი ასევე არასაჭიროა

robots.txt ფაილების მაგალითი

1. ყველა რობოტს უფლება აქვს განათავსოს ყველა დოკუმენტი საიტზე:

მომხმარებლის აგენტი: * აკრძალვა:
მომხმარებლის აგენტი: * აკრძალვა: /

3. ჩვენ ხელს უშლის Google prank რობოტს feedback.php ფაილის ინდექსირებაში cgi-bin დირექტორიას ნაცვლად:

მომხმარებლის აგენტი: googlebot არ დაუშვას: /cgi-bin/ არ დაუშვას: /feedback.php

4. ყველა რობოტს უფლება აქვს მოახდინოს მთელი საიტის ინდექსირება, ხოლო Yandex პრანკ რობოტს უფლება აქვს განახორციელოს feedback.php ფაილი და cgi-bin დირექტორიას ნაცვლად:

მომხმარებლის აგენტი: Yandex Disallow: /cgi-bin/ Disallow: /feedback.php მასპინძელი: www.site.ru მომხმარებლის აგენტი: * დაუშვებელია:

5. ყველა რობოტს უფლება აქვს მოახდინოს მთელი საიტის ინდექსირება, ხოლო Yandex რობოტს უფლება აქვს განათავსოს მხოლოდ მასზე მინიჭებული საიტის ნაწილი:

მომხმარებლის აგენტი: Yandex Allow: /yandex Disallow: / Host: www.site.ru მომხმარებლის აგენტი: * დაუშვებელია:

ცარიელი რიგები უზრუნველყოფს გაცვლას სხვადასხვა რობოტებისთვის. კანის ბლოკი უნდა დაიწყოს User-Agent ველით, რომელიც მიუთითებს რობოტზე, რომელიც მიჰყვება საიტის ინდექსირების წესებს.

მოთხოვნები ხშირად იდება

აუცილებელია იმის უზრუნველყოფა, რომ robots.txt ფაილში ცარიელი მწკრივი არის ორი ჩანაწერის გამყოფი სხვადასხვა რობოტისთვის. ასევე შეუძლებელია რამდენიმე დირექტივის დაკონკრეტება ერთ რიგში. ვებმასტერები ხშირად გამოტოვებენ ინდექსაციის დაცვას ფაილის სახელის წინ.

არ არის აუცილებელი robots.txt-ში მიუთითოთ საიტის ინდექსირების დაცვა სხვადასხვა პროგრამებისთვის, რაც აუცილებელია საიტის მუდმივი მოზიდვისთვის, მაგალითად, TeleportPro. არც პროგრამები და არც ბრაუზერები არასოდეს შეისწავლიან ამ ფაილს და არ მიჰყვებიან იქ დაწერილ ინსტრუქციებს. ეს არ არის განკუთვნილი ხმის სისტემებისთვის. ასევე არ არის კარგი თქვენი საიტის ადმინისტრატორის დაბლოკვა robots.txt-ში, რადგან მასზე შეტყობინება არ არის, მაშინ ის არ დაიბლოკება. თქვენ არ გაუმჟღავნებთ ადმინისტრაციული პანელის დეზორგანიზაციას იმ ადამიანებს, რომლებიც პასუხისმგებელნი არიან ამის შესახებ. ასევე, გახსოვდეთ, რომ ეს შესანიშნავი robots.txt შეიძლება იგნორირებული იყოს საძიებო სისტემის მიერ. თუ თქვენ გაქვთ ძალიან ბევრი გვერდი, რომელიც არ არის განკუთვნილი ინდექსაციისთვის, მაშინ უმჯობესია უბრალოდ წაშალოთ ისინი საიტიდან ან გადაიტანოთ ისინი ახლომდებარე დირექტორიაში და დაიცვათ ამ დირექტორიაში ინდექსირება.

robots.txt ფაილის შემოწმება შეწყალებისთვის

დარწმუნდით, რომ გადახედეთ თქვენი საძიებო სისტემის რობოტების ფაილს თქვენი ცოდნის შესაბამისად. ამისთვის Google-ის ხელახალი დადასტურებებიშეგიძლიათ სწრაფად გამოიყენოთ Google Web Tools. თუ გსურთ გაიგოთ, ესმის თუ არა თქვენი robots.txt ფაილი Yandex-ს, შეგიძლიათ სწრაფად გამოიყენოთ Yandex.Webmaster სერვისი. სასწრაფოდ გამოვასწოროთ შეწყალების ვარაუდები. ასევე ამ სერვისების გვერდებზე შეგიძლიათ იპოვოთ რეკომენდაციები robots.txt ფაილის შესაქმნელად და მრავალი სხვა ძირითადი ინფორმაცია.

სტატისტიკის კოპირება დაბლოკილია.

კითხვის საათი: 7 ჰვილინი


თითქმის ყველა პროექტი, რომელიც ჩვენთან მოდის აუდიტის ან შემოწმებისთვის, შეიცავს არასწორ robots.txt ფაილს და ხშირად მთელი დღის განმავლობაში. ასე რომ, როგორც ჩანს, ფაილის შექმნისას ყველა თავისი ფანტაზიით ხელმძღვანელობს და არა წესებით. მოდით გავარკვიოთ, როგორ სწორად დავკეცოთ ეს ფაილი, რათა საძიებო რობოტებმა შეძლონ მასთან ეფექტურად მუშაობა.

არის თუ არა საჭირო robots.txt-ის გაუმჯობესება?

Robots.txt- ეს ფაილი მდებარეობს root კატალოზის საიტზე, რომელსაც აცნობებს საძიებო სისტემის რობოტი, რომელ განყოფილებებსა და საიტის გვერდებზე შეიძლება უარი თქვან წვდომაზე, მაგრამ რომელზე წვდომა არ არის.

robots.txt-ის რეგულირება მნიშვნელოვანი ნაწილია საძიებო სისტემებისთვის; რობოტების სწორად მორგება ასევე ზრდის საიტის პროდუქტიულობას. Robots.txt-ის არსებობა არ აძლევს საძიებო სისტემებს საიტის დათვალიერების და ინდექსირების საშუალებას, მაგრამ თუ ეს ფაილი არ გაქვთ, შეიძლება შეგექმნათ ორი პრობლემა:

    საძიებო რობოტი კითხულობს მთელ საიტს, ასე რომ, ის „ასუფთავებს“ მცოცავ ბიუჯეტს. მცოცავი ბიუჯეტი არის იმდენი საიტი, რამდენსაც საძიებო რობოტს შეუძლია ნავიგაცია მხოლოდ ერთ საათში.

    რობოტების ფაილის გარეშე, საძიებო სისტემა უარყოფს წვდომას შავ ფაილებზე კეთილი იყოს თქვენი მობრძანება გვერდითასობით გვერდი, რომლებიც გამოიყენება CMS ადმინისტრირებისთვის. ჩვენ ვაფასებთ მათ და თუ მარჯვნივ მიდიხართ საჭირო გვერდები, გამომცემლებისთვის არამედიანი კონტენტის ნებისმიერ პრეზენტაციაზე, მცოცავი ბიუჯეტი დასრულდება.

    ინდექსის დაწყებამდე შეგიძლიათ გამოიყენოთ საიტის შესვლის გვერდი და სხვა ადმინისტრატორის რესურსები, რათა თავდამსხმელმა ადვილად იპოვოს ისინი და დახარჯოს. ddos შეტევაან ზლამატის საიტი.

როგორ მოძებნოთ რობოტები საიტის ჩამოსატვირთად robots.txt-ის გამოყენებით და მის გარეშე:


Robots.txt სინტაქსი

პირველ რიგში, დაიწყეთ სინტაქსის გაგება და დააკონფიგურიროთ robots.txt, იმისდა მიხედვით, თუ როგორ გამოიყურება „იდეალური ფაილი“:


ალე ნე ვარტო რაზუ ზ იოგო ზასტოსოვატი. თითოეული საიტისთვის ყველაზე ხშირად საჭიროა საკუთარი კორექტირება, რადგან ყველას გვაქვს საიტის განსხვავებული სტრუქტურა, განსხვავებული CMS. ავიღოთ კანის დირექტივა თანმიმდევრობით.

მომხმარებელი-აგენტი

მომხმარებლის აგენტი - ნიშნავს საძიებო რობოტს, რომელიც უნდა შეასრულოს ფაილში აღწერილი ინსტრუქციები. თუ დაგჭირდებათ ყველასთან ერთდროულად დაბრუნება, გამოჩნდება * ხატულა. თქვენ ასევე შეგიძლიათ გადახვიდეთ მომღერალ ხმის რობოტზე. მაგალითად, Yandex და Google:


დამატებითი მიზნებისთვის, რობოტს ესმის, რომ ყველა ფაილის და საქაღალდის ინდექსირება დაბლოკილია. თუ გსურთ, რომ თქვენი მთელი საიტი ღია იყოს ინდექსაციისთვის, დატოვეთ დაუშვებელი მნიშვნელობა ცარიელი. იმისთვის, რომ მიიღოთ საიტის მთელი კონტენტი დაშვების შემდეგ, დააყენეთ „/“.

ჩვენ შეგვიძლია დავბლოკოთ წვდომა სიმღერის საქაღალდეზე, ფაილზე ან ფაილის გაფართოებაზე. ჩვენი აპლიკაცია ხურავს ყველა საძიებო სისტემას, ბლოკავს წვდომას bitrix, საძიებო და pdf საქაღალდეებზე.


დაშვება

Primus-ის გახსნის დაშვება საიტის გვერდებისა და სექციების ინდექსაციისთვის. აპლიკაციაში გადავდივართ Google-ის საძიებო რობოტებზე, ვბლოკავთ წვდომას bitrix საქაღალდეზე, ძიებასა და pdf გაფართოებაზე. Bitrix საქაღალდეში ვხსნით 3 საქაღალდეს ინდექსაციისთვის: კომპონენტები, js, ინსტრუმენტები.


მასპინძელი - სარკის საიტი

სარკის საიტი არის მთავარი საიტის დუბლიკატი. სარკეები გამოიყენება სხვადასხვა მიზნით: მისამართის შეცვლა, უსაფრთხოება, სერვერზე ტრაფიკის შემცირება და ა.შ.

მასპინძელი ერთ-ერთი ყველაზე მნიშვნელოვანი წესია. როგორ წერია ეს არის წესი, მაშინ რობოტი მიხვდება, როგორც სარკის საიტიდან, ის დაცული უნდა იყოს ინდექსაციისთვის. ეს დირექტივა აუცილებელია Yandex და Mail.ru რობოტებისთვის. სხვა რობოტები ზოგადად იგნორირებულია. მასპინძელი უნდა დარეგისტრირდეს მხოლოდ ერთხელ!

"https://" და "http://" პროტოკოლებისთვის robots.txt ფაილის სინტაქსი განსხვავებული იქნება.

საიტის რუკა - საიტის რუკა

საიტის რუკა არის საიტის ნავიგაციის ფორმა, რომელიც გამოიყენება ახალი გვერდების შესახებ საძიებო სისტემების ინფორმირებისთვის. საიტის რუქის დამატებითი დირექტივის შემდეგ, ჩვენ „იძულებით“ ვაჩვენებთ რობოტს, რომ რუკა წაშლილია.


სიმბოლოები robots.txt-ში

სიმბოლოები, რომლებიც გამოჩნდება ფაილში: „/, *, $, #“.


პროცესის ეფექტურობის შემოწმება robots.txt-ის მორგების შემდეგ

მას შემდეგ რაც Robots.txt განათავსებთ თქვენს ვებსაიტზე, თქვენ უნდა დაამატოთ და გადაამოწმოთ Yandex-ისა და Google-ის ვებმასტერთან.

Yandex-ის შემოწმება:

  1. მიჰყევით ინსტრუქციას.
  2. აირჩიეთ: მორგებული ინდექსირება – robots.txt-ის ანალიზი.

Google შემოწმება:

  1. მიჰყევით ინსტრუქციას.
  2. აირჩიეთ: სკანირება - ინსტრუმენტი robots.txt ფაილის შესამოწმებლად.

ამ გზით თქვენ შეგიძლიათ შეამოწმოთ თქვენი robots.txt ცვლილებებისთვის და საჭიროებისამებრ განახორციელოთ საჭირო კორექტირება.

  1. ფაილის ნაცვლად აუცილებელია დიდი ასოებით დაწერა.
  2. Disallow დირექტივა მოითხოვს მინიმუმ ერთი ფაილის ან დირექტორიას მითითებას.
  3. "მომხმარებლის აგენტის" მწკრივი არ უნდა იყოს ცარიელი.
  4. მომხმარებლის აგენტი ყოველთვის შეიძლება წავიდეს აკრძალვამდე.
  5. ნუ დაგავიწყდებათ ხაზგასმის ჩასმა, თუ დირექტორიას ინდექსაციისგან დაცვა გჭირდებათ.
  6. სანამ ფაილს სერვერზე ატვირთავთ, უნდა შეამოწმოთ სინტაქსური და ორთოგრაფიული შეცდომები.

Წარმატებას გისურვებ!

ვიდეო მიმოხილვა Robots.txt ფაილის შექმნისა და კორექტირების 3 მეთოდის შესახებ

ვისი საჭირო ინსტრუქციები ხმის სისტემის მუშაობისთვის არ არის გამორიცხული წესებიდან, მაშინ თქვენ გამოიცანით სპეციალური ფაილისახელის ქვეშ robots.txt. ეს ფაილი უნდა მდებარეობდეს თქვენი საიტის ძირეულ საქაღალდეში, ან შეიძლება იყოს ვირტუალური, მაგრამ თქვენ უნდა გკითხოთ: www.yoursite.ru/robots.txt

ხმის სისტემები დიდი ხანია შეფერხებულია საჭირო ფაილები html, თქვენი CMS სისტემის სკრიპტების შიდა ნაკრებიდან, უფრო სწორად, მათ ისწავლეს შეტყობინებების ამოცნობა შინაარსის სტატისტიკაზე და ყველა სახის სისულელეზე. ამიტომ, ბევრ ვებმასტერს უკვე ავიწყდება საიტებზე მუშაობა და ფიქრობს, რომ ყველაფერი ასე კარგად იქნება. ასე რომ, ისინი 99%-ით ერევიან რადიოს, მაშინაც კი, თუ თქვენს საიტს არ აქვს ფაილი, მაშინ საძიებო სისტემები უსაზღვროა შინაარსის ძიებაში, მაგრამ გამოტოვებენ ნიუანსებს, რომელთა წინასწარ განხილვაც შესაძლებელია.

თუ თქვენ გაქვთ პრობლემები ამ ფაილთან დაკავშირებით საიტზე, დაწერეთ კომენტარები ამ სტატიაზე და მე სწრაფად დაგეხმარებით აბსოლუტურად არანაირ ზიანს. ძალიან ხშირია ვებმასტერების მიერ ამ გზით სხვა შეცდომის დაშვება, რაც გამოიწვევს საიტის ცუდი ინდექსირებას ან დაადანაშაულებს ინდექსს.

რისთვის გამოიყენება robots.txt?

robots.txt ფაილი იქმნება საძიებო სისტემების მიერ საიტის სათანადო ინდექსაციის უზრუნველსაყოფად. ამ შემთხვევაში, თქვენი საიტის სიმღერებზე და კონტენტის ტიპზე ნებართვისა და შეზღუდვის წესები იქნება ძალაში. ალი არ არის პანაცეა. ყველა რობოტების ფაილის წესები არ არის ყუთებშიისინი ზუსტად უნდა დაიცვან, მაგრამ მხოლოდ რეკომენდაცია ხმის სისტემებისთვის. მაგალითად, Google წერს:

თქვენ არ შეგიძლიათ robots.txt ფაილის რედაქტირება შედეგების გვერდის გადასაღებად Google ძებნა. სხვა გვერდებს შეუძლიათ მასზე წვდომა და ის მაინც ინდექსირებული იქნება.

საძიებო რობოტები თავად წყვეტენ, რა დააინდექსონ და რა არა და როგორ მოიქცნენ საიტზე. კანის ტიკერს აქვს თავისი ამოცანები და ფუნქციები. რაც არ უნდა გვინდოდეს, ეს არის გზა, რომ არ მოვაწესრიგოთ ისინი.

მაგრამ არსებობს ერთი ხრიკი, რომელიც მთლიანად არ ერევა ამ სტატიის თემაში. რობოტების ინდექსირებისა და საძიებო ხედში გვერდის ჩვენების სრულად თავიდან ასაცილებლად, თქვენ უნდა დაწეროთ:

მოდით მივმართოთ რობოტებს. ამ ფაილის წესები შეიძლება დაიხუროს ან დაუშვას შემდეგი ტიპის ფაილებზე წვდომა:

  • არაგრაფიკული ფაილები. ზდებილშოღო წე html ფაილები, რომელზედაც შეიძლება განთავსებული იყოს ინფორმაცია. შეგიძლიათ დახუროთ დუბლიკატი გვერდები ან გვერდები, რომლებიც არ შეიცავს შესაბამის ინფორმაციას (გვერდები, კალენდრის გვერდები, გვერდები არქივებით, გვერდები პროფილებით და ა.შ.).
  • გრაფიკული ფაილები. თუ გსურთ, რომ საიტის სურათები არ იყოს არასათანადოდ ნაჩვენები, შეგიძლიათ დაარეგისტრიროთ ეს რობოტებში.
  • რესურსის ფაილები. ასევე, რობოტების დახმარებით შეგიძლიათ დაბლოკოთ სხვადასხვა სკრიპტების, ფაილების ინდექსაცია CSS სტილებიდა სხვა უმნიშვნელო რესურსები. Ale არ არის Varto Blokavati რესურსები, yaki vidpovayn საიტის vizualna ნაწილისთვის vidvіduvachiv-სთვის (set, yakshcho vi scream css that js to site, yaki ovyvy blocks abo tables, tso არ დააყენო რობოტი, მე ჩიპზე ლაბიმირება ).

ნათლად რომ აჩვენოთ, როგორ მუშაობენ რობოტები, გაოცდით ქვემოთ მოცემული პატარებით:

საძიებო რობოტი, რომელიც მიჰყვება საიტს, იცავს ინდექსირების წესებს, შემდეგ იწყებს ფაილის რეკომენდაციების ინდექსირებას.
წესების საფუძვლიანად შესწავლის შემდეგ საძიებო სისტემამ იცის რისი ინდექსირება შეიძლება და რისი არა.

ინტაქსი robots.txt ფაილისთვის

ხმის სისტემების წესების დასაწერად რობოტების ფაილი შეიცავს დირექტივებს სხვადასხვა პარამეტრით, რისთვისაც კონფიგურირებულია რობოტები. დავასრულოთ ყველაზე მნიშვნელოვანი და მელოდიური ყველაზე მნიშვნელოვანი დირექტივით:

მომხმარებლის აგენტის დირექტივა

მომხმარებელი-აგენტი— ამ დირექტივით თქვენ მიუთითებთ რობოტის სახელს, რომელიც მიჰყვება ფაილის რეკომენდაციებს. 302 ასეთი რობოტი ოფიციალურად ინტერნეტშია. თქვენ, რა თქმა უნდა, შეგიძლიათ დაწეროთ წესები ყველასთვის, გარდა იმ შემთხვევისა, თუ ამის გაკეთების დრო არ გაქვთ, უბრალოდ დაწერეთ:

მომხმარებლის აგენტი: *

*-ამ აპლიკაციაში ნიშნავს "ყველაფერი". ტობტო. თქვენი robots.txt ფაილი დამოკიდებულია იმაზე, თუ ვისთვის არის განკუთვნილი ფაილი. იმისათვის, რომ არ შეგაწუხოთ რობოტების ყველა დასახელება, უბრალოდ დაწერეთ "ვარსკვლავი" მომხმარებლის აგენტის დირექტივაში.

მე შემოგთავაზებთ პოპულარული ხმის სისტემების რობოტების ჩამონათვალს:

Google - Googlebot- მთავარი რობოტი

სხვა Google რობოტები

Googlebot-News- რობოტი ეძებს სიახლეებს
Googlebot-გამოსახულება- რობოტის სურათები
Googlebot-ვიდეორობოტის ვიდეო
Googlebot-მობილური- რობოტის მობილური ვერსია
AdsBot-Google- რობოტი მთელი მხარის უკუგებისთვის
Mediapartners-Google AdSense სერვისის რობოტი

Yandex YandexBot- მთავარი რობოტი, რომელიც ინდექსირებულია;

სხვა Yandex რობოტები

დირექტივები აკრძალვა და დაშვება

აკრძალვა- რობოტებში ყველაზე მნიშვნელოვანი წესი არის ის, რომ, იმავე პრინციპით, თქვენ ხელს უშლით თქვენი საიტის ინდექსირებას. დირექტივა ასე წერია:

აკრძალვა:

ყველაზე ხშირად შეგიძლიათ გამოიყენოთ Disallow დირექტივა: ცარიელი, მაშინ. რობოტს ეტყობა, რომ საიტზე არაფერია დაბლოკილი, რაც გინდა, დაადექსირე. Პატივი ეცი! თუ შეამოწმებთ/აკრძალავთ, თქვენ მთლიანად დახურავთ საიტს ინდექსაციისთვის.

მაშასადამე, robots.txt-ის სტანდარტული ვერსია, რომელიც „დაუშვებს მთელი საიტის ინდექსირებას ყველა საძიებო სისტემისთვის“ ასე გამოიყურება:

მომხმარებლის აგენტი: * არ დაუშვას:

თუ არ იცით რა დაწეროთ robots.txt-ში, მაგრამ სხვაზე გიფიქრიათ, უბრალოდ დააკოპირეთ ზემოთ მოცემული კოდი, შეინახეთ ფაილში სახელად robots.txt და დაამატეთ იგი თქვენი საიტის ძირში. მაგრამ ნუ შექმნით არაფერს, რათა თქვენს საიტზე ყველაფერი ინდექსირებული იყოს ყოველგვარი სამუშაოს გარეშე. ან ბოლომდე წაიკითხეთ სტატია და მიხვდებით რა უნდა დამალოთ საიტზე და რა არა.

რობოტების წესების თანახმად, აკრძალვის დირექტივა დამნაშავეა obov'yakovoy-ში.

ეს დირექტივა შეიძლება იყოს დაცული როგორც საქაღალდეში, ასევე ფაილში.

Რა გინდა დაიცავით საქაღალდემოგწერე:

აკრძალვა: /საქაღალდე/

Რა გინდა დაიცავით სიმღერის ფაილი:

აკრძალვა: /images/img.jpg

Რა გინდა სიმღერის ფაილის ტიპების დაცვა:

აკრძალვა: /*.png$

რეგულარული გამონათქვამებიარ არის მხარდაჭერილი მრავალი ხმის სისტემის მიერ. Google მხარს უჭერს.

დაშვება- ცალკე დირექტივა Robots.txt-ში. Vaughn საშუალებას აძლევს რობოტს დაადგინოს მთელი ფაილი დამცავ დირექტორიაში. ბოლო დრომდე მხოლოდ Yandex-ით ვიკორიზირებას ვაკეთებდი. Google-მა მიაღწია ამას და უკვე დაიწყო ვიკორიზაცია. Მაგალითად:

დაშვება: /content აკრძალვა: /

ეს დირექტივები ბლოკავს საიტის ყველა შინაარსის ინდექსირებას, გარდა შინაარსის საქაღალდისა. ან კიდევ უფრო პოპულარული დირექტივები:

დაშვება: /template/*.js დაშვება: /template/*.css დაშვება: /template

ეს არის მნიშვნელობა დაუშვით საიტზე ყველა CSS და JS ფაილის ინდექსირება, არამედ შაბლონით საქაღალდეში არსებული ყველაფრის ინდექსირება. დანარჩენი წლის განმავლობაში Google-მა უკვე გაუგზავნა უამრავი სია ვებმასტერებს შემდეგი შეტყობინებით:

Googlebot არ შეუძლია უარყოს წვდომა CSS და JS ფაილებზე საიტზე

პირველი კომენტარი: ჩვენ დავადგინეთ პრობლემა თქვენს საიტზე, რამაც შეიძლება გამოიწვიოს თქვენი სკანირება. Googlebot-ს არ შეუძლია JavaScript კოდის ან CSS ფაილების გაანალიზება robots.txt ფაილის მეშვეობით. ეს მონაცემები აუცილებელია საიტის მუშაობის შესაფასებლად. ამიტომ, თუ რესურსებზე წვდომა დაიბლოკება, ამან შეიძლება გავლენა მოახდინოს თქვენი საიტის პოზიციაზე პოშუკში.

თუ დაამატებთ ორ დასაშვებ დირექტივას, რომლებიც დაწერილია თქვენს Robots.txt-ის დანარჩენ კოდში, მაშინ თქვენ არ მიიღებთ მსგავს შეტყობინებებს Google-ისგან.

І სპეციალური სიმბოლოების შერჩევა robots.txt-ში

ახლა დირექტივებში არსებული ნიშნების შესახებ. ძირითადი ნიშნები (სპეციალური სიმბოლოები) დაბლოკილია ან დაშვებულია /,*,$

წინ დახრილობის შესახებ "/"

Robots.txt ძალიან მატყუარაა. მე ათობითჯერ ვიცოდი ამ სიტუაციის შესახებ, როდესაც უცოდინრობის გამო დაამატეს robots.txt:

მომხმარებლის აგენტი: * არ დაუშვას: /

იმიტომ რომ წაიკითხეს საიტის სტრუქტურის შესახებ და თავად დააკოპირეს საიტზე. ალე, ამ ვიპადკუ შენ დაბლოკოს მთელი საიტის ინდექსირება.იმისთვის, რომ თავად დირექტორია დაიცვათ ინდექსაციისგან, აუცილებლად დაგჭირდებათ გარკვეული წესების დაწესება. თუ, მაგალითად, დაწერთ Disallow: /seo, მაშინ თქვენს საიტზე აბსოლუტურად ყველა შეტყობინება, რომელიც შეიცავს სიტყვას seo, არ იქნება ინდექსირებული. გინდა საქაღალდე /seo/, გინდა კატეგორია /seo-tool/, გინდა სტატია /seo-best-of-the-best-soft.html, ყველაფერი არ იქნება ინდექსირებული.

მნიშვნელოვანია ყველაფრის გაოცება / თქვენს robots.txt-ში

უპირველეს ყოვლისა, შექმენით დირექტორია. თუ ჩააყენებთ / Disallow-ში, თქვენ დაბლოკავთ მთელი საიტის ინდექსირებას, მაგრამ თუ არ ჩადებთ /-ში Allow, თქვენ ასევე დაბლოკავთ მთელი საიტის ინდექსირებას. / - სიმღერაში rozumіnnі ნიშნავს "ყველაფერს, რაც მოდის დირექტივის შემდეგ /".

ვარსკვლავების შესახებ * robots.txt-ში

სპეციალური სიმბოლო * ნიშნავს სიმბოლოების ნებისმიერ თანმიმდევრობას (რიცხვი ცარიელია). თქვენ შეგიძლიათ მათი ვიკორიზაცია იქ, სადაც რობოტები არიან კონდახის უკან:

მომხმარებლის აგენტი: * არ დაუშვას: /papka/*.aspx გაუქმება: /* ძველი

იცავს ყველა ფაილს გაფართოებული aspx გაფართოებით papka დირექტორიადან, ასევე იცავს /old საქაღალდეს და /papka/old დირექტივას. დახვეწილი? ღერძი i არ გირჩევთ თქვენს რობოტებში სიმბოლოთი ითამაშოთ.

დასუფთავებისთვისინდექსირებისა და შენახვის წესების ფაილები robots.txt არის * ყველა დირექტივაზე!

სპეციალური სიმბოლოს შესახებ $

სპეციალური სიმბოლო $ რობოტებში ამთავრებს სპეციალურ სიმბოლოს*. Მაგალითად:

აკრძალვა: /menu$

ეს დაბლოკილია '/menu'-ით და დაბლოკილია '/menu.html'-ით, შემდეგ. ფაილი ბლოკავს მხოლოდ /menu დირექტივას ხმის სისტემებისთვის და არ შეუძლია დაბლოკოს ყველა ფაილი სიტყვის მენიუში URL-ში.

მასპინძელი დირექტივა

მასპინძლის წესი მუშაობს მხოლოდ Yandex-ში, ასე რომ არ არის სავალდებულო, ეს ნიშნავს თქვენი სარკის საიტების მთავარ დომენს, როგორც ისინი არიან. მაგალითად, თქვენ გაქვთ დომენი dom.com, ან უბრალოდ შეიძინეთ და დააკონფიგურირეთ შემდეგი დომენები: dom2.com, dom3,com, dom4.com და მათგან არის გადამისამართება მთავარ დომენზე dom.com.

იმისათვის, რომ Yandex-მა იცოდეს სად არის მთავარი საიტი (მასპინძელი), ჩაწერეთ ჰოსტის დირექტორია თქვენს robots.txt-ში:

მასპინძელი: ვებგვერდი

თუ თქვენს საიტს არ აქვს სარკეები, მაშინ არ უნდა დაწეროთ ეს წესი. უპირველეს ყოვლისა, შეამოწმეთ თქვენი საიტი მისი IP მისამართისთვის და თქვენი შეიძლება სხვაგვარად იყოს ნაჩვენები. თავის მხარედა თქვენ უნდა დაარეგისტრიროთ თავი სარკე. ან, შესაძლოა, თუ თქვენ დააკოპირებთ მთელ ინფორმაციას თქვენი საიტიდან და გააკეთებთ ზუსტ ასლს, გააკეთეთ ჩანაწერი robots.txt-ში, რომ ის ასევე მოიპარეს, მე დაგეხმარებით ამაში.

ჰოსტის ჩანაწერი უნდა იყოს ერთი და საჭიროების შემთხვევაში რეგისტრირებული პორტით. (მასპინძელი: საიტი: 8080)

სეირნობის დაყოვნების დირექტივა

ეს დირექტივა შეიქმნა იმისთვის, რომ თქვენს სერვერზე წვდომის შესაძლებლობა შეგექმნათ. საძიებო რობოტებს შეუძლიათ ასობით მოთხოვნა გაუკეთონ თქვენს საიტს ერთდროულად და თუ თქვენი სერვერი სუსტია, მათ შეუძლიათ მცირე ხარვეზები გამოიწვიოს. ამის თავიდან ასაცილებლად, მათ შეიმუშავეს რობოტების Crawl-delay-ის წესი - ეს არის მინიმალური პერიოდი თქვენი საიტის მონახულებულ გვერდებს შორის. რეკომენდებულია დირექტივის სტანდარტული მნიშვნელობის დაყენება 2 წამზე. რობოტებისთვის ეს ასე გამოიყურება:

სეირნობის დაყოვნება: 2

ეს დირექტივა ვრცელდება Yandex-ზე. Google-ით შეგიძლიათ დააყენოთ სკანირების სიხშირე ვებმასტერების პანელში, საიტის პარამეტრების განყოფილებაში, ზედა მარჯვენა კუთხეში „გადაცემათა კოლოფით“.

სუფთა პარამის დირექტივა

ეს პარამეტრი ასევე მხოლოდ Yandex-ისთვისაა. თუ საიტის გვერდის მისამართები შეიცავს დინამიურ პარამეტრებს, რომლებიც არ ერევიან (მაგალითად: სესიის იდენტიფიკატორები, ანგარიშის იდენტიფიკატორები, რეფერენტები და ა.შ.), შეგიძლიათ აღწეროთ ისინი დამატებითი Clean-param დირექტივის უკან.

Yandex რობოტი, რომელიც იპოვის ამ ინფორმაციას, დიდად არ შეიყვანს დუბლირებული ინფორმაციის ხელახლა შეყვანას. ამ გზით თქვენი საიტის ცოცვის ეფექტურობა გაიზრდება და სერვერზე მოთხოვნა შემცირდება.
მაგალითად, საიტზე არის გვერდები:

www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123

Პარამეტრი refძიება გამოიყენება მხოლოდ იმის უზრუნველსაყოფად, რომ მოთხოვნა შეგროვდა რომელი რესურსიდან და არ შეიცვლება, სამივე მისამართისთვის ნაჩვენები იქნება იგივე გვერდი წიგნით book_id=123. თოდი, როგორ შევიტანოთ ასეთი დირექტივა:

მომხმარებლის აგენტი: Yandex დაუშვებელია: Clean-param: ref /some_dir/get_book.pl

Yandex რობოტი ამცირებს ყველა გვერდის მისამართს ერთზე:
www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123,
საიტზე ხელმისაწვდომია გვერდი პარამეტრების გარეშე:
www.site.com/some_dir/get_book.pl?book_id=123
მაშინ ყველაფერი შემცირდება მასზე, თუ ის რობოტის მიერ იქნება ინდექსირებული. თქვენი საიტის სხვა გვერდებზე წვდომა უფრო ხშირად მოხდება, ამიტომ არ არის საჭირო გვერდების განახლება:
www.site.com/some_dir/get_book.pl?ref=site_2&book_id=123
www.site.com/some_dir/get_book.pl?ref=site_3&book_id=123

#მისამართისთვის ფორმაში: www.site1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.site1.com/forum/showthread.php?s=1e71c4427317a117a&t=82x : s / forum/showthread.php

საიტის რუქის დირექტივა

ამ დირექტივით თქვენ უბრალოდ შეუკვეთავთ თქვენი sitemap.xml მოდიფიკაციას. რობოტს ახსოვს „მადლობა“ და მუდმივად აანალიზებს მას მოცემული გზით. ეს ასე გამოიყურება:

საიტის რუკა: http://site/sitemap.xml

ახლა კი მოდით შევხედოთ უსარგებლო საკვებს, რომელიც გამოდის რობოტის დაკეცვისას. ინტერნეტში უამრავი ასეთი თემაა, ამიტომ გადავხედოთ ყველაზე აქტუალურ და აქტუალურს.

გაასწორეთ robots.txt

მართლაც, ამ სიტყვაში "სწორი", თუნდაც ერთი საიტისთვის ერთ CMS-ზე სწორი იქნება, მაგრამ მეორე CMS-ზე სწორი იქნება. "სწორი კორექტირება" თითოეული ინდივიდუალური საიტისთვის. Robots.txt-ზე აუცილებელია ინდექსაციის დროს დაიხუროს ის სექციები და ფაილები, რომლებიც არ არის საჭირო კლიენტებს და არ გააჩნიათ რაიმე სასარგებლო მნიშვნელობა საძიებო სისტემებისთვის. robots.txt-ის უმარტივესი და სწორი ვერსია

მომხმარებლის აგენტი: * აკრძალვა: საიტის რუკა: http://site/sitemap.xml მომხმარებლის აგენტი: Yandex გამორიცხვა: მასპინძელი: site.com

ამ ფაილს აქვს შემდეგი წესები: უსაფრთხოების წესების დაყენება ყველა საძიებო სისტემისთვის (მომხმარებლის აგენტი: *), ნებადართულია მთელი საიტის ინდექსირება („აკრძალვა:“ ან შეგიძლიათ შეიყვანოთ „ნება: /“), ჰოსტი მითითებულია Yandex-ის მთავარი სარკე (მასპინძელი: site.ncom) და ადგილი, სადაც უნდა გააფართოვოთ თქვენი Sitemap.xml (საიტის რუკა: .

R obots.txt WordPress-ისთვის

ისევ და ისევ, უამრავი საკვებია, ერთი საიტი შეიძლება იყოს ონლაინ მაღაზია, მეორე ბლოგი, მესამე - სადესანტო გვერდი, მეოთხე - სავიზიტო ბარათი კომპანიისთვის და ყველა მათგანი შეიძლება იყოს CMS WordPress-ზე და რობოტების წესები სრულიად განსხვავებული იქნება. ჩემი robots.txt ღერძი ამ ბლოგისთვის:

მომხმარებლის აგენტი: * დაშვება: /wp-content/uploads/ დაშვება: /wp-content/*.js$ დაშვება: /wp-content/*.css$ დაშვება: /wp-includes/*.js$ დაშვება: / wp-includes/*.css$ აკრძალვა: /wp-login.php აკრძალვა: /wp-register.php აკრძალვა: /xmlrpc.php აკრძალვა: /template.html აკრძალვა: /wp-admin აკრძალვა: /wp-includes არ დაუშვას: /wp-content აკრძალვა: /კატეგორიის აკრძალვა: /არქივი აკრძალვა: */trackback/ არ დაუშვას: */feed/ არ დაუშვას: /?feed= აკრძალვა: /job აკრძალვა: /?.net/sitemap.xml

აქ ბევრი რამ არის სათქმელი, მოდით გადავხედოთ მათ ერთდროულად.

WordPress-ში დაშვება. პირველი არის ცალკეული წესები შინაარსისთვის, რომელიც საჭიროა დეველოპერებისთვის (სურათები ატვირთვის საქაღალდეში) და რობოტებისთვის (CSS და JS გვერდების ჩვენებისთვის). თავად css და js ხშირად დროშით არის მონიშნული Google-ის მიერ, ამიტომ ჩვენ მათ კონფიდენციალურობას მოკლებული გვაქვს. შესაძლებელი იყო ყველა ფაილის მეთოდის არჩევა უბრალოდ „/*.css$“-ის ჩასმით, მაგრამ თავად საქაღალდეების ღობე მწკრივი, სადაც ფაილები იყო განთავსებული - არ აძლევდა მათ ინდექსაციის მოძიებას, ამიტომ საჭირო იყო. დაარეგისტრიროთ გზა დაცვის საქაღალდემდე მთელი გზა.

Allow ყოველთვის მიუთითებს Disallow-ისგან დაბლოკილ კონტენტს. თუ ახლა არ გაქვთ ღობე, არ არის სწორი, რომ დარეგისტრირდეთ, დაუშვათ, რაც არ უნდა ფიქრობდეთ, რომ წერილებს აწვდით ჯოკერებს, როგორიცაა: „აბა, მაშინ, თქვენი URL-ის ღერძი, უფრო სწრაფად ინდექსირება მოახდინე“. ასე არ გამოვა.

აკრძალვა WordPress-ში. CMS WP-ში ბევრი რამ არის გასაკეთებელი. სხვა დანამატების გარეშე, ყოველგვარი სხვადასხვა კორექტირებადა ამრიგად, სკრიპტების თაიგული და სხვადასხვა მხარეები, რათა არ მოხდეს რაიმე სასარგებლო ინფორმაცია. მაგრამ მე გადავწყვიტე წინ წავსულიყავი და მთლიანად დავიცვა თავი ყველაფრის დამოუკიდებლად ინდექსირებისგან, გარდა თავად სტატიებისა (ჩანაწერები) და გვერდების (ავტორის, სერვისების შესახებ). დავხურავ ბლოგში კატეგორიებს, გამოვავლენ, იქნება თუ არა ოპტიმიზირებული აკრეფა და იქნება თუ არა თითოეული მათგანის ტექსტური აღწერა, მაგრამ ამავდროულად იქნება უბრალოდ ჩანაწერების დუბლიკატები, რაც არ არის საჭირო პრანკტერები.

ჰოსტი და საიტის რუკა სტანდარტული დირექტივებია. საჭირო იყო მხოლოდ ჰოსტის პირდაპირ Yandex-ში დამატება, თორემ მის დრაივზე არ შევაწუხებდი თავს. ჩვენ ალბათ დავასრულებთ Robots.txt-ით WP-ისთვის.

როგორ შევქმნათ robots.txt

ეს არც ისე მარტივია, როგორც ერთი შეხედვით ჩანს. ყველაფერი რაც თქვენ უნდა გააკეთოთ არის აიღოთ ორიგინალური რვეული (Notepad) და დააკოპიროთ იქ არსებული მონაცემები თქვენი საიტისთვის ამ სტატიის პარამეტრების მიხედვით. მიუხედავად იმისა, რომ თქვენთვის რთულია, ინტერნეტში არის რესურსები, რომლებიც საშუალებას გაძლევთ შექმნათ რობოტები თქვენი საიტებისთვის:

სხვამ არავინ იცის თქვენი Robots.txt-ის შესახებ, ისევე როგორც თქვენი მეგობრები. თქვენ ასევე ქმნით საკუთარ „უსაფრთხოების ფაილს“ მათთვის.

ახლა მოდით ვისაუბროთ სხვადასხვა მოქმედებებზე, რომლებიც შეიძლება გაკეთდეს რობოტებში.

  • « ცარიელი ნაკერი"-შეუძლებელია მომხმარებლის აგენტის დირექტივის ცარიელ რიგში მუშაობა.
  • ზე კონფლიქტებიორს შორის დირექტივებიპრეფიქსებით, თუმცა, უპირატესობა ენიჭება დირექტივებს დაშვება.
  • თითოეული robots.txt ფაილისთვის ის წაშლილია მხოლოდ ერთი მასპინძლის დირექტივა. თუ ფაილი შეიცავს უამრავ დირექტივას, ჯერ რობოტი ვიკორისტი.
  • დირექტივა სუფთა-პარამიє განივი, ეს შეიძლება იყოს მითითებული robots.txt ფაილში. თუ ინსტრუქციები მიუთითებს დეკალზე, ყველა სუნი დაზღვეულია რობოტის მიერ.
  • ექვსი Yandex რობოტი არ შეესაბამება Robots.txt-ის წესებს (YaDirectFetcher, YandexCalendar, YandexDirect, YandexDirectDyn, YandexMobileBot, YandexAccessibilityBot). იმისათვის, რომ არ მოხდეს მისი ინდექსირება საიტზე, თქვენ ასევე უნდა გამორთოთ მომხმარებლის აგენტის პარამეტრები თითოეული მათგანისთვის.
  • მომხმარებლის აგენტის დირექტივამე ყოველთვის უფრო მეტი უნდა დავწერო, ვიდრე თავდაცვითი დირექტივა.
  • ერთი რიგი ერთი დირექტორია. თქვენ არ შეგიძლიათ დაწეროთ ძალიან ბევრი დირექტორია ერთ რიგში.
  • ფაილი ვარეს მხოლოდ ასე გამოიყურება: robots.txt. Zhodnykh Robots.txt, ROBOTS.txt და ა.შ. სახელში სულ რამდენიმე ასოა.
  • დირექტივაზე მასპინძელიდაწერეთ ბილიკი დომენისკენ http და დახრილების გარეშე. არასწორია: მასპინძელი: http://www.site.ru/, სწორია: მასპინძელი: www.site.ru
  • როდესაც vikoristanny საიტი მოიპარეს პროტოკოლი httpsდირექტივაზე მასპინძელი(Yandex რობოტისთვის) აუცილებელია ნათლად მიუთითოთ თავად პროტოკოლი, ამიტომ მასპინძელი: https://www.site.ru

სწორედ ამიტომ არის მსოფლიოში ახალი კვების და ნიუანსი.

ეს შენ ხარ, ზარმაცი სტაურუს.