Як скласти файл robots txt

Одним із засобів управління індексацією сайтів пошуковими системами є файл robots. txt. Переважно він використовується для того, щоб заборонити всім або тільки певним роботам завантажувати вміст деяких груп сторінок. Це дозволяє позбутися від «сміття» у видачі пошукових систем і, в деяких випадках, істотно поліпшити ранжування ресурсу. Для успішного застосування важливо правильно скласти файл robots. txt.
як скласти файл robots txt
Складіть список роботів, для яких будуть задані особливі правила винятків або використані директиви розширеного стандарту robots. txt, а також нестандартні і специфічні директиви (розширення конкретної пошукової системи). Внесіть в даний список значення полів User-Agent заголовків HTTP-запитів, що посилаються вибраними роботами сервера сайту. Імена роботів також можна дізнатися в довідкових розділах сайтів пошукових систем.

2крок

Виділіть групи URL ресурсів сайту, до яких повинен бути заборонений доступ кожному з роботів списку, складеного на першому кроці. Проведіть таку ж операцію по відношенню до всіх інших роботам (невизначеному безлічі індексуючих ботів). Іншими словами, в результаті повинні вийти кілька списків, які містять посилання на розділи сайту, групи сторінок або джерела медіа-контенту, які заборонені до індексації. Кожен список повинен відповідати окремому роботу. Також повинен бути список заборонених URL для всіх інших ботов. Составляйте списки на основі зіставлення логічної структури сайту з фізичним розміщенням даних на сервері, а також шляхом угруповання URL сторінок по їх функціональною ознакою. Наприклад, можна включити в забороняють списки вміст будь-яких службових каталогів (угруповання за місцем проживання) або всі сторінки профілів (угруповання за призначенням).

3 крок

Виділіть ознаки URL кожного з ресурсів, що містяться в списках, складених на другому кроці. При обробці списківвинятків, призначених для роботів, які використовують тільки стандартні директиви robots. txt і невизначених роботів, виділіть унікальні частини URL максимальної довжини. Для інших множин адрес можна створити шаблони відповідно до специфікацій конкретних пошукових машин.

4 крок

Cоставьте файл robots. txt. Внесіть в нього групи директив, кожна з яких відповідає набору заборонних правил для конкретного робота, список яких був складений на першому кроці. Останньою повинна слідувати група директив для всіх інших роботів. Розділіть групи правил одним порожнім строкой. Каждий набір правил повинен починатися з директиви User-agent, що ідентифікує робота, після чого повинні слідувати директиви Disallow, що забороняють індексацію груп URL. Значеннями директив Disallow робіть рядки, отримані на третьому кроці. Директиви і їх значення розділяйте двоеточіем. Рассмотріте наступний приклад: User-agent: YandexDisallow:/temp/data/images/User-agent: * Disallow:/temp/data/Даний набір директив наказує основному роботу пошукової системи Яндекс не індексувати URL, в яких міститьсяподстрока/temp/data/images/. Він також забороняє індексацію URL, в яких міститься/temp/data/всім іншим роботам.

5 крок

Доповніть robots. txt директивами розширеного стандарту або специфічними директивами конкретних пошукових систем. Як приклади подібних директив можуть виступати: Host, Sitemap, Request-rate, Visit-time, Crawl-delay.
Відео по темі
Зверніть увагу
Пошуковий робот компанії Rambler розуміє тільки базовий стандарт robots. txt.
Використання robots. txt є декларативною мірою. Воно не захистить ваш сайт від автоматичних парсеров контенту.
Корисна порада
Використовуйте нестандартні розширення формату robots. txt для більш гнучкого управління роботами Yandex і Google.




ЩЕ ПОЧИТАТИ