robots.txt
Файл robots.txt на сайте в корневом каталоге служит для правильной индексации страниц поисковыми роботами такие как:
Яндекс
Google
Апорт
и тд
Индексация сайта - У поисковиков есть программы-роботы (поисковые боты), которые постоянно «гуляют» по ссылкам в поисках новых страниц. Если они находят новую страницу, которая удовлетворят требованиям алгоритма данного поисковика, то она включается в результаты поиска, или проходит индексацию.
Самое ценное и одновременно сложное – это алгоритмы поисковых систем, по которым они выбирают страницы для своей поисковой базы. У разных поисковиков они свои: у кого-то лучше, у кого-то чуть попроще. Это также необходимо учитывать при индексации сайта. Говорят, что в интернете можно найти всё, что угодно. А благодаря чему можно найти? Правильно! Благодаря качественной индексации сайтов.
Итак вернемся к файлу:
как пример рассмотрим систему для Ucoz
создаем обычный файл блокнота .txt
1) Указываем, что все роботы могут индексировать сайт
User-agent: *
2) Закрываем страницы которые роботу не нужно индексировать директивой «Disallow». Какие страницы необходимо закрыть от индексации определяем сами – нужно чтоб дублированного контента было как можно меньше. Именно поэтому мы закрываем от индексации такие директивы как «informer», «tags» и т.п.
В итоге у нас получается:
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat/
Disallow: /search/
3) Указываем поисковым системам где карта сайта:
Sitemap: http://ваш-сайт.ucoz.ru/sitemap.xml
4) Прописываем дополнительную информацию для поисковой системы Яндекс, такую как основное зеркало сайта:
User-agent: Yandex
Host: ваш-сайт.ucoz.ru
сохраняем его - robots.txt
Вот мы и составили правильный robots.txt для uCoz сайта.
загружаем в корень сайта
посмотреть его можно по ссылке http://ваш-сайт.ucoz.ru/robots.txt