Многие администраторы ресурсов часто задают вопрос: «Почему поисковые роботы так редко заходят на мой сайт?». Ответ очевиден: «Все, что ни делается — делается к лучшему», — так успокаивают себя слабые люди.
Поисковые системы индексируют любой сайт, который найдут, и у которого в HTTP-заголовке будет статус «200 Ok». Влиять meta-тегами на поисковые машины сейчас неактуально, ни один уважающий себя поисковик не обращает ни малейшего внимания на теги устаревания контента.
Для того, чтобы поисковые роботы глубже проходили по вашему сайту, нужно, во-первых, сделать файл robots.txt в корне сервера, во-вторых, карту сайта со ссылками на все страницы, при чем ссылка на карту сайта должна быть с главной страницы, в-третьих, при добавлении новой страницы нужно отображать это в новостях со ссылкой на нее, в-четвертых, надо чаще обновлять сайт и страницы на нем, и, в-пятых, все страницы сайта должны отдавать Last-Modified документов.
Файл robots.txt должен называться именно так и не иначе, либо поисковые системы просто не будут обращать на него внимание. Так же, расположение этого файла на сервере должно быть таким:
http://www.artpix.ru/robots.txt
Первичную информацию об индексации сайта поисковые роботы получают из robots.txt, в нем описывается то, что не надо индексировать. То есть, робот получает информацию о страницах, которые не нужно индексировать, а все остальные страницы робот индексирует по мере заходов на сайт. Чем выше статус вашего сайта для поисковика, тем больше его страниц робот проиндексирует за один раз.
Чтобы запретить индексацию отдельных страниц вашего сайта для всех роботов, нужно прописать в robots.txt:
User-agent: * Disallow: /
Чтобы запретить индексацию отдельных страниц сайта, роботу Рамблера нужно написать:
User-agent: StackRambler Disallow: /
В обоих случаях знак «/» надо заменить на путь к странице вашего сайта. Так, если хотите запретить индексацию страницы http://artpix.ru/about/ и всего, что лежит глубже нее на сервере, то нужно заменить знак «/» на «/about/». Если оставить только слеш, то ваш сайт полностью выпадет из индекса.
Надо помнить, что файл robots.txt доступен для чтения всеми пользователями, поэтому не нужно прописывать в него пути к админкам или панелям управления на сайте. Во-первых, поисковые системы и так не индексируют страницы, на которые требуются логин и пароль, а во-вторых, если на эту страницу ни кто не ссылается, то она никогда и не будет найдена поисковиками.
В случае картинок, то тут вопрос отдельный, некоторые поисковые системы иногда индексируют отдельные картинки как страницы, поэтому, если вы не хотите, чтобы элементы дизайна вашего сайта оказались в индексе, то лучше прописать путь к «ненужным» для индекса картинкам в robots.txt.
Источник: http://www.artpix.ru/ |