Индексация сайта
Немного истории
С увеличением объема информации, представленной в интернете, возник вопрос эффективного и быстрого поиска необходимых данных. Вначале данную функцию выполняли веб-каталоги — упорядоченные по тематике списки ссылок. Их составляли вручную, нередко привлекая в качестве модераторов добровольцев. От качества и количества представленных в каталоге сайтов зависела его популярность. С течением времени люди придумали более эффективный способ искать информацию — при помощи поисковых систем.
Интернет — это гипертекстовая среда, и можно предположить, что все страницы и документы связаны между собой ссылками. Если есть сайт, то хотя бы одна ссылка должна вести на него. Соответственно, переходя по ссылкам от одного сайта к другому и сохраняя представленную на них информацию, можно занести в базу данных все сведения, находящиеся в интернете. По этому принципу стали работать поисковые машины. Специальные программы — поисковые роботы — находили сайты и передавали их на обработку. На первом этапе создания поисковых машин вручную составлялись списки индексации, чтобы облегчить роботам нахождение всех значимых сайтов. В дальнейшем это перестало быть необходимым. В идеале, переходя по ссылкам, можно найти все документы. Но на практике так не получается. Содержание сети быстро меняется, и отслеживать все изменения в режиме реального времени не удается. Базы данных даже самых крупных поисковых систем охватывают максимум половину информации, представленной в сети.
Прародителем поисковых роботов стала программа Archie (Арчи). Она сканировала анонимные FTP сервера и фиксировала названия находящихся там файлов. Арчи работал в интернете еще тогда, когда в глобальной паутине не было и сотни серверов HTTP! Первый поисковым роботом в современном значении этого слова стал Вандерер (Wanderer). А первые поисковые машины возникли в интернете в середине 90-х годов. Среди поисковиков того времени можно назвать Excite, Lycos, Infoseek. Самой популярной и совершенной считалась AltaVista. Она использовала собственного поискового робота и обладала удобным дизайном. Надо отметить, что дизайнерские решения, которые впервые применила AltaVista, в дальнейшем нашли свое отражение в большинстве популярных поисковых машин, включая Google.
Со временем поисковые машины начали конкурировать между собой, появились новые подходы к поиску информации. В частности, некоторые системы начали интегрировать результаты поиска по индексу и какому-либо популярному каталогу, например, Yahoo.Самая популярная ныне поисковая машина Google появилась в 1998 году. Российские поисковые машины также начали работать в середине 90-х годов. Например, Рамблер и Апорт открылись в 1996 году. Некоторое время каталог Рамблер Топ 100 был самым популярным ресурсом в Рунете. Поисковая машина «Яндекс» появилась в 1997. На сегодня данная система обладает самой большой базой документов среди аналогичных проектов в Рунете.
Типы поисковых машин
Важно отличать каталог от поисковой машины. В большинстве каталогов существует возможность поиска, но он ведется исключительно по базе сайтов, внесенных в каталог. И содержание ресурсов не учитывается — в расчет берется только категория, название и реже — описание сайта. Как правило, владельцы сайтов самостоятельно подают заявки на добавление своего проекта.
В каталогах все сайты представлены по рубрикам. Посетители могут находить интересующий их раздел и просматривать список сайтов в нем. Чаще всего кроме ссылок и названий каждый ресурс имеет краткое или подробное описание. В Интернете есть тысячи каталогов, но популярных и авторитетных не так много. К числу последних можно отнести каталоги Яндекса и DMOZ. Кроме повышения цитируемости сайта, они дают реальный трафик (переходы пользователей) на представленные в них ресурсы.Иначе работают поисковые машины. Они автоматически индексируют содержание ресурсов в интернете и формируют на этой основе базу данных (индекс). В ней содержится информация о содержании сайта, ссылках на конкретный ресурс и другие полезные сведения. Новые сайты поисковые машины находят по ссылкам. Таким образом, подавать заявку на добавление сайта в индекс поисковой машины не обязательно. Со временем поисковый робот сам найдет ваш ресурс. Хотя заявку можно добавить, например, для ускорения этого процесса.
Существуют также метапоисковые машины. Их основное отличие заключается в том, что они формируют результаты на основе выдачи нескольких поисковых машин.
Как проходит индексация
Индексация ресурса начинается с приходом на сайт поискового робота (спайдера, кроулера) — это специальная программа, которая обходит все ресурсы в интернете и передает их содержимое для обработки индексаторам. Иногда отдельно выделяют кроулеров — кроме поиска, данный тип роботов может самостоятельно анализировать, по какой ссылке в документе ему дальше идти.
Конечно, для анализа передаются не все данные. Чаще всего содержание ресурса очищается от ненужных тегов. Далее идет обработка, определение веса, частоты, плотности ключевых слов. Обработанная информация попадает в базу данных поисковой системы (индекс).
Такая «самостоятельность» поисковых роботов может привести к негативным последствиям. Например, если в индекс попадут документы, которые владелец ресурса не желает показывать по тем или иным причинам, либо страницы, которые сам владелец считает малоинформативными или техническими. Для избежания подобных ситуаций был создан протокол Robot Exclusion Protocol, который позволяет запретить индексацию всего сайта или его части. На практике команды прописываются в файле robots.txt , который помещают в корневой каталог сайта. Например, если адрес вашего сайта www.site.com, то текстовый файл должен лежать по адресу www.site.com/robots.txt. В противном случае поисковые роботы не найдут его и проиндексируют весь ресурс.
Подробно о Robots.txt
Файл robots.txt состоит из записей вида:
User-agent: *
Disallow: test.htm
Поле User-agent указывает на поискового робота, которому предписана команда. Каждый поисковый робот имеет собственное имя, например, бота Google «зовут» googlebot. Если в этой строке поставить звездочку (*), то команда распространится на всех поисковых роботов без исключения. В поле Disallow указано, что запрещено индексировать. В данном поле можно указать конкретный файл, директорию или типы файлов. Например:Disallow: test.htm — запрещено индексировать файл test.htmDisallow: /cgi-bin/ — запрещено индексировать содержимое папки cgi-binDisallow: /*.doc$ — запрещено индексировать файлы с расширением .docВ файл robots.txt можно записывать комментарии. Для этого вначале строки необходимо ввести знак #.
Запретить индексировать документ также можно с помощью meta-тегов. Например, данная срока запрещает поисковому роботу индексировать документ:
‹meta name=»robots» content=»noindex,follow»›
Существуют четыре типа команд:
INDEX,FOLLOW — роботы проиндексируют страницу и пройдут по ссылкам на ней
INDEX,NOFOLLOW — роботы проиндексируют страницу, но ссылки на странице будут проигнорированы
NOINDEX,FOLLOW — страница не будет проиндексирована, но роботы пройдут по ссылкам
NOINDEX,NOFOLLOW — содержимое страницы и ссылки на ней будут проигнорированы‹a href=»http://site.com» rel=»nofollow»›Текст ссылки‹/a›
Отечественные поисковые машины, в частности, Яндекс и Рамблер понимают еще один тег: ‹noindex›‹/noindex›. Все, что в нем содержится, игнорируется поисковыми роботами этих систем. Данный тег можно использовать, чтобы закрыть часть кода от индексации. Таким образом, можно повысить плотность ключевых слов на странице. Однако использовать ‹noindex› не рекомендуется, ведь многие поисковые машины его не воспринимают.
Если у вас небольшой сайт, состоящий из 10-20 страничек, файл robots.txt можно сделать вручную. Если проект большой, ручная работа может обернуться потерей времени и множеством ошибок. Из-за последних в индекс могут попасть лишние документы. Избежать этого можно, если воспользоваться программными средствами для автоматизации процесса.
Так, в программе Page Promoter для работы с файлом robots.txt предусмотрен визуальный редактор. В нем находятся две закладки. На первой можно выбрать поисковых роботов, на второй — запретить конкретным поисковым роботам индексировать часть сайта или весь ресурс. В программе находится информация о более чем 180 поисковых роботах, принадлежащих самым известным поисковым машинам мира. По каждому роботу можно посмотреть подробную информацию, в частности, название поискового сервиса, имя робота, страну и основной язык поисковика. Кроме того, программа Page Promoter позволяет импортировать файл robots.txt. Очень удобно, если вам необходимо исправить или проверить какой-либо файл.
Глава 5: «Процесс индексации»
Процесс индексации
К сожалению, не всегда индексация ресурса проходит идеально. Нередко возникают проблемы, которые препятствуют индексации части и даже всего веб-сайта. Либо ресурс полностью вылетает из индекса. Очень часто причиной таких явлений становятся ошибки, допущенные во время разработки проекта.
Специалисты выделают три типа ошибок, которые препятствуют нормальной индексации сайта:
Использование конструкций, препятствующих индексации
Засорение индекса дубликатами страниц
Препятствия индексированию сайта
К ошибкам первого типа относят использование скриптов и флэш для создания меню. Дело в том, что поисковые машины не умеют индексировать содержимое скриптов и Flash. Поэтому спрятанные в них ссылки они также не найдут и не перейдут по ним на другие документы. Если на вашем сайте использовано такое меню, выход — продублировать навигацию текстовыми ссылками, например, внизу страницы. Впрочем, ситуация с Flash сейчас немного лучше. Часть поисковые машин, к числу которых относятся Яндекс и Рамблер, научились индексировать Flash. Но остаются системы, которые не могут этого делать.
Популярная в прошлом ошибка — использование фреймов. Они позволяют разделить экран пользователя на несколько областей и в каждой открыть определенный документ. Использование фреймов замедляет индексацию документа. Также встает вопрос авторитетности того или иного документа. Если на главной странице открываются три разных html-файла, то неизвестно, какой из них поисковая машина посчитает главной страницей. Использование фреймов приносит множество проблем.
Осторожно следует подходить к использованию редиректа, который автоматически направляет посетителя с одной страницы на другую. Редирект на стороне клиента однозначно воспринимается поисковыми машинами как спам. Дело в том, что такой редирект часто используют владельцы дорвеев. Редирект на стороне сервера не относится к запрещенным технологиям, но также может вызвать проблемы. Например, с учетом внешних ссылок на документ.
Не всегда поисковые машины корректно индексируют динамические страницы. К их числу относятся страницы, в адресе которых находится знак вопроса, либо их разрешение отлично от .htm или .html. Некоторые поисковые системы накладывают ограничения на индексацию подобных документов и учет ссылок на них.
Засорение индекса дубликатами страниц происходит чаще всего при использовании идентификаторов сессии. В случае их применения каждому посетителю присваивается уникальный код, который дублируется в адресе страницы. Идентификаторы позволяют собирать информацию о поведении посетителей на сайте, но в то же время затрудняют индексацию ресурса. При каждом визите поисковый робот получает одни и те же страницы с разными адресами (из-за идентификаторов) и в поисковой машине копятся дубликаты страниц. В итоге сайт могут пессимизировать либо удалить из индекса большую часть документов. Сегодня идентификаторы потеряли свою актуальность — существует множество других инструментов для сбора статистики. Тем не менее, если на вашем сайте используются идентификаторы, необходимо избавиться от них или прописать запрет на присвоение идентификаторов поисковым роботам.Ошибки возникают в случае неправильно настроенного сервера. При обращении поискового робота к документу сервер сообщает в заголовке код, например, 200 (все OK). Есть другие коды: 301 (документ перемещен), 302 (временно перемещен), 404 (не найден). Проблемы возникают, если сервер передает код 200 (все ОК) для несуществующих страниц.
В случае очень крупных сайтов возникает еще одна проблема. Поисковые роботы за один визит индексируют определенное количество документов. Если ресурс содержит тысячи страниц, то на их индексацию потребуется несколько визитов ботов и соответственно больше времени. Владельцу сайта, наоборот, хочется увидеть все страницы в индексе как можно скорее. Решить проблему можно созданием поддоменов, например, отдельного поддомена для форума. Для каждого поддомена выделяется своя квота индексации и в итоге за один визит обрабатывается больше документов. Другое решение — запретить для индексации малоинформативные страницы. Тогда в индекс попадут только самые интересные для посетителей и поисковых машин документы.
Как добавить
Процесс индексации можно ускорить, если вручную подать заявку на добавление сайта в поисковую систему. Ниже приведены ссылки на страницы добавления сайтов в наиболее популярных поисковых системах:
Поисковая система | Язык | Страна | Страница для добавления нового сайта |
Яндекс | Русский | Россия | http://webmaster.yandex.ru/ |
Рамблер | Русский | Россия | http://www.rambler.ru/doc/add_site.shtml |
Апорт | Русский | Россия | http://catalog.aport.ru/rus/add/AddUrl.aspx |
LiveInternet.ru | Русский | Россия | http://www.liveinternet.ru/add |
Meta.ua | Русский/Украинский | Украина | http://meta.ua/webmaster/addurl.asp |
Google.ru | Многоязыковой | Интернациональный | http://www.google.com/addurl/?continue=/addurl |
Yahoo.com | Многоязыковой | Интернациональный | http://search.yahoo.com/info/submit.html |
MSN.com | Многоязыковой | Интернациональный | http://search.msn.com/docs/submit.aspx |
AltaVista.com | Многоязыковой | Интернациональный | http://www.altavista.com/addurl/default |
AOL.com | Многоязыковой | Интернациональный | http://search.aol.co.uk/web_idx?help=add_sites |
Looksmart.com | Многоязыковой | Интернациональный | https://adcenter.looksmart.com/quick_start/ad_description |
Lycos.com | Многоязыковой | Интернациональный | http://insite.lycos.com/ |
Dogpile.com | Многоязыковой | Интернациональный | https://client.enhance.com/ols/index.do?network=dogpile |
При добавлении сайтов в поисковые машины необходимо учитывать ряд их особенностей. Например, для добавления сайта в поисковую систему Google необходимо, чтобы на ресурс стояла хотя бы одна внешняя ссылка. Тогда поисковый робот Google сам найдет ваш ресурс. Некоторые поисковые машины используют алгоритмы других поисковиков, а также учитывают наличие сайтов в определенных каталогах. Например, тот же Google и ряд других поисковых машин используют базу данных каталога DMOZ (http://dmoz.org/). Отечественная поисковая машина Mail.ru использует алгоритмы Яндекса.