В данной статье детальному рассмотрению будут подвергнуты следующие процессы работы поисковой системы: индексирование документов, обработка запросов, ранжирование результатов.
Невероятно, но факт, современные поисковые системы, которыми многие из нас пользуются, имеют в своей основе науку, насчитывающую уже не один десяток лет, известную как информационный поиск. На заре своего развития данная наука нашла основное применение в крупных организациях, таких как библиотеки, научно-исследовательские центры, правительственные лаборатории. В то время учеными были определены два основополагающих компонента успешного поиска. По аналогии можно выделить подобные компоненты и в современном поиске.
Первым является релевантность, определяющая степень соотношения контента, как результатов поиска, оригинальному запросу пользователя. Документ считается релевантным запросу в том случае, если слова запроса часто встречаются в тексте самого документа, особенно в наиболее важных его частях, таких как заголовок и подзаголовки. В современном поиске данный процесс известен как анализ документа. Современные поисковые системы проверяют наиболее значимые области веб-страниц: заголовок, мета-данные, тэги заголовков, основную часть текстового сообщения, чтобы определить, насколько близок контент страницы запросу.
Вторым компонентом является популярность. Все, кто писал курсовые работы, сталкивался с этим. Вспомните преподавателя, настойчиво требующего Вас обратить особое внимание на ссылки и библиографию источников, в частности, на те ссылки, которые встречаются несколько раз. Такие работы считаются популярными, следовательно, важными для исследуемой темы. В Интернете подобный процесс представлен в виде ссылочного анализа, с помощью которого поисковая система определяет общее количество входящих ссылок, кто ссылается на данную страницу или сайт, и что говорят о данной странице или сайте ссылающиеся источники.
В дополнение к релевантности и популярности, поисковым системам необходимо учитывать то, насколько источникам можно доверять. Продолжая проводить аналогию с университетской средой, можно предположить, что коммерческие интересы не повлияют на результаты поиска документа. Однако, в интерактивной среде все как раз наоборот. Одной из причин, почему ссылки со страниц с расширением .edu и .gov представляются более важными, является именно их некоммерческий характер. Техника анализа документов и ссылок предполагает изучение сотни процессов, проходящих в алгоритмах поисковой системы, и определение порядка выдачи результатов поиска пользователю.
Кому можно доверять
Желая получить больше информации о человеке, обычно предпринимают следующее: знакомятся с ним лично, либо наводят справки о нем. При оценке веб-сайта поисковая система выполняет то же самое: проверяет, как сам сайт оценивает себя, и как его оценивают другие сайты. Однако, преследуя финансовую выгоду, многие сайты могут завышать собственную оценку, прибегая к чрезмерному использованию мета-тэгов и ключевых слов, что до 1998 г. оставалось совершенно безнаказанным. Сейчас поисковые системы не так уж просто провести, политика наказаний порой излишне сурова.
Если забыть на время о самооценке сайтов, стоит вспомнить об определении популярности. Если сотни тысяч сайтов ссылаются на определенный сайт, то согласно теории, он должен быть популярным, а, следовательно, значимым. Если ссылки сделаны с сайтов, обладающих большим количеством входящих ссылок, это увеличивает вес всех исходящих, с подобных сайтов, ссылок. Только не стоит забывать о качестве ссылок. Так, например, ссылки с сайтов, обладающих высокой степенью доверия (например, сайты Гарвардского Университета, Агентства Рейтер, Министерства Юстиции США и т.д.), непременно окажут положительное влияние на позиции сайта. Соответственно, ссылки с сайтов низкого качества (например, входящие в состав ссылочных ферм) не принесут выгоды, а, возможно, и негативно скажутся в SERP.
Актуальным остается вопрос: как поисковые системы определяют значимость входящих ссылок на сайт. Анализу подвергается весь контент страницы, с которой делается ссылка. Вот, например, как работает PageRank Google: для определения важности ссылки во внимание принимается не только сама ссылка со страницы А на страницу B, но и текст страницы А.
Как поисковая система оценивает ссылки
На оценку качества ссылки влияет большое количество факторов. В рамках данной статьи представляется возможным рассмотреть лишь несколько из них, имеющих большее значение.
Одним из таких факторов является «ссылочный текст» — видимые символы или слова, кликая которые, осуществляется переход по гиперссылке. Например, на странице, рассказывающей об азартных играх, Вы находите следующую фразу «I’ve looked all over, but so far I’ve only found one place that keeps the Xbox360 consistently in stock». Если последние четыре слова являются гиперссылкой, то поисковый робот, столкнувшись с подобной фразой, сделает вывод, что страницы, на которые сделана ссылка (одной из которых может быть и eBay), были определены согласно фразе «Xbox360 consistently in stock». Многие считают, если определенные страницы релевантны определенному набору слов и ссылкам, содержащим данный набор слов, то сайт может быть высоко оценен даже при условии, если этот набор слов больше нигде на сайте не встречается.
Популярность сайта, определенная количеством входящих ссылок, влияет и на оценку сайта. Например, ссылка с SEO Chat на Ваш сайт имеет большой вес, однако ссылка с NYTimes.com будет весить намного больше. Определение подобных данных является одной из функций PageRank, хотя зачастую эти данные теряют свою актуальность (т.к. Google обновляет PageRank лишь каждые 3-6 месяцев).
Всем сайтам обрести популярность сложно. Возможно, именно поэтому поисковые системы стали замечать появление «тематических сообществ», раньше они представляли собой «webring-и». «Тематические сообщества» — сайты, объединенные общей тематикой и ссылками друг с другом. Отметим, что ссылка с сайта, состоящего в «тематическом сообществе», может приобрести больший вес, если он ссылается на страницу с подобной тематикой. В противном случае, вес ссылки будет намного меньше.
Текст, окружающий ссылку (не ссылочный текст), зачастую подвергается более тщательному анализу и оценке, чем остальной текст на странице. Таким образом, внутренние ссылки являются более значимыми. Предметом изучения ссылающейся страницы также является определение важности «голоса», который страница передает той, на которую ссылается.
Изучение языка
Уже рассмотрев такие функции поисковых систем, как индексирование и ранжирование, следует упомянуть о том, для чего выполняются все эти задачи, – об обработке запроса. И первое, с чем следует ознакомиться, это семантика, языкознание. Поисковые системы используют все свои знания в данных областях для того, чтобы представить релевантные запросу результаты. Вот почему, например, при запросе «старинный автомобиль», поисковик может представить наряду со страницами, содержащими данную фразу, страницы, имеющие отношение к запросу, но представленные синонимичной фразой «антикварный автомобиль».
Поисковые системы тщательно просматривают огромное количество информации, определяют родство слов на основе частоты их использования и контекстуального значения. Это значит следующее: чем больше данных соберет поисковая система, тем более точными будут результаты поиска. Для заметных перемен требуется немало времени. Однако следует отметить, что происходящие улучшения увеличивают скорость прямо пропорционально увеличению объема собранных поисковым роботом данных.
Можно смело утверждать, что поисковые системы не остановятся на достигнутом. Попытки улучшить понимание запросов пользователей будут предприниматься до тех пор, пока «не придут» к совершенству. Добившись идеала в понимании запросов, поисковые системы будут представлять совершенные результаты поиска.
По информации www.seochat.com