Поисковые механизмы - как искать в сети

Люди, склонные к излишнему употреблению красивых метафор, любят сравнивать Сеть с помойкой. Дескать, свалено там все в кучу и сам черт ногу сломит. Дескать, все тут есть, но чтобы это «все» найти, нужно перерыть горы мусора.

Метафора красива. Но неверна. У меня на столе царит, казалось бы, бессмысленное нагромождение ненужных вещей. Однако для меня все на столе подчинено твердой логике – самые необходимые вещи, как, например, любимая кружка для чая системы «тазик» водоизмещением чуть больше пол-литра, находятся на расстоянии вытянутой руки, менее необходимые – дальше. Но назвать все это беспорядком или помойкой? Увольте!

Так и в Сети есть своя логика. Зная и используя несколько простых правил, вы можете сделать так, что любая информация в Сети будет находиться на расстоянии вытянутой руки, и чувство, что интернет – это помойка, бесследно исчезнет.

Речь пойдет о поисковых системах и правилах поиска в Сети.

Сначала – небольшое лирическое отступление, в котором я расскажу, как устроена поисковая система. Так уж случилось, что пользователь видит лишь интерфейс поисковой системы, ее, с позволения сказать, лицо, а внутренности – самое главное – остаются «за кадром».

Итак, первая часть поисковой системы – это «паук», crawler, поисковый робот. Он занимается тем, что путешествует по Сети, просматривает все страницы, посещает все ссылки, не останавливаясь ни на минуту. Путешествует не просто так – все, каждую страницу, что он просмотрел, «паук» заносит в индекс поисковой машины в виде встречающихся на странице значащих слов.

Таким образом, индекс поисковой машины – это огромнейшая база данных, с помощью которой можно быстро узнать, на какой именно странице в Сети можно встретить данное слово. В качестве информации к размышлению – объем индекса поисковой системы Yandex.ru составляет 81,92 Гигабайт. (http://www.yandex.ru/chisla.html). Да, 81, 92 Гигабайт.

Третья часть, после индекса – это собственно поисковая машина. Занимается он тем, что ищет нужное слово – или слова – в индексе. Поисковая система не ищет «по всему интернету» – это заблуждение. Представьте, что было бы, если б это действительно было так: К примеру, объем проиндексированной информации на Yandex.ru составляет 258,67 Гб. А это значит, что не будь индекса, после того, как вы ввели запрос на Яндексе, ему пришлось бы загружать и просматривать 258 гигабайт информации. Это нонсенс. Представьте, сколько дней Яндекс отвечал бы на Ваш запрос.

Из того, что поисковая машина не ищет «По всему интернету», а только в своем индексе, следует, как минимум, два вывода. Первый – если поисковая машина чего-то не нашла, что вовсе не значит, что этого нет в Сети. Второй – поисковые системы различаются не только внешним видом, но и, например, индексом и способом его составление. Поэтому если вы не нашли что-то в одной поисковой системе, есть смысл поискать в другой.

Поисковый робот, составляющий индекс, обходит сайты «кругами», посещая их регулярно – таким образом, индекс адекватно отражает изменения, происшедшие на сайте. Новые сайты «паук» находит либо сам, придя по ссылке с другого сайта, либо узнает о них от автора сайта – в поисковых системах имеется возможность «натравить» «паука» на свой сайт.

Ну и последняя часть поисковой системы – это ее WWW-сервер. Это ее лицо, это тот интерфейс, посредством которого пользователь задает вопросы и получает на них ответы. WWW-сервер – это только одна из частей поисковой машины, причем не самая большая. Так что не все так просто, как кажется. Кстати, посмотреть, как выглядит Яндекс «в железе» можно вот тут: http://www.yandex.ru/hardware.html

Для «общения» с поисковыми системами существуют специальные правила и специальный язык. Конечно, было бы здорово, если можно было бы просто так взять и спросить: «Где можно найти полный текст «Словаря Дьявола» Амброза Бирса?» – и получить полный и исчерпывающий ответ. В принципе, работы в этом направлении ведутся – взять, хотя бы, буржуйский сайт «Ask Jeeves» (www.ask.com) – задав вопрос в «литературной» форме – только по-английски, разумеется – можно получить довольно внятный ответ. В остальных же поисковых системах придется обучиться достаточно простому языку запросов.

Для начала нужно вычленить ключевые слова: решить, какие два-три слова наиболее полно характеризуют объект ваших поисков, и вводить именно их. «Это же очевидно», – скажете вы. И будете правы. Однако вы будете удивлены, узнав, что многие люди вводят для поиска. На «Яндексе» есть замечательная вещь, называется «прямой эфир», страница, на которой вы можете увидеть 20 последних запросов. http://www.yandex.ru/last20.html На эту страницу можно смотреть часами, испытывая при этом множество противоречивых чувств. Можно даже написать не один авангардный роман, просто записывая подряд все запросы. Некоторые из запросов просто поражают и западают в душу.

Отрадно, но факт: из 20 запросов в лучшем случае пять – на тему межполовых отношений. Проверьте сами. Но если не брать в расчет запросы, вроде «порнуха бесплатная», то у нас есть прекрасная возможность на примере остальных запросов рассмотреть, как именно искать НЕ СЛЕДУЕТ.

Как правило, большой процент запросов отличается полной неясностью, и неконкретностью: «музыка», «видео», «печи», «mp3». Вроде как «я просил, а ты будь добр, догадайся, что я имел в виду». Так, на запрос «музыка» Яндекс выдает 143791 ссылок. Надо уточнять, что именно вы ищите. Запрос «музыка кантри» дает уже 4443 ссылок, а «музыка кантри +новосибирск» – уже всего 49.

Бывают чересчур конкретные запросы, бывают запросы и «совсем не по правилам». Кстати, о правилах...

Если вы набрали слово с маленькой буквы, то будут найдены слова с маленькой и большой буквы; если вы набрали слово с большой – то будут найдены слова только с большой буквы. Например, на запрос «лебедь» поисковая система выдаст упоминания о птицах и о генерале. Поэтому правило: не набирайте без особой нужны слово с большой буквы! Иначе вам просто не будут выданы очень много совпадений.

Знаки «-» и «+». Используя эти знаки, вы можете принудительно исключать слово из поиска, либо делать слово обязательным. Например, вам нужен рецепт пирожков с капустой. Тогда запрос должен быть примерно таким: «рецепт пирожков +капуста». А если вы не можете терпеть пирожки с картошкой, то должны ввести примерно следующее: «рецепт пирожков -картошка». Тогда будут найдены страницы с разнообразными рецептами пирожков без картошки.

Если вы ввели просто несколько слов, разделенных пробелами, то для поисковика это будет означать, что надо найти страницы, где эти слова входят в одной предложение. Например: «бесплатные программы».

Для поиска документа, содержащего любое из перечисленных слов, надо использовать знак «|». Очень удобно, если к слову имеется много синонимов. Например: «бесплатные | халявные | freeware +программы»

Для поиска устойчивых словосочетаний нужно ввести фразу для поиска в кавычках. (Во всех остальных случаях кавычки не нужны). Очень помогает, когда вам нужно, к примеру, найти слова стихов, а вы помните всего одну строчку. Введите эту строку с кавычками в поисковую систему. Например, помните вы прекрасную фрау «мысль изреченная есть ложь», а кто сказал – не помните. Идете на «Яндекс», вводите «мысль изреченная есть ложь» (в кавычках) и сразу же узнаете, что сказал это Тютчев.

Более подробно о языке запросов написано на каждой поисковой системе, например вот тут: http://www.yandex.ru/info/syntax.html

В принципе, существуют три-четыре поисковые системы, которые должны удовлетворить практически все нужны. Это уже упоминавшийся «Яндекс» (www.yandex.ru), «Рамблер» (www.rambler.ru) и «Апорт» (www.aport.ru) – все это русскоязычные поисковики. Из них мне волне хватает «Яндекса». Из зарубежных – всем известная AltaVista (www.altavista.com) и Yahoo (www.yahoo.com).

Пользуясь случаем, хотелось бы сказать «спасибо» поисковику «Яндекс». За то, что он есть. На мой взгляд – это лучший поисковик в Рунете.

Тем не менее, есть обширный ряд задач, удовлетворить который это поисковики не могут. Давайте вообзарим такую ситуацию – вам срочно нужен лучший в городе слесарь-сантехник. Как вы будете искать? Можно дать объявление в центральную газету – мол, срочно требуется сантехник, зарплата $500 в месяц. А потом пол-года отвечать на телефонные звонки. Можно же пойти в профсоюз сантехников и выбрать самого лучшего там. Либо дать объявление в глянцевый журнал «Мир сантехники», который читают только элитные сантехники города.

Аналогично и с поисковыми системами. «Большие» поисковые системы рассчитаны на то, чтобы обхватить как можно больший объем информации. Когда же вам необходимо найти что-то особо специфичное – есть смысл воспользоваться специализированными поисковиками.

О них – по порядку.

Поиск по FTP позволяет искать в огромных файловых архивах как на просторах нашей родины (www.filesearch.ru), так и на просторах чужих родин (ftp.lycos.com) Эти поисковые системы ищут только файлы по имени. И полезным это оказывается во многих случаях. К примеру, вы собрались скачивать откуда-то программу, а программа потерялась. Все, что от нее есть – это ссылка, вроде http://www.chat.ru/чего-то_там/abc.zip. Ссылка не работает. А программу хочется. Существует большая вероятность, что программа приглянулась не только вам, и какой-нибудь заботливый админ скачал ее себе и выложил на FTP. Заходим на www.filesearch.ru, и набираем в строке поиска: abc.zip. Результат налицо. Кроме того, таким образом неплохо ищутся драйвера. Когда у меня потерялся драйвер к старой карточке ESS1868, я зашел на filesearch.ru, ввел «ess1686» и драйвер нашелся. Хорошо получается таким образом и поиск mp3-файлов. Попробуйте ввести что-то вроде «beatles» и посмотрите на результаты.

Впрочем, для поиска mp3-файлов существуют специализированные поисковые системы, причем в немалых количествах. Моя самая любимая – oth.net. (http://www.oth.net). Этот поисковик идеален для иллюстрации понятия «индекс поисковой системы». Oth.net производит поиск mp3-файлах на частных ftp-серверах, а они имеют не самую приятную привычку внезапно уходить «в отключку» и также внезапно возвращаться. Поэтому oth.net проверяет свою базу данных чуть ли не раз в час. Не раз бывало, что, зайдя всего через несколько часов, на один и тот же запрос я получал совершенно разные ссылки. Плюсы: находит больше файлов, чем другие системы. Минусы: файлы надо качать как можно быстрее, потому что они могут исчезнуть.

Примерно также работает и http://music.lycos.com/

Следующая поисковая система (http://mp3-search.iol.it/ ищет mp3'шки не только на ftp-серверах, но и на «обыкновенных». Если вы пользуетесь для этой цели «Альтавистой», то, набрав в ней что-то вроде «prodigy mp3», вы получите кучу ссылок на различные фан-клубы и прочее. Mp3-search же на запрос «prodigy» даст конкретные ссылки на файлы, и вам останется только их скачать.


Источник: http://ucozmaster.ru/publ/optimizacija_i_raskrutka/poiskovye_mekhanizmy_kak_iskat_v_seti/8-1-0-25
| Автор: Денис
X
Ссылка:
BB-код:
HTML-код:

Похожие материалы
Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]
Войти на сайт
%