Всемирная Паутина не похожа ни на что, доселе известное. В виртуальной реальности Паутины мы можем только слушать и читать, и это ограничение заставляет нас искать новые пути взаимодействия с Сетью. Например, если бы я хотел купить книгу, я пошел бы в местный книжный магазин, выбрал бы нужную, расплатился и пошел домой. Обычно у книжных магазинов есть вывеска, и они находятся на виду, поэтому найти их не составляет труда. Но в киберпространстве нет вех. Передо мной только экран компьютера. Каким-то образом мне нужно найти, где продается нужная мне книга. На экране нет дороги, которая провела бы меня по Сети (я могу идти наугад, но это не верный путь, да и в этом случае нужно знать, откуда начинать двигаться). Иногда все очевидно: напечатайте название книжной лавки, добавьте. COM (например, barnesandnoble. com) и, скорее всего, вы попадете, куда и хотели. Но что, если магазин узкоспециализированный, и у него нет веб-сайта с адресом, который можно легко угадать? Решением проблемы станет использование поисковой системы. Сегодня это – один из самых широко используемых методов навигации в киберпространстве.
Archie, Veronica и Jughead, или История поисковых машин, начиная с Ривердейла
Самый первый поисковый инструмент Интернета назывался Archie. (Название произошло от искаженного слова archive – «архив»). Он был создан в 1990 году Аланом Эмтаджем, студентом Монреальского Университета им. Мак Гилла. Программа скачивала списки файлов, расположенные на публичных анонимных FTP-сайтах, создавая базы данных имен файлов, по которым можно было производить поиск.
Archie индексировал компьютерные файлы, а Gopher – текстовые документы. Gopher был создан Марком Мак Кахиллом в Университете Миннесоты. Будучи текстовыми файлами, большинство сайтов Gopher впоследствии стали страницами Паутины.
Две другие программы, Veronica и Jughead, искали файлы, сохраненные в поисковом индексе Gopher. В Veronica можно было осуществлять поиск по ключевому слову среди названий документов, перечисленных в Gopher. Jughead позволял получать информационное меню с различных серверов Gopher.
Я, Робот
В 1993 году студент МИТ Мэтью Грей изобрел первого робота, который индексировал страницы Интернета – World Wide Web Wanderer. Первоначально программа позволяла пересчитывать веб-серверы, измеряя масштабы Паутины. World Wide Web Wanderer запускали ежемесячно с 1993 по 1995 годы. Позже его использовали для получения URL при формировании первой базы данных Веба – Wandex.
По определению The Web Robots FAQ, робот – это программа, автоматически прочесывающая структуру гипертекста при получении документа и последовательно проходящая по всем ссылкам в этом документе. Иногда сетевых роботов называют wanderer («скитальцами»), web-crawler («ползунами») или spider («пауками»). Эти названия могут создать ложное представление о том, что программы сами по себе перемещаются между сайтами подобно вирусу, но на самом деле это не так. Робот просто посещает сайты, запрашивая с них документы. Первоначально роботы создавали некое неудобство для серверов, поскольку они требовали много сетевых ресурсов, и порой серверы не выдерживали нагрузки. Новейшие роботы не снижают пропускной способности сервера и используются для построения индексов поисковых машин.
В 1993 году Мартин Костер создал ALIWEB. ALIWEB позволял владельцам сайтов подавать заявки на индексацию в поисковых машинах. По мнению Костера, ALIWEB был поисковой системой, основанной на автоматизированном сборе метаданных для Сети.
Финансирование поисковых систем становится прибыльным бизнесом
В конце концов, когда инвесторы сочли, что из Интернета можно извлекать выгоду, началось финансирование развития поисковых машин, и разработка поисковиков стала прибыльным бизнесом.
В 1993 году шесть студентов Стэнфорда представили Excite. Программа использовала статистический анализ слов в тексте, чтобы облегчить процесс поиска. В течение года Excite был усовершенствован и вышел онлайн в декабре 1995 года. Сейчас он является частью компании AskJeeves.
Сеть Galaxy возникла в 1994 году как часть поискового консорциума MCC в Университете Техаса в Остине. Впоследствии сеть у Университета перекупили. Она побывала в руках нескольких компаний, и на сегодня является отдельной корпорацией. Galaxy была создана как алфавитный перечень, сочетающий элементы интерфейса поисковика Gopher и протокола telnet в дополнение к строке веб-поиска.
Джерри Янг и Дэвид Фило создали Yahoo! в 1994 году. Проект начался с составления каталога их любимых веб-сайтов. Единственное, что отличало этот перечень от других, был комментарий к каждой ссылке URL. Через год разработчики получили финансирование и создали корпорацию Yahoo!.
В том же 1994 была представлена программа WebCrawler. Это была первая поисковая машина, которая индексировала весь текст веб-сайтов.
В 1994 году Lycos представил поисковую машину, предлагающую наряду с результатами поиска ссылки на темы, связанные с поисковым запросом. В 1996 году это уже была обширная поисковая система, индексирующая более 60 миллионов документов, самая крупная на тот момент. Как и многие другие поисковые системы, Lycos был разработан в университетской среде доктором Майклом Молдином в Университете Карнеги Меллона.
Поисковый сервис Infoseek был запущен в 1995 году. Он не привнес ничего нового в систему поиска. Сейчас он принадлежит Компании Уолта Диснея и находится на домене Go. com.
AltaVista также начала работать в 1995 году. Эта поисковая машина первой предложила расширенную систему поиска и принимала языковые запросы на так называемом «естественном языке» – например, могла обработать запрос «Как пройти в библиотеку?», вместо «библиотека». Система также предлагает возможность поиска изображений, музыки и видеофайлов.
Система Inktomy возникла в 1996 году в Университете Беркли. В июне 1999 года Inktomy ввела поиск по каталогу на основе «метода индукции». По мнению компании, «индуктивный метод принимает во внимание аналитический опыт человека и применяет его, анализируя ссылки, частоту посещений и другие параметры, чтобы определить, какие сайты наиболее посещаемы и продуктивны». Yahoo! приобрела систему Inktomy в 2003 году.
Поисковики AskJeeves и Northern Light были запущены в 1997 году.
Google был запущен в 1998 году Сергеем Брином и Ларри Пейджем как часть исследовательского проекта Стэнфордского Университета. При ранжировании результатов запроса в выдаче Google учитывает количество внешних ссылок на ресурс, или цитируемость. В 1998 начали работать MSN-Search и Open Directory (DMOZ). База Open Directory, если верить информации на ее главной странице, «это самый большой и всеобъемлющий каталог ресурсов Сети. Он разработан и поддерживается обширным сообществом добровольных составителей». DMOZ претендует на звание «наиболее полного каталога сайтов Сети».