Первая поисковая система под названием «Aliweb», была запущена в 1993 году, которая еще работает, но вот пользуются ей только дегенераты и аристократы.
После большого распространения интернета, в 1994 году была создана еще одна поисковая система под названием «Yahoo». Разработчики и основатели в первые поисковые системы ввели метод поиска информации как в библиотеках. Были созданы каталоги, в категориях которых находились необходимые сайты. Пользователь должен был зайти в каталог и выбрать необходимую ему рубрику, после чего предоставлялись тематические сайты. Это было удобно по началу, поскольку сайтов было мало, а потом количество увеличивалось и становилось все сложней найти необходимый ресурс. Всё больше и больше рождалось новых рубрик, количество категорий непосредственно, тоже росло. Найти нужный ресурс становилось просто проблемой. После этого поисковые системы постепенно начали переходить на «поисковые указатели».
Поисковые указатели формировали связки «запрос – ответ», и к ответу могли приписываться несколько различных ресурсов. Вскоре стало понятно, что это тяжело не только людям, но и поисковым системам, так как на какой-то распространенный запрос, пользователю предоставлялось тысячи ответов, в которых все было запутано. В связи с этим возможность выбора поисковиком из этой «кучи» информации полезных тридцати-сорока ссылок и стала определяющей на поисковом рынке.
Большая часть поисковых систем перешла на четырехэтапную структуру работы. Сначала система поиска собирает информацию и заносит к себе в базу, затем разрезает все слова страниц на составляющие. Третий и четвертый этапы вступают в работу при обращении пользователя к поисковой системе. Из своей базы она выбирает документы, которые соответствуют запросу, а потом выстраивает их в зависимости от того, какая страница больше подходит по точности вхождения фразы, по поисковому весу, по дате обновления и т.д. Этот выбор на основе множества параметров, называется ранжированием.
Их основой была, точность вхождения текста в поисковый запрос. Оказалось это не актуальным, т. к. ключевые слова не давали полного представления о документе. TF*IDF. TF*IDF – самый популярный класс форум, который вычисляет вес документа по отношению к запросу. Каждая поисковая система отличается друг от друга механизмом ранжирования, которые в свою очередь старается предложить, чтобы занять лидирующее место на поисковом рынке. На результаты поиска в поисковиках влияет примерно 200-300 факторов, скрывающиеся от конкурентов. Благодаря этим факторам, Гугл и опередил когда-то лидирующую поисковую систему Альта Висту.