$273.49


$35.39


$21.61


Каким станет интернет-поиск в будущем?

Интернет самоуправляем, он ежедневно пополняется миллионами разрозненных документов. И поиск нужных сведений в таком колоссальном массиве усложняется. Именно поисковые механизмы – один из важнейших индикаторов развитости сети — требуют постоянного совершенствования, наряду с ростом объемов информации и скоростей ее сбора и обмена.

Поисковые системы используются повсеместно и постоянно. Трудно представить себе рабочий день без обращения к поиску с интересующим запросом. И слишком часто пользователь тратит на него неоправданное количество времени и сил.

Рост объемов информации требует других подходов к работе поисковых систем. Существующая методика работы ограничена заложенной в ней моделью. Она эффективна только в замкнутом пространстве, но не пригодна для пользователя современного интернета с его громадными и постоянно обновляющимися БД. Необходимость создания новой платформы поисковых механизмов очевидна, и для этого сегодня есть все: и технологические ресурсы, и быстрые машины, и большие накопители информации.


В поисках истины

Чего ожидает человек при поиске? Иногда — точного ответа на вопрос. Иной раз — выборки фактов или гипотез по теме. Часто — конечных знаний. Все зависит от запроса.


Основные разработки в области усовершенствования поисковых систем в интернетеВид поиска Примеры ресурсов Основные характеристики
Выяснение мнения масс Del.icio.us, wink.com и snap.com Использование общественного мнения в различных целях
Извлечение намерений пользователя Yahoo Mindset Поиск в соответствии с задачей (например, на предмет желания купить или просто изучить что-либо)
Кластеризованный поиск quintura.com Использование концепции tag cloud в поиске
Кластеризованный поиск vivisimo.com, ask.com Фрагментирование результатов запроса для более понятной демонстрации связей между терминами
Обработка натуральных языков Powerset Использование слов, игнорируемых при обычном поиске (Stop words) и меняющих смысл запросов
Персонализированный поиск collarity.com, Rollyo.com Использование при поиске данных о пользователе
Поиск изображений
riya.com Распознавание содержимого изображений, поиск по тегам
Семантический поиск Hakia Поиск состоит в задании вопроса поисковой машине с помощью семантического анализа интернет-страниц с использованием метода индексирования QDEX (Query Detection and Extraction

Новая парадигма поиска состоит не просто в нахождении документов, где можно вычитать интересующую информацию, а в ориентации на конечные факты и новые знания, представляющие определенную ценность. Они могут быть разного рода: первичные сведения, предназначенные для дальнейшего анализа и обработки, какие-то факты (например, данные о возрасте человека или его месте работы, и даже – учитывая технологические возможности интернета – фрагмент его речи или видеоизображение).

Но это ещё не всё. Ценные знания содержатся и в том, что прямо или косвенно относится к искомому объекту. Если говорить о поиске человека, пользователь одновременно может интересоваться его связями, семьей или карьерой. Вместе с тем, необходимо помнить, что не всякая информация общедоступна. При разработке новых моделей поисковых систем требуется внедрение в нее механизма защиты от предоставления сведений, которые могут быть использованы мошенниками в корыстных целях.

Итак, поисковые системы нового поколения должны быстро и четко обрабатывать большой объем данных, отличать факты от данных, обладать механизмами фильтрации информации в зависимости от объектов (понимать разницу между именем Петр и Петровским парком), учитывать историческую хронологию запроса (в запросе о Пугачеве различать знаменитого бунтаря и примадонну), учитывать синонимы и, наконец, обрабатывать полученную информацию с учетом возможностей каналов связи и без предъявления завышенных требований к мощности компьютеров.

От методики к практике

То, что интеллектуальный поиск возможен, убеждают успехи в области машинного перевода с одного языка на другой. Любой пользователь интернета знает, что перевод текста с минимальным смысловым анализом гораздо более эффективен, чем просто перевод последовательности иностранных слов. И программы такого уровня, способные осуществлять перевод с сохранением смысла, заложенного в текст, уже есть. А это значит, что схожие по действию механизмы смыслового анализа документов могут применяться в системах поиска информации. Сами же интеллектуальные поисковые системы очень скоро будут доступны любому пользователю Интернета.

Основный и базовый метод поиска сегодня – по образцу, или pattern match. Именно он используется в широкодоступных поисковых системах, таких как Яндекс и Google, и повсеместно распространен. Его главный недостаток для всех очевиден: поисковик выдаёт зашлакованный случайными совпадениями результат, а ссылки на документы не соответствуют контексту запроса.

Использование этого метода превращает поисковую систему в навигационную. Иначе говоря, поисковик не выдает пользователю желаемой информации, он лишь указывает ссылки на сайты, которые содержат ключевые слова. Возможно, пользователь найдет там какие-то нужные данные. Содержимое сайтов индексируется, поиск идет по документам с минимальным учетом комбинаций и, тем более, смысловой нагрузки слов запроса.

Другой популярный метод – поиск по досье. В этой системе возможен ввод запроса в виде фактов или утверждений. Поиск производится по соответствию цели поиска содержанию документа. В результате осуществляется контекстный поиск информации, но с ограниченными возможностями. Дело в том, что базы досье не предназначены для широкого круга пользователей. Сами они имеют ограниченный размер, совокупность внесённых в них данных относительно невелика. Среди доступных ресурсов, использующих такой метод поиска – энциклопедии, справочники по составу сотрудников учреждений, адресные справочники и так далее. Примером использования этого метода может служить система zoominfo.com

Одним из новых веяний в поисковых системах является использование концепции tag cloud

Следующий аналитический механизм – поиск в информационных массивах группы связанных данных. Пока этот метод должного распространения не получил, хотя является весьма привлекательным и перспективным. Пример использования — LiveJournal MindMap.

Наконец, четвёртый метод– использование фискально-полицейских систем. Поиск производится по специализированным базам адресной, регистрационной и налоговой информации. Этот метод способен обрабатывать огромные массивы данных, но предназначен исключительно для специалистов-аналитиков. Примеры использования – NetMap, Visual Links, программа i2 Analyst’s Notebook и другие.

Пока объединение всех четырёх методов в той или иной степени удалось системам, используемым разведкой и полицией. Но именно этот путь – объединения известных методов – и приведет к появлению общедоступных, мощных и более совершенных поисковых инструментов нового поколения.

Методы усовершенствования поиска

Одно из наиболее существенных улучшений поисковых механизмов – обеспечение выдачи релевантных документов. В данном случае под релевантностью понимается соответствие документов смыслу запроса. При этом релевантность может иметь смысл только с точки зрения конкретного пользователя.

Например, если человек хочет снять офис, его интересует непосредственно объявление о сдаче помещения соответствующего формата, а не справка о том, что в Москве их ежегодно арендуется более 5 000 штук. «Идеальным» ответом будет адрес сдаваемого помещения, цена и контакты для связи с арендодателем. Но на данном этапе развития это едва ли возможно.

Чтобы обеспечить соответствие ответов, поисковые машины используют различные пути. Например, Google пытается отслеживать запросы пользователей и запоминать их поведение (то есть учитывать частоту запросов по различным темам). Но в результате выдаются не наиболее релевантные, а модные, популярные или разрекламированные ссылки. Поиск сопутствующей справочной информации в этом случае становится более эффективным, но для нахождения знаний этот метод не годится.

Сейчас уже ведутся опыты по практическому использованию кластерного поиска. Результаты запроса раскладываются по отдельным смысловым группам для того, чтобы понять: что же на самом деле нужно пользователю, какую именно информацию он ищет в интернете.

Еще один подход — поиск с обратной связью. Этот метод напоминает систему мастеров, шаблонов, которые пользователь преодолевает шаг за шагом. Это очень перспективное направление, которое способно обеспечить максимальную релевантность ответа на любой запрос. Но в конце развития этого метода – система жёстко детерминированных меню, не подразумевающая какой-либо гибкости (то есть поиск сводится к вводу простых ответов типа «да / нет», а не менее определённых «и / или»).

Наконец, для обеспечения релевантности ответов используется добавление синонимов к самим запросам перед их выполнением. То есть перед поиском к запросу добавляются схожие по смыслу и разные по форме слова, которые облегчают релевантный поиск.

Второе важное улучшение поисковых систем, которое можно заметить уже сегодня – грамматический разбор запроса и текстов, в которых производится поиск.

При грамматическом анализе запроса фраза разделяется на взаимосвязанные объекты, а не просто на отдельные слова. В результате основным объектом поиска становится знание, ответ на вопрос, а не просто нахождение документов как таковых. То есть ответ на конкретный вопрос становится главной задачей, а вывод ссылок выполняет вспомогательную, иллюстративную функцию.

Сложности разработки

Для полного грамматического разбора запроса необходимо произвести лингвистический анализ документов, чтобы получить набор элементарных утверждений (или «фактов») о наличии нужных атрибутов и связей. Это связано с переработкой значительных массивов данных, что и объясняет трудности в реализации этих механизмов.

Ещё одна проблема – формализация запроса. Чтобы точно выполнить запрос, необходимо понять его смысл, цель. В каком виде должны быть представлены знания, чтобы ответы носили универсальный характер? Какого-либо специального языка для представления знаний наука до сих пор не выработала. Поиск в этом направлении ведётся, но перспективы пока остаются туманными.

Пока не решена и проблема визуализации ответов. Интерфейс поисковой системы должен быть максимально простым, но и максимально информативным. Требования предъявляются крайне противоречивые. Это равносильно тому, чтобы попытаться построить мощный персональный компьютер, который бы мог быстро понять и освоить пятилетний ребёнок. Задача трудновыполнимая, но всё же... выполнимая. Ведь когда-то и дистанционный пульт управления телевизором казался невероятно сложным устройством.

Наконец – идентификация объектов. Это самая сложная задача, в решении которой особых успехов пока не достигнуто. Как определить соответствие одного и того же документа (или объекта) к разным группам утверждений? Например, одна и та же веб-страница может содержать информацию о турах, об истории Египта, о гостиницах и так далее. Но при этом поисковые запросы могут касаться только туров, только гостиниц или только информации о стране.

Главное условие, которое отличает существующую систему поиска от поисковой системы нового поколения – это успешное решение именно проблемы идентификации. Его выполнение еще впереди, и не факт, что это произойдет в ближайшем будущем. Но рано или поздно это произойдет.

 

Интересное

Что нового в SQL Server...
Наконец-то процесс создания SQL Server 2005 завершен. Если вы на протяжении долгого времени следили за подготовкой новой версии SQL, устанавливали и использовали бета-версии, с пристрастием...
Подробнее...
Обзор вариантов прокладки...
Если кто-то пытается убедить вас, что создание сети — дело сложное, не верьте: на самом деле, оно очень сложное. Тем не менее, если не замахиваться сразу на масштаб промышленного предприятия,...
Подробнее...
CSS вёрстка: учимся сами
Время от времени в мой почтовый ящик приходит очередное письмо, содержащее всего одну просьбу: меня просят рассказать о неком алгоритме изучения «блочной» вёрстки. Настало время...
Подробнее...
.htaccess - великий и...
Как известно, самым популярным на сей день веб-сервером является Apache в различных версиях (а вовсе не IIS, как утверждает Microsoft). Его ставят на свои сервера большинство хостителей, услуга же...
Подробнее...
Летать самолётом боятся...
Летать самолётом боятся очень многие – и это вполне объяснимо. Ведь небо не является для человека средой обитания. Но бывают моменты, когда не полететь нельзя: нет времени на длительное...
Подробнее...
Использование OpenGL в Java
Принципы реализации OpenGL в JavaВ настоящее время Java очень широко распространена и все больше и больше различных технологий переносятся на этот язык. Не исключением является и OpenGL. OpenGL...
Подробнее...
Корпоративный интернет-счётчик
В данной статье рассказывается как создать интернет-счётчик для корпоративного порталаСчётчик должен вести подробную информацию о посетителях: адрес откуда пришёл посетитель, адрес страницы,...
Подробнее...
Что такое комплексное...
Услуги по продвижению сайтов в сети Интернет стали в последние годы чрезвычайно популярными. Аудитория Интернета растет быстрыми темпами, многие фирмы обзаводятся сайтами и хотят привлекать на них...
Подробнее...
Все о тэге Title
Тэг Title – один из самых важных факторов, позволяющих достичь высоких позиций сайта в результатах поиска. Однако, при всей кажущейся простоте его использования, существует множество нюансов и...
Подробнее...
Копирование и удаление...
Попробуем осуществить копирование файла по частям. Узнаем о том, как удалять непустые каталоги с подкаталогами, а так же еще много полезной информации.В самом простом случае вопрос копирования...
Подробнее...