$541.86


$45.63


$42.28


Каким станет интернет-поиск в будущем?

Интернет самоуправляем, он ежедневно пополняется миллионами разрозненных документов. И поиск нужных сведений в таком колоссальном массиве усложняется. Именно поисковые механизмы – один из важнейших индикаторов развитости сети — требуют постоянного совершенствования, наряду с ростом объемов информации и скоростей ее сбора и обмена.

Поисковые системы используются повсеместно и постоянно. Трудно представить себе рабочий день без обращения к поиску с интересующим запросом. И слишком часто пользователь тратит на него неоправданное количество времени и сил.

Рост объемов информации требует других подходов к работе поисковых систем. Существующая методика работы ограничена заложенной в ней моделью. Она эффективна только в замкнутом пространстве, но не пригодна для пользователя современного интернета с его громадными и постоянно обновляющимися БД. Необходимость создания новой платформы поисковых механизмов очевидна, и для этого сегодня есть все: и технологические ресурсы, и быстрые машины, и большие накопители информации.


В поисках истины

Чего ожидает человек при поиске? Иногда — точного ответа на вопрос. Иной раз — выборки фактов или гипотез по теме. Часто — конечных знаний. Все зависит от запроса.


Основные разработки в области усовершенствования поисковых систем в интернетеВид поиска Примеры ресурсов Основные характеристики
Выяснение мнения масс Del.icio.us, wink.com и snap.com Использование общественного мнения в различных целях
Извлечение намерений пользователя Yahoo Mindset Поиск в соответствии с задачей (например, на предмет желания купить или просто изучить что-либо)
Кластеризованный поиск quintura.com Использование концепции tag cloud в поиске
Кластеризованный поиск vivisimo.com, ask.com Фрагментирование результатов запроса для более понятной демонстрации связей между терминами
Обработка натуральных языков Powerset Использование слов, игнорируемых при обычном поиске (Stop words) и меняющих смысл запросов
Персонализированный поиск collarity.com, Rollyo.com Использование при поиске данных о пользователе
Поиск изображений
riya.com Распознавание содержимого изображений, поиск по тегам
Семантический поиск Hakia Поиск состоит в задании вопроса поисковой машине с помощью семантического анализа интернет-страниц с использованием метода индексирования QDEX (Query Detection and Extraction

Новая парадигма поиска состоит не просто в нахождении документов, где можно вычитать интересующую информацию, а в ориентации на конечные факты и новые знания, представляющие определенную ценность. Они могут быть разного рода: первичные сведения, предназначенные для дальнейшего анализа и обработки, какие-то факты (например, данные о возрасте человека или его месте работы, и даже – учитывая технологические возможности интернета – фрагмент его речи или видеоизображение).

Но это ещё не всё. Ценные знания содержатся и в том, что прямо или косвенно относится к искомому объекту. Если говорить о поиске человека, пользователь одновременно может интересоваться его связями, семьей или карьерой. Вместе с тем, необходимо помнить, что не всякая информация общедоступна. При разработке новых моделей поисковых систем требуется внедрение в нее механизма защиты от предоставления сведений, которые могут быть использованы мошенниками в корыстных целях.

Итак, поисковые системы нового поколения должны быстро и четко обрабатывать большой объем данных, отличать факты от данных, обладать механизмами фильтрации информации в зависимости от объектов (понимать разницу между именем Петр и Петровским парком), учитывать историческую хронологию запроса (в запросе о Пугачеве различать знаменитого бунтаря и примадонну), учитывать синонимы и, наконец, обрабатывать полученную информацию с учетом возможностей каналов связи и без предъявления завышенных требований к мощности компьютеров.

От методики к практике

То, что интеллектуальный поиск возможен, убеждают успехи в области машинного перевода с одного языка на другой. Любой пользователь интернета знает, что перевод текста с минимальным смысловым анализом гораздо более эффективен, чем просто перевод последовательности иностранных слов. И программы такого уровня, способные осуществлять перевод с сохранением смысла, заложенного в текст, уже есть. А это значит, что схожие по действию механизмы смыслового анализа документов могут применяться в системах поиска информации. Сами же интеллектуальные поисковые системы очень скоро будут доступны любому пользователю Интернета.

Основный и базовый метод поиска сегодня – по образцу, или pattern match. Именно он используется в широкодоступных поисковых системах, таких как Яндекс и Google, и повсеместно распространен. Его главный недостаток для всех очевиден: поисковик выдаёт зашлакованный случайными совпадениями результат, а ссылки на документы не соответствуют контексту запроса.

Использование этого метода превращает поисковую систему в навигационную. Иначе говоря, поисковик не выдает пользователю желаемой информации, он лишь указывает ссылки на сайты, которые содержат ключевые слова. Возможно, пользователь найдет там какие-то нужные данные. Содержимое сайтов индексируется, поиск идет по документам с минимальным учетом комбинаций и, тем более, смысловой нагрузки слов запроса.

Другой популярный метод – поиск по досье. В этой системе возможен ввод запроса в виде фактов или утверждений. Поиск производится по соответствию цели поиска содержанию документа. В результате осуществляется контекстный поиск информации, но с ограниченными возможностями. Дело в том, что базы досье не предназначены для широкого круга пользователей. Сами они имеют ограниченный размер, совокупность внесённых в них данных относительно невелика. Среди доступных ресурсов, использующих такой метод поиска – энциклопедии, справочники по составу сотрудников учреждений, адресные справочники и так далее. Примером использования этого метода может служить система zoominfo.com

Одним из новых веяний в поисковых системах является использование концепции tag cloud

Следующий аналитический механизм – поиск в информационных массивах группы связанных данных. Пока этот метод должного распространения не получил, хотя является весьма привлекательным и перспективным. Пример использования — LiveJournal MindMap.

Наконец, четвёртый метод– использование фискально-полицейских систем. Поиск производится по специализированным базам адресной, регистрационной и налоговой информации. Этот метод способен обрабатывать огромные массивы данных, но предназначен исключительно для специалистов-аналитиков. Примеры использования – NetMap, Visual Links, программа i2 Analyst’s Notebook и другие.

Пока объединение всех четырёх методов в той или иной степени удалось системам, используемым разведкой и полицией. Но именно этот путь – объединения известных методов – и приведет к появлению общедоступных, мощных и более совершенных поисковых инструментов нового поколения.

Методы усовершенствования поиска

Одно из наиболее существенных улучшений поисковых механизмов – обеспечение выдачи релевантных документов. В данном случае под релевантностью понимается соответствие документов смыслу запроса. При этом релевантность может иметь смысл только с точки зрения конкретного пользователя.

Например, если человек хочет снять офис, его интересует непосредственно объявление о сдаче помещения соответствующего формата, а не справка о том, что в Москве их ежегодно арендуется более 5 000 штук. «Идеальным» ответом будет адрес сдаваемого помещения, цена и контакты для связи с арендодателем. Но на данном этапе развития это едва ли возможно.

Чтобы обеспечить соответствие ответов, поисковые машины используют различные пути. Например, Google пытается отслеживать запросы пользователей и запоминать их поведение (то есть учитывать частоту запросов по различным темам). Но в результате выдаются не наиболее релевантные, а модные, популярные или разрекламированные ссылки. Поиск сопутствующей справочной информации в этом случае становится более эффективным, но для нахождения знаний этот метод не годится.

Сейчас уже ведутся опыты по практическому использованию кластерного поиска. Результаты запроса раскладываются по отдельным смысловым группам для того, чтобы понять: что же на самом деле нужно пользователю, какую именно информацию он ищет в интернете.

Еще один подход — поиск с обратной связью. Этот метод напоминает систему мастеров, шаблонов, которые пользователь преодолевает шаг за шагом. Это очень перспективное направление, которое способно обеспечить максимальную релевантность ответа на любой запрос. Но в конце развития этого метода – система жёстко детерминированных меню, не подразумевающая какой-либо гибкости (то есть поиск сводится к вводу простых ответов типа «да / нет», а не менее определённых «и / или»).

Наконец, для обеспечения релевантности ответов используется добавление синонимов к самим запросам перед их выполнением. То есть перед поиском к запросу добавляются схожие по смыслу и разные по форме слова, которые облегчают релевантный поиск.

Второе важное улучшение поисковых систем, которое можно заметить уже сегодня – грамматический разбор запроса и текстов, в которых производится поиск.

При грамматическом анализе запроса фраза разделяется на взаимосвязанные объекты, а не просто на отдельные слова. В результате основным объектом поиска становится знание, ответ на вопрос, а не просто нахождение документов как таковых. То есть ответ на конкретный вопрос становится главной задачей, а вывод ссылок выполняет вспомогательную, иллюстративную функцию.

Сложности разработки

Для полного грамматического разбора запроса необходимо произвести лингвистический анализ документов, чтобы получить набор элементарных утверждений (или «фактов») о наличии нужных атрибутов и связей. Это связано с переработкой значительных массивов данных, что и объясняет трудности в реализации этих механизмов.

Ещё одна проблема – формализация запроса. Чтобы точно выполнить запрос, необходимо понять его смысл, цель. В каком виде должны быть представлены знания, чтобы ответы носили универсальный характер? Какого-либо специального языка для представления знаний наука до сих пор не выработала. Поиск в этом направлении ведётся, но перспективы пока остаются туманными.

Пока не решена и проблема визуализации ответов. Интерфейс поисковой системы должен быть максимально простым, но и максимально информативным. Требования предъявляются крайне противоречивые. Это равносильно тому, чтобы попытаться построить мощный персональный компьютер, который бы мог быстро понять и освоить пятилетний ребёнок. Задача трудновыполнимая, но всё же... выполнимая. Ведь когда-то и дистанционный пульт управления телевизором казался невероятно сложным устройством.

Наконец – идентификация объектов. Это самая сложная задача, в решении которой особых успехов пока не достигнуто. Как определить соответствие одного и того же документа (или объекта) к разным группам утверждений? Например, одна и та же веб-страница может содержать информацию о турах, об истории Египта, о гостиницах и так далее. Но при этом поисковые запросы могут касаться только туров, только гостиниц или только информации о стране.

Главное условие, которое отличает существующую систему поиска от поисковой системы нового поколения – это успешное решение именно проблемы идентификации. Его выполнение еще впереди, и не факт, что это произойдет в ближайшем будущем. Но рано или поздно это произойдет.

 

Интересное

Java обгоняет по...
Одним из главных недостатков языка Java традиционно считается невысокая скорость работы программ по сравнению с приложениями на языке С++. И для приложений, где переносимость между платформами...
Подробнее...
FAQ по файлу подкачки
F.A.Q. по файлу подкачки.Ответы на вопросы:-Что такое файл подкачки? -Как определить требуемый объем swap-файла? -Где располагать файл подкачки? -Надо-ли фиксировать максимальный размер файла...
Подробнее...
Своя CMS на PHP. Часть 1
Итак, с чего начнем... естественно с проектирования. Что должна уметь/иметь не крутая, простенькая CMS? Этот вопрос достаточно сложный, т.к. любая CMS, даже самая простая, пишется под конкретные...
Подробнее...
Выбираем лучший способ...
Те, кто рассматривает проблемы «одомашнивания» кинотеатра всерьез, при покупке AV-аппарата уделяют больше внимания не передней, а задней панели, то есть коммутационным возможностям. При этом упор...
Подробнее...
Wi-Fi ноутбука может...
Два ведущих эксперта по безопасности обратили внимание на то, что оборудование Wi-Fi, разработанное без должного тщания, может оказаться небезопасным, позволяя хакерам использовать уязвимости для...
Подробнее...
Подгрузка меню для сайта с...
Фреймы в HTML позволяют авторам представлять документы в нескольких разделах, которые могут быть независимыми или вложенными окнами. Например, в одном окне может располагаться меню для управления...
Подробнее...
Интернет - трагедия или...
Доброго времени суток, уважаемый читатель. Я бы хотел поведать тебе, да и всем людям, мою точку зрения на влияние Интернета на людей, да и вообще, об Интернете в целом.Естественно, такую тему...
Подробнее...
Графический счётчик на PHP
Данный пример демонстрирует работу простого графического счетчика. По функциональности он совершенно идентичен текстовому счетчику.Для работы этого счетчика необходимо создать графическое...
Подробнее...
10 полезных приёмов при...
Если вы недостаточно хорошо освоили PowerShell, то наверняка не стремитесь применять этот инструмент в повседневной работе. Однако дананя оболочка является ядром таких систем, как Exchange 2007,...
Подробнее...
Как обнаружить утечку памяти
При разработке больших приложений, оперирующих большими объемами информации на первое место при отладке встает проблема обнаружения неправильного распределения памяти. Суть проблемы состоит в том,...
Подробнее...