Корпоративные информационные порталы и другие приложения управления контентом решают многие задачи, но цель у них едина: предоставить интеллектуальным работникам доступ к огромным объемам неструктурированного текста.

Приложения управления контентом становятся все более интегрированными и сложными, но основная задача до сих пор не решена — нет единого инструмента, алгоритма или методики, способных решить проблемы, обусловленные огромными объемами информации в форме текстов на сложных и неоднозначных естественных языках. Диапазон возможных тем, способы их описания человеком и трудности выявления структурных взаимосвязей в текстах на естественном языке предъявляют столько требований, что вероятность найти решение, которое в обозримом будущем одним махом устранит все проблемы, ничтожно мала.

В этой статье объясняется, как «интеллектуальные» методы управления контентом, призванные представлять в явном виде данные, извлекаемые из неявной информации и базовых взаимоотношений в неструктурированном тексте, и работать с явными данными, могут помочь ведущим ИТ-менеджерам и ответственным работникам предоставить пользователям дополнительные возможности управления процессом поиска информации. Мы свели эти методы к пяти базовым принципам, которые служат той же цели: упростить и облегчить поиск информации (например, маркетинговых отчетов, документов о связях с заказчиками или новостей) в постоянно растущих хранилищах текстов.

Принцип 1. Первую скрипку должны играть метаданные

Метаданные контента выполняют несколько функций. Прежде всего они описывают базовые параметры текста, такие как основные темы, имя автора, язык, даты публикации и изменения. Такие метаданные применяются для повышения точности полнотекстового поиска и поиска по ключевым словам. Пользователи самостоятельно указывают дополнительные атрибуты документа. Метаданные также полезны для классификации и рассылки документов, удаления устаревших текстов и выявления потребности в дополнительной обработке, например в переводе.

Управление метаданными контента включает две основные задачи: извлечение их из текста и хранение. Процедура извлечения должна добывать информацию — от имени автора до перечня основных тем, а процедура хранения — эффективно поддерживать операции доступа и поиска. Область применения ручного извлечения метаданных ограничена; для массовой обработки применяются автоматизированные системы, такие как MetaMarker компании Solutions-United (http://www.solutions-united.com), одноименный инструмент извлечения метаданных компании Klarity (http://www.klarity.com.au) или Categorizer, разработанный Inxight Software (отделение корпорации Xerox, http://www.inxight.com). Качество автоматически добытых метаданных существенно ниже, чем полученных вручную, однако вполне удовлетворительно для большинства целей.

Метаданные, независимо от способа генерации, хранят двумя способами. Во-первых, ими можно управлять независимо от документов, храня в реляционной базе данных. Такой подход применяется в системах хранения документов, где требуется тесная интеграция с другими приложениями баз данных, например с информационными хранилищами.

Другой способ заключается в хранении метаданных в самом документе. В этом случае рекомендуется использовать основанный на XML стандартный формат описания ресурсов (RDF, Resource Description Format). RDF не привязан к какому-то конкретному стандарту метаданных и поэтому способен удовлетворить самые разнообразные требования.

Метаданные можно применять для управления доступом. Например, явно указанные атрибуты текста, такие как информация об авторских правах или лицензионное соглашение, позволяют управлять распространением контента. Например, корпоративные библиотеки, которые предоставляют лицензируемую электронную подписку на деловые и научные журналы, должны отслеживать число обращений к статье или ограничивать доступ к отдельным разделам определенным числом одновременно подключенных пользователей. В отличие от метаданных контента, метаданные управления доступом существуют на нескольких логических уровнях, например на уровне документа, журнала или издателей.

Управление качеством и ранжирование документов — еще одна (зачастую недооцениваемая) область применения метаданных. Не все тексты равноценны, и программы информационного поиска должны учитывать этот факт. Например, можно быть уверенным в надежности статьи о зарубежных инвестициях в Латинскую Америку, опубликованной в «The Wall Street Journal», но что сказать об аналогичной информации на Web-сайте неясного происхождения?

Даже внутренние документы различаются по важности. Для руководителя окончательный отчет весомее, чем черновые записки, которыми обмениваются аналитики, однако записки могут попасть в верхние строчки результатов поиска по частоте встречаемости слов.

Возможности метаданных не ограничиваются лишь описанием контента, управлением доступом и качеством: они могут даже автоматически генерировать резюме или группировать данные. Впрочем, все зависит от приложения — иногда резюме или информацию о кластеризации удобнее генерировать «на лету» по мере необходимости, не храня данные в явном виде.

Принцип 2. Узнайте о пользователях все

Представление пользовательских долгосрочных интересов в явном виде в форме профилей — еще один путь повышения точности и повторяемости результатов поиска. В профилях, как правило, применяются те же схемы представления (в частности, векторы ключевых слов), что и в метаданных, описывающих содержание документов.

Цви Куфлик (Tsvi Kuflik) и Перец Шовал (Peretz Shoval), работающие в университете Бен-Гуриона в Израиле над методиками фильтрации информации, выделили шесть видов профилей.

  • Профили, создаваемые самими пользователями, проще всего в реализации, но задача их создания и поддержания ложится на пользователя.
  • Профили, автоматически формируемые системой, анализируют частоту встречаемости слов в соответствующих документах. В этом случае система пытается обнаружить в текстах шаблоны (patterns), указывающие на то, что этот текст интересует пользователя.
  • Совместно создаваемые профили формируются в два этапа: автоматически генерируемый профиль затем корректируется пользователем.
  • Профили, полученные при помощи нейронных сетей, создаются путем обучения на основе интересных пользователю текстов (которые предоставляет сам пользователь), после чего выполняется ранжирование других текстов.
  • Стереотипные модели интересов, общие для большой группы пользователей, — хороший базис для создания индивидуальных профилей.
  • Фильтрация на основе правил использует для классификации информации по категориям четко выраженные правила типа «если — то».

У каждого метода есть свои преимущества и недостатки, например, необходимость ручного обновления при изменении интересов пользователя или медленная адаптация к таким изменениям. Но в любом случае готовые профили — это долговременная база для фильтрации, устранения неоднозначности и сбора документов.

Принцип 3. Управление доступом к информации

В отличие от свободного доступа к информации в Интернете, эффективные порталы требуют управления доступом, так как пользователи более склонны предоставлять другим информацию, зная, что доступ к ней регулируется четко определенными бизнес-правилами безопасности. В общем случае данные распределяются между тремя основными областями управления доступом: информация в свободном доступе; информация, доступ к которой ограничен лицензиями; и привилегированная информация.

Информация в свободном доступе предоставляется всем пользователям портала без ограничений. К этой категории относятся колонка новостей, пресс-релизы, каталоги товаров и услуг и другая общедоступная информация.

Порядок доступа к информации по лицензии определен в соответствующих соглашениях с поставщиками контента и применяется к указанным ими частям контента, например ко всей цифровой библиотеке профессиональной ассоциации. В таких случаях подойдет управление доступом на основе аутентификации пользователей или контроля IP-адресов.

Особые сложности связаны с привилегированной информацией, доступ к которой обычно предоставляется по запросу. Например, адвокатам, ведущим переговоры с клиентом, понадобится доступ к его документам, однако другие сотрудники в этом же офисе — даже ведущие аналогичные переговоры, но с другой компанией, не должны иметь права просматривать эти документы. Вот когда ясно видны преимущества приложений, ориентированных на базы данных. Реляционные базы данных автоматически обеспечивают управление доступом на основе модели ролей и привилегий, а вам остается только применить программные средства для более тонкого управления доступом на основании метаданных контента.

Обеспечив безопасность контента, можно переходить к созданию системы навигации по хранилищу.

Принцип 4. Обеспечьте широкие возможности поиска

Усилия по оптимизации процесса поиска привели к появлению различных методов представления документов, поддержки расширенных пользовательских запросов и обнаружения корреляции между терминами. Тем не менее точность и повторяемость поиска большинства информационно-поисковых систем не превышает 60—70%, и увеличить ее не удается, так как эти системы построены прежде всего на статистических, а не на лингвистических методах (последние пока не могут применяться в широком масштабе). Можно, конечно, стараться выжать максимум из поиска по ключевым словам, но есть лучший подход — комбинирование трех методов: поиска по ключевым словам, кластеризации и визуализации.

Наиболее эффективные методы поиска по ключевым словам позволяют расширить пользовательский запрос. Тезаурус автоматически добавляет к запросам синонимы, так что поиск по слову «stocks» (акции) преобразуется в запрос на поиск слов «stocks or «equities» (доли). Корректирующие механизмы (stemmers) призваны учитывать искаженные слова или производные: например поиск слова «African» даст вам также «Africa», а при попытке найти «banks» (банки) система будет искать и «bank» (банк). Учет сходного звучания и нечеткого соответствия также полезен для компенсации орфографических ошибок.

Но даже если достигается относительно высокая точность и повторяемость, поиск по ключевым словам обычно возвращает огромное число результатов, с которым практически невозможно работать. Эффективный способ решения этой проблемы — кластеризация.

Иерархическая кластеризация — это процесс построения древовидной структуры, в корне которой размещены все документы, промежуточные узлы содержат группы сходных документов, причем размер групп уменьшается по мере продвижения в направлении от корня — вплоть до того, что листья дерева содержат один-единственный документ. В результате такой кластеризации получается знакомая схема систематизации, в которой пользователи перемещаются от общих разделов к более узкоспециализированным текстам.

Еще одна методика, весьма эффективно сокращающая время нахождения релевантных документов, называется алгоритм распределения/объединения(scatter/gather). В этом методе результаты поиска делятся на небольшое фиксированное число групп (пять — вполне удовлетворительное их количество). Пользователь выбирает наиболее подходящие ему группы, после чего их документы объединяются и снова делятся на такое же число семантических групп. Процесс повторяется до тех пор, пока не найден нужный документ. Преимущество этого метода в том, что пользователи могут динамически управлять процессом кластеризации, выбирая максимально соответствующие разделы.

Алгоритм scatter/gather

В алгоритме scatter/gather, впервые описанном сотрудниками Xerox PARC Дугласом Каттингом (Douglass Cutting), Дэвидом Каргером (David Karger), Йеном Педерсеном (Jan Pedersen) и Джоном В. Таки (John W. Tukey) в 1992 году, кластеризация (clustering) текста используется для распределения документов по группам на основании подобия в их содержании. Название алгоритма говорит о том, что подразумевает распределение (scatter) документов по группам, а затем объединение (gather) выбранных групп для их повторного распределения на следующем этапе.

Кластеризация позволяет эффективно классифицировать документы на основании их содержания, но иногда пользователям нужно просмотреть материалы, на которые ссылается найденный гипертекстовый документ. Например, члену географически распределенной группы сбыта может понадобиться узнать, что продано сети магазинов бытовой электроники, а также ознакомиться с рядом документов — от заметок, сделанных на совещании другими членами группы, до новостей, предоставляемых информационными агентствами, такими как Comtex News, Factiva и другими.

Тематически-ориентированные навигационные средства, такие как Tree Studio компании Inxight, создают так называемые гиперболические деревья, каждый узел которых представляет документ, помеченный заголовком или другим описывающим его текстом. Вместо того, чтобы щелкать мышью отдельные ссылки на странице, пользователь может быстро переместиться в окрестность гипертекстового документа и изучать нужные ему разделы.

Пользователям, целенаправленно ищущим вполне определенную информацию, нужен более тонкий навигационный инструмент. Например, когда менеджер отдела сбыта ищет информацию о продажах услуг мобильной связи, ему требуется, чтобы система обнаруживала ключевые маркетинговые термины в текстах различной тематики. В этом случае подойдет программный продукт TextAnalyst, разработанный компанией Megaputer Intelligence (http://www.megaputer.com), — он позволяет быстро выделять определенные термины и видеть их взаимоотношения с другими терминами текста.

Естественно, что поиск, группировка и навигация выполняются в хранилищах с большими объемами документов. Отсюда вытекает последний принцип.

Принцип 5. Своевременно и автоматически обновляйте информацию

Некоторые процедуры управления контентом следует автоматизировать — это позволит поспевать за появлением новой потенциально полезной информации. Во-первых, для наполнения хранилища документами можно применять различного рода агенты сбора информации (harvesters, crawlers) и программы поиска файлов. Эти программы, руководствуясь метаданными, определяют, на каких сайтах, в каких каталогах или системах управления документооборотом искать релевантную информацию. Во многих случаях достаточно хранить на портале или в хранилище только метаданные документов и индексы — сами документы можно загружать по мере необходимости.

Автоматически собранные документы часто требуется преобразовать к стандартному формату или кодировке прежде, чем выполнять индексацию, кластеризацию, разметку метаданных и другие процедуры, выполняемые средствами анализа текстов. Автоматическое управление контентом не менее, если не более сложно, чем извлечение, преобразование и загрузка в информационных хранилищах, так как структура, формат документов и диапазон тем чрезвычайно разнообразны. Перед загрузкой текстов в хранилище понадобится применить ряд фильтров, выполнить дополнительные операции преобразования и анализа.

В отличие от информационных хранилищ, в которых обычно сохраняется история изменения данных, с порталов следует регулярно удалять устаревшую информацию. И здесь на выручку снова придут метаданные о типах и источниках документов — их разумно применять для управления процессом «очистки». Например, прогнозы аналитиков по поводу доходов компаний устаревают сразу после публикации соответствующего отчета (если только вы не хотите отслеживать точность предыдущих прогнозов). В некоторых случаях разумно хранить лишь краткое содержание текстов, таких как уведомления об отзыве товара или пресс-релизы конкурентов более чем двухлетней давности.

Отслеживание времени поступления документов, их источников, авторов и других атрибутов обеспечит основу для многих процессов управления контентом.

Не все поисковые машины одинаково полезны

Хотя поисковые машины сами по себе недостаточны для достижения высокой точности и повторяемости в системах добычи информации, они вполне пригодны для начала. Одни поисковые машины ограничиваются только базовым подходом — индексацией слов в документах, другие анализируют модели, независимо от языка текста, или используют синтаксические и семантические правила языка для выявления понятий, представленных в текстах.

Компания Verity (http://www.verity.com) была в числе первых производителей, обеспечивших возможность полнотекстового поиска. Созданное ею приложение Portal One поддерживает стандартный механизм поиска, а также индивидуализацию, навигацию и средства классификации.

Компания Autonomy (http://www.autonomy.com) предоставляет аналогичные средства, но более эффективно использует распознавание образов, байесовский подход к принятию решений и теорию информации. Обнаруживая повторяющиеся шаблоны — так же, как это делают программы сжатия файлов, Autonomy создает модель корреляции образов и определяет степень их отличия среди большого количества документов. В процессе анализа Autonomy не применяет специфичных для какого-то языка правил (например, указания на то, что пробелы применяются для разделения слов), так что средство не зависит от языка.

Продукт Open Text компании Oracle (http://www.oracle.com), ранее известный как Oracle interMedia Text, использует платформу InXight LinguistX и частную базу знаний для обеспечения тематического и понятийного поиска. Open Text не просто ищет шаблоны, а находит четко выраженные термины и распределяет их по общим категориям. Например, если задать поиск словосочетания «финансовое учреждение», кроме прочих система найдет документы, в которых это сочетание отсутствует, но которые посвящены банковской тематике.

Корпорация Semio (http://www.semio.com) выбрала другой подход и создала доступный для просмотра систематический справочник, основанный на подобии документов. Внутри категорий применяется ранжирование по релевантности, а в более крупных систематических справочниках способность искать в отдельных категориях позволяет сократить время поиска в соответствующих областях.

Не забывайте эти пять принципов

Текст в свободной форме часто называют неструктурированным, но этот термин по существу некорректен. Богатая структура языка позволяет четко и сжато описывать сложные понятия и отношения, но чтобы эффективно извлекать эту информацию, требуются методы, учитывающие эту структуру и дающие пользователям возможность устранить разрыв между той информацией, что им требуется, и результатами поиска.

Ваша организация может реализовать интеллектуальное управление контентом, твердо придерживаясь описанных выше пяти основных принципов. Все они базируются на том, что пользователям нужно найти небольшое количество четко определенной информации в гигантских хранилищах, которые не зря получили название Всемирной паутины.

Пока мы пользуемся языком, мы будем применять многозначные слова, многословно описывать понятия и постоянно сталкиваться с далеко не идеальной точностью и повторяемостью. Выявление явных метаданных на основе неявной информации, моделирование пользовательских интересов; защита доступа к контенту; поддержка поисковых, упорядочивающих и навигационных средств; постоянное обновление информации — все это позволяет шаг за шагом приблизиться к решению неизбежной проблемы структурирования огромных объемов неструктурированных текстов.

Дэн Салливэн (Dan Sullivan) — технический директор (CTO) в Redmont Technologies, консалтинговой фирме, специализирующейся на системах бизнес-аналитики и управления контентом. С автором можно связаться по e-mail: dsullivan@redmonttechnologies.com.