В обычном офисе бесчисленные документы и текстовые файлы накапливаются на жестких дисках подобно гигантскому вороху сена, а крупицы мудрости, нужные пользователям, подобны иголкам, зарытым глубоко в этом огромном стоге.

Для многих специалистов поиск «иголки» знания в «стоге сена» информации представляет собой удручающую, но критически важную задачу, которая вынуждает их искать современные программные средства, способные извлекать знания. Многие выбрали программы управления контентом (content management) — это довольно широкий класс систем, к которому относятся средства и технологии управления документами, знаниями, ПО поддержки совместной работы, поиска, извлечения информации из текстов (text mining), категоризации по темам, систематизации и другие. Объединяет все эти приложения предположение, что так называемым неструктурированным данным, т. е. тексту и его смысловому содержанию можно придать некую структуру, которая позволит легко выделять и находить подходящие документы и отрывки текста.

Поиск наиболее подходящей для этого технологии многому нас научил. Основной урок заключается в том, что структура, накладываемая на текстовые данные, должна самым непосредственным образом соответствовать конкретной области, в которой работает специалист. Например, штатному автору журнала нужны текстовые источники, отсортированные по темам издания; возможно даже, что темы должны отображать стиль и дух конкретных авторов. Аналогичным образом финансовые аналитики должны видеть структуру разделов, отражающих корпоративные и денежно-кредитные сущности, с которыми работают инвестиционные банки.

Таким образом, наилучшее средство — это приложение управления контентом, которое моделирует конкретную область знаний и максимально автоматизирует категоризацию содержимого. Специализированное приложение (а не универсальное средство) существенно облегчает поиск в случаях, когда структурирование информации позволяет обнаружить ценные «иголки» и скрыть не относящееся к делу «сено».

Требования специалистов, работающих с информацией

Что же хотят те, кто работает с информацией, от приложений управления контентом? С удивительным единодушием они четко формулируют одни и те же четыре требования.

Упорядочить хаос. Хаос преобладает в «стоге сена» — неотсортированном и неупорядоченном наборе первичных текстовых документов. Для большинства специалистов конечная цель заключается в придании определенного порядка этому хаосу, сопоставив каждому документу (или его части) конкретную тему (или подтему), которой он посвящен. Прежде чем создавать каталог информации, организация, деятельность которой тесно связана со знаниями, должна разработать таксономию — набор соответствующих разделов и подразделов, организованных в иерархическую структуру. Существует множество синонимов слова «таксономия» — например, директория документов, каталог, классификация и категоризация. Но как бы вы ее ни называли, таксономия — это порядок, наложенный на хаос документов, что делает его самым важным компонентом приложений управления контентом.

Смоделировать области знания конкретных специалистов. Задолго до обращения к приложениям управления контентом многие организации создали бизнес-процессы и информационные структуры, которые придают определенный порядок хаосу. Такие организации вряд ли откажутся от подобных структур или изменят их ради приложения управления контентом. В такой ситуации, наоборот, это приложение должно базироваться на уже выполненной работе по упорядочению.

В частности, большинство фирм, занимающихся исследованием рынка, публикуют отчеты, в которых делят исследуемый рынок на сегменты (по видам товаров или услуг); подобную сегментацию вполне можно принять в качестве первичного варианта таксономии. Многие компании создали иерархии папок и вложенных в них папок в Lotus Notes или Microsoft Exchange, другие хранят документы в сложной структуре каталогов на общих сетевых дисках. Эти структуры также можно использовать при проектировании таксономии.

Автоматизировать классификацию средствами программного обеспечения. Чем больше документов, тем труднее специалистам справляться с их категоризацией, т. е. с разнесением документов по конкретным разделам таксономии. В такой ситуации «масштабирование вверх» приложения управления контентом заключается в том, чтобы автоматизировать классификацию. Средства классификации (которые можно встроить в приложение управления контентом ) должны проводить разбор документов и других текстовых источников, достаточно глубоко вникать в их семантику с тем, чтобы определить тематику и создать в таксономии соответствующие записи в нужных разделах.

Организовать доступ к приложению через портал. Существует ряд причин, по которым специалисты, работающие со знаниями, считают корпоративный портал наиболее подходящей платформой для приложения управления контентом.

  • Таксономия — это часть приложения, на которую специалисты опираются в своей работе. Обычно в пользовательском интерфейсе портала в левой части окна браузера размещается фрейм с иерархией классификации.
  • Приложения управления контентом могут агрегировать информацию из документов, доступ к которым ограничен. Корпоративный портал может поддерживать разграничение прав доступа и разрешений безопасности, несмотря на агрегацию.
  • То, что для одного специалиста — «иголка», для другого — ненужное «сено». Корпоративный портал обеспечивает персонализацию таксономии и других видов представления информации.

Суммируя эти четыре требования, можно сказать, что работающие со знаниями стремятся создать определенный таксономический порядок в хаосе документов, но только при условии, что такая классификация точно моделирует соответствующую область знаний. Они желают получить программы, которые помогут им с классификацией, но их работа должна в точности отвечать существующей таксономии. Кроме того, приложение управления контентом должно быть доступно через портал, главным образом для того, чтобы обеспечить доступ к таксономии. Будучи ключевым среди других требований, качество таксономии в огромной степени определяет успех приложения управления контентом.

В поисках лучшего механизма поиска

Сама по себе технология поиска не в состоянии создать порядок в хаосе документов, относящихся к определенной предметной области. Индекс ключевых слов эквивалентен метаданным, создаваемым поисковым механизмом; в нем отсортированы в алфавитном порядке слова и фразы, обнаруженные в процессе поиска. Но хорошо известно, что механизмы поиска возвращают и нерелевантные документы, поскольку они просто «заглядывают» в индекс и выдают список документов, содержащих определенное слово или фразу.

Результаты поиска существенно улучшаются, когда индекс поддерживает тезаурус (поиск по синонимам), поиск по однокоренным словам (stemming) и по похожему звучанию (soundex — механизм, учитывающий опечатки и орфографические ошибки, связанные с произношением слов). Но даже такой механизм не может удовлетворить потребностей работников, которые имеют дело со знаниями: он не поддерживает структуры предметной области, как это делает таксономия с поддержкой метаданных.

Иногда специалистам требуется ограничить область поиска одной или несколькими ветвями таксономии. Однако, чтобы получить максимально уместные результаты, им нужен инструмент, который позволит создавать и выполнять запросы метаданных таксономии, точно идентифицируя признаки искомых текстов.

Золотая середина

В конце 1990-х поставщики заявляли, что их программы анализа текстов и автоматической классификации создают настолько качественные таксономии, что можно говорить о «порталах в коробке». Теперь этому очковтирательству пришел конец, и те же поставщики признают, что программам автоматической генерации таксономии и классификации документов далеко до точности рядового специалиста. С другой стороны, организации, которые полагаются на классификацию текстовых источников вручную, столкнулись с трудностями масштабирования подобной деятельности, требующей много человеческого труда, и невозможностью справиться с бурным ростом текстовой информации.

Неудача двух этих крайностей привела к появлению оптимальной организации управления информацией, в которой оба подхода сбалансированы. Сегодня даже поставщики средств автоматизации классификации документов рекомендуют применять значительную долю людского труда в рутинных операциях поддержки таксономии и разметки текстов. А компании, ориентированные на ручную классификацию, в которых работают армии библиотекарей и таксономистов, чтобы справиться с потопом информации, все чаще используют в работе программное обеспечение.

В новой улучшенной методике процесс начинается с работников, имеющих дело со знаниями (или более узких специалистов, например, библиотекарей и таксономистов), которые создают иерархии разделов и подразделов высокого уровня. Многие современные средства управления контентом помогают специалистам находить темы (посредством поиска, запросов, кластеризации или технологий извлечения знаний) и преобразовывать полученный результат непосредственно в раздел таксономической классификации. Средства редактирования позволяют более тонко организовать разделы и установить бизнес-правила, по которым текст следует относить к тому или иному подразделу.

Поле создания таксономии текстовые источники классифицируются как вручную (библиотекарем), так и автоматически с применением программ. В одних организациях информацию классифицируют в соответствии с жестко установленной таксономией (подобный подход обычно практикуется, если область деятельности устоялась и хорошо понятна), в других — программное обеспечение может создавать новые подразделы на низких уровнях таксономической иерархии (так поступают, если область знаний размыта и сложна для понимания). Найдя золотую середину между описанными крайностями, приложение управления контентом сможет сочетать преимущества высокой производительности, обеспечиваемой программой автоматизации, и точности, присущей человеку.

Найдите свой путь

Одного решения использовать комбинацию из программного обеспечения и человеческого труда недостаточно — нужно определиться, какова должна быть доля каждого из этих компонентов в вашей организации.

Производительность. Преимущество автоматизации — высокая производительность работы с большими объемами, а недостаток — невысокая точность классификации. Какую погрешность вы можете себе позволить?

Точность. Преимущество ручных методов — высокая точность классификации, а недостаток — необходимость привлекать к работе квалифицированных библиотекарей (возможно даже, высокооплачиваемых таксономистов) при увеличении объема информации. Сколько вы готовы платить специалистам?

Ниже обсуждаются различные варианты компромисса — решения, занимающие разное место в координатах производительность — точность.

Классификация вручную с привлечением библиотекарей. Организации, работа которых действительно основана на знаниях, нанимают библиотекарей, чтобы те занимались как созданием и развитием таксономии, так и ежедневной рутиной классификации контента. Преимущество библиотекарей — высокая точность разметки документов и высокая релевантность по отношению к области бизнеса, к которой относится информация. Недостаток — высокие расходы на зарплату и сложность обработки растущих потоков информации.

Классификация вручную с привлечением таксономистов. Намного более квалифицированные работники, чем библиотекари, таксономисты — это опытные эксперты, обычно имеющие ученую степень в области библиотечного дела. Для среднего подразделения корпорации они слишком дороги и обладают избыточной квалификацией. Таксономисты обычно работают в академических или научных заведениях, где требуемые таксономии чрезвычайно сложны или связаны техническими терминами, а сама классификация должна выполняться с очень высокой детализацией.

Классификация вручную, выполняемая пользователями. Некоторые компании поручают классификацию документов всем сотрудникам, работающим со знаниями, или, того хуже, всем пользователям. Огромное число людей позволяет справляться с большими объемами, однако большинство пользователей очень часто неверно классифицируют информацию — просто потому, что не понимают тонкостей таксономии, которыми владеют библиотекари. Без должного контроля подобный подход ведет к постепенному снижению качества таксономии.

Поиск по ключевым словам. Вообще говоря, поиск как таковой не является способом классификации, но он часто используется в качестве альтернативного решения. Индекс ключевых слов, генерируемый механизмом поиска, чрезвычайно эффективен для синтаксического разбора огромного количества документов, но редко полезен для нахождения релевантных текстов, так как в нем нет возможностей классификации.

Автоматическая классификация по шаблонам. Средства типа «портал в коробке» содержат встроенные библиотеки шаблонов, по которым классифицируется информация. Таксономии, созданные по шаблонам, очень хороши для обнаружения новой информации в больших объемах документов, но редко достаточно точно отображают область бизнес-знаний конкретной организации.

Автоматическая классификация на основе правил. Многие средства редактирования таксономии позволяют создавать правила, указывающие, каким образом контент должен соответствовать таксономии. На их создание требуются время и усилия специально подготовленных библиотекарей, но затраты оправдываются заметным увеличением точности автоматической классификации.

Классификация вручную с автоматизацией. Очевидно, что оптимально такое решение, в котором сочетаются программная автоматизация и надзор со стороны человека. Здесь возможны несколько подходов и различные их комбинацию.

Чтобы определить правильное соотношение ручной и автоматической классификации, прежде всего следует установить относительные приоритеты точности и производительности. Для большинства организаций вопрос заключается в том, чтобы определить допустимую погрешность информации, позволяющую выжить в условиях взрывообразного роста информационных потоков. Решив этот вопрос, затем уже можно определить, какой способ автоматизации максимально соответствует природе и объему вашей информации, а также насколько нужен при классификации контроль человека и какие категории сотрудников будут ее выполнять.

Создайте структуру

С точки зрения пользователя таксономия — это именно тот компонент приложения управления контентом, который отвечает за привнесение порядка в хаос и моделирование структуры предметной области, в которой он ежедневно работает. Поэтому если таксономия в приложении управления контентом не отвечает требованиям пользователей, приложение не «приживется». Принятие пользователями — это стандартный критерий успешности ИТ-проекта, поэтому неудачная таксономия способна с самого начала обречь на неудачу проект внедрения такого приложения. Имейте в виду, что сотрудникам, работающим со знаниями, вряд ли понравится сильно автоматизированный процесс создания таксономии, так как ее точность очень низка по сравнению с классификацией, которая создается и поддерживается вручную.

Невзирая ни на что, внедрение приложения управления контентом может пройти успешно, если вам удастся воспользоваться новыми методиками, позволяющими отыскивать «иголки» в «стогах сена». Создайте богатую и релевантную модель таксономии, которая отражает особенности предметной области, и найдите компромисс между ручными операциями и программной автоматизацией в соответствии с потребностями вашей организации. Добейтесь решения этих двух задач, и пользователи с радостью примут целиком все приложение, помогающее им искать иголки в стогах информации.

Филип Руссом (Philip Russom) — доктор философии, независимый отраслевой аналитик, работающий в городе Уолтхем, штат Массачусетс. С ним можно связаться через сайт http://www.philiprussom.com.

Статьи по теме в Intelligent Enterprise

«Пять принципов интеллектуального управления контентом», Enterprise Partner №19’2001.