Термин «конвергенция» в сегодняшнем мире корпоративной автоматизации безусловно является одним из ключевых. В сфере корпоративных коммуникаций уже постепенно исчезают такие понятия, как передача телефонного трафика или видеопереговоров. Передаются исключительно данные — о бизнес-транзанциях либо несущие в себе в зашифрованном виде текст, речь, музыку, видео и любую другую информацию. Разделение же самих корпоративных данных на структурированный и неструктурированный контент пока сохраняется, хотя и тут имеет место пресловутая конвергенция.

Проявляется это по-разному — в основном через то, какие задачи сегодня приходится решать в бизнес-среде при помощи разных типов данных, а также через призму поведения компаний, предлагающих рынку соответствующие продукты и технологии.

Год за годом развивающиеся (в течение долгого времени практически исключительно для обслуживания документооборота в компаниях) технологии работы с текстовой информацией постепенно доросли до уровня текстовой аналитики (text mining) и мощных инструментов корпоративного поиска (enterprise search). И сегодня, помимо все тех же «вечных» задач информационной поддерж­ки процессов оборота документов, специалисты склонны выделять по крайней мере две группы задач, сама постановка которых исходит из той степени зрелости, что на сегодняшний день достигнута в сфере обработки неструктурированного контента.

Контент как юридическая защита

Первая представляет направление, которое получило название e-Discovery и первоначально было связно с развитием ИТ-инструментария, призванного в любой ситуации обеспечить бизнес всей необходимой документарной информацией, способной помочь выиграть в суде тот или иной спор. Сегодня это направление распространяется на область ИТ-поддержки аудита деятельности организации и соответственно соблюдения требований регуляторов (compliance). Возросшая именно в последнее время актуальность этой проблемы, равно как и ее общность с упомянутым вопросом юридической поддержки бизнеса, практически очевидна. Основную категорию пользователей подобных систем составляют юридические департаменты компаний, а также контролирующие государственные организации. Функционально данное направление довольно узкое, при этом оно универсально в том смысле, что подобные задачи скорее всего должны вставать в любом бизнесе независимо от его отраслевой принадлежности и масштаба деятельности. Надо сказать, что существуют и финансовые ориентиры, характеризующие затратную часть внедрения технологий e-Dicovery. В различных источниках соответствующие цифры колеблются от одной до двух тысяч долларов за гигабайт обрабатываемой информации в зависимости от требуемой в конкретном бизнесе детализации.

Если рассматривать системы e-Discovery со стороны рынка предложения, то здесь тоже можно отметить некоторые особенности. С одной стороны, изначально они «вырастали» в среде богатых продуктовых линеек ведущих производителей систем Enterprise Content Management (а до этого — систем корпоративного документооборота) в виде одноименных модулей. Дополнительный импульс развитию e-Discovery придало партнерство их производителей с ведущими поставщиками транзакционных систем управления бизнесом. Одним из хрестоматийных примеров в этом отношении является альянс двух грандов в области ECM и ERP — компаний OpenText и SAP. Именно симбиоз функций продуктов обоих классов позволяет говорить о том, что теперь принято называть content in context или возможностью управлять документарной информацией предприятия в контексте бизнес-процессов. Ясно, что в этом случае становится гораздо проще и естественней выделять неструктурированный контент и управлять им в разрезе потенциальной юридической значимости тех отчетов (в том числе и содержащих ссылки на неструктурированный контент), которые составляются для различных регулирующих организаций. Попутно создаются благоприятные условия и для решения технологических задач. Одной из таковых, опять-таки легче решаемой именно в интегрированной информационной среде (ERP+ECM), является задача автоматического тегирования контента в зависимости от его отношения к тому или иному бизнес-процессу. Традиционно такую работу до сих приходится выполнять вручную. Кстати, это один из характерных примеров той же конвергенции — размывания содержательных границ между структурированной и неструктурированной информацией в бизнесе. Характерен в этом смысле и сам тип альянса, и помимо уже упомянутого, образованного по формуле ERP+ECM, для современного рынка характерен по крайней мере еще один, построенный соответственно по схеме BPM+ECM. Надо сказать, что попытка соединения ECM с направлением Business Process Management в настоящее время характерна и для отечественного рынка в отношении отечественных же продуктов.

Все виды контента — соединяйтесь

Еще одно направление, тесно связанное с развитием технологий неструктурированного контента, обусловлено возросшей актуальностью работы с пространством публичных интернет-ресурсов вообще и ресурсов, порождаемых технологиями Web 2.0, в частности. В отличие от e-Discovery речь в данном случае идет о совместном применении целой группы концепций. Наряду с уже упоминавшейся Enterprise Search (используемой в том числе и для e-Discovery) здесь подразумеваются и более углубленные методы работы с текстом — от традиционной text mining до новомодной sentiment analysis, с помощью которой можно определять эмоциональный настрой автора тех или иных высказываний, представленных в текстовой форме.

Той категорией пользователей, которая на сегодня признается основным драйвером внедрения данных технологий в практику ИТ-поддержки бизнеса, безоговорочно признаются маркетологи с их задачами анализа объективных предпочтений и субъективных настроений клиентской аудитории. Источников неструктурированной информации в данном случае целая гамма — от результатов обработки прямых опросов и интервью до анализа кратких высказываний в блогах и интернет-форумах. Еще одной часто упоминаемой специалистами категорией пользователей подобного функ­ционала являются финансисты, скорее работающие на рынке корпоративных, нежели розничных финансовых услуг. Соответственно в данном случае акцент делается не на статистической обработке большого количества отдельных высказываний, а на автоматизированном выборе ограниченного числа ключевых источников информации и последующем (опять-таки автоматизированном) углубленном анализе их содержимого. Похожий шаблон работы с неструктурированным контентом складывается и у самой молодой категории пользователей, представляющей бизнес исследовательских и инжиниринговых компаний, а также у сотрудников данного профиля, работающих в государственном секторе. Основное отличие их потребностей состоит в том, что исходным источником данных являются не публичные интернет-ресурсы, а сугубо профессиональная информация, которая в Интернет, как правило, не попадает вовсе. Тем не менее она также в основном представлена в неструктурированном виде, объемы ее бывают весьма значительными, лексические и терминологические особенности довольно яркими, а создаваемые решения — достойными внимания крупных предприятий. Ярким примером здесь служит совместное программно-аппаратное решение Google и Dell, созданное этими компаниями для лаборатории NASA в Ленгли.

И наконец, в отдельную категорию выделяются активные потребители медиаинформации. В основном речь идет о профессиональном медиа­бизнесе, хотя в его фарватере идут компании самых разных отраслей, для которых соответствующий тип неструктурированного контента играет все более важную роль.

Рынок предложения систем второй категории гораздо более разнообразный, чем рынок e-Discovery. Если в первом случае родоначальниками продуктового направления являлись практически исключительно ECM-поставщики, то здесь движение изначально шло с нескольких направлений, среди которых можно выделить по крайней мере четыре.

  1. Гранды публичного интернет-поиска (Google, Yahoo).
  2. Производители систем Enterprise Search (FAST, Convera, Autonomy, впоследствии приобретенные более крупными игроками).
  3. Производители аналитических систем (SAS, Information Builders), расширяющие свои продукты от работы с численной до анализа текстовой информации.
  4. Поставщики ECM-систем (EMC Documentum, OpenText), в данном случае представленные такими функциональными направлениями, как анализ Web-контента (Web Content Management — WCM) или анализ медиаинформации (Digital Asset Management — DAM).

В практике реальных проектов соответствующие направления работы с контентом все более начинают смешиваться, интегрироваться и заимствовать друг у друга методы работы с информацией. Так, например, в работу с неструктурированным контентом все активнее проникают статистические методы, ранее применявшиеся исключительно в контексте использования численных данных. Аудиоданные автоматически конвертируются в текст и наоборот, а, скажем, упомянутый sentiment analysis начинает применяться и в аудиообработке, поскольку особенности устной речи точно так же, как письменной, способны говорить об эмоциональном настроении.

В результате рождаются разнообразные решения, удовлетворяющие потребностям вышеназванных категорий пользователей и часто сфокусированные только на них. Решаемые задачи (например, прогнозирование развития бизнеса) по своей постановке тоже все больше напоминают те, что возникают в связи с необходимостью обработки структурированных данных.

Одним из практических примеров (хотя далеко не единственном), характеризующих многое из вышесказанного, служит технология Google Trends. Она хорошо понятна как корпоративному, так и индивидуальному потребителю, и о ней хотелось бы рассказать чуть подробнее.

Утром — в Интернете, вечером — в пакете

Предсказание поведения потребителей критически важно для большинства компаний. Вычислительные инструменты сегодня позволяют выстраивать сложные математические модели, с той или иной степенью достоверности прогнозирующие развитие ситуации в зависимости от внешних условий.

И все же многоуровневые модели далеко не всегда с высокой долей достоверности предсказывают потребительский спрос, и сегодня маркетологи часто говорят о необходимости изучения еще и распространенных социальных сетей и других площадок для понимания покупательского поведения. Однако если с анализом социальных онлайн-сетей ситуация пока обстоит не лучшим образом, то анализ поисковых запросов позволяет на удивление точно предсказывать многие события, в том числе и поведение потребителей.

Наиболее востребованным и известным инструментом такого типа как раз и является публичное приложение Google Tends. Как отмечал исследователь из Yahoo! в ходе лекции в Центре исследования Интернета и общества Ингмар Вебер, механизм работы Google Trends довольно прост. Основываясь на определенном проценте поисков Google, приложение вычисляет, какое количество поисков по запросу было проведено по отношению к общему числу поисков за заданный промежуток времени (возможно использование данных с 2004 года). Если число запросов было очень мало, в результате они не будут отображаться.

Немаловажен и тот факт, что Google Tends позволяет сравнивать статистику по нескольким запросам, что дает возможность выявить наличие и характер связи между различными событиями. Ингмар Вебер приводит в пример сервис Google FluTrends, который на основе анализа поисковых запросов «делает вывод» (с определенной вероятностью, которая среди прочего вычисляется исходя из того, в какое время года и в каком географическом регионе этот запрос сделан) о том, болен человек гриппом или нет, а затем на основе его IP-адреса относит его к тому или иному населенному пункту. В результате у Google скапливается информация о том, сколько человек в каком регионе мира больны гриппом, и эти данные становятся отправной точкой для создания интерактивной карты, отображающей очаги эпидемии и динамику ее распространения.

Google Tends активно используется сегодня и в качестве экономического индикатора, отмечает журнал Business Week. Многие центральные банки (в том числе Израиля, Великобритании, Италии, Испании, Турции и т.д.) изучают Google Trends и находят взаимосвязи между поисковыми запросами населения и экономическими действиями. Так, считается достоверным тот факт, что благодаря инструментам Google Trends в США удалось улучшить прогнозирование продаж автомобилей и недвижимости.

Приложение позволило предсказать и более сложные экономические механизмы. К примеру, в Великобритании анализ запросов помог сделать прогноз относительно изменения уровня безработицы в стране. А в США модель, включающая в себя Google Trends, точнее предсказывала ситуацию с ипотечным кредитованием.

Очевидно, что главным преимуществом данных, получаемых с помощью Google Trends, оказывается их доступность и оперативность. Инструменты прогнозирования, существовавшие ранее, традиционно основывались на анализе уже совершённых действий, в то время как Google Tends позволяет «посмотреть вперед» и понять, что люди думают сегодня и что они будут делать завтра. Как подчеркнул Ингмар Вебер, анализируя мир онлайна сегодня, мы можем предсказать, что будет завтра в мире офлайна.

Тем не менее, несмотря на многочисленные достижения, новый инструмент не стоит идеализировать. Не нужно забывать, что данным поисковиком пользуются многие, но не все, а значит, анализируя потребительское поведение через Google Trends, мы изучаем поведение пользователя Google, а не произвольного субъекта, представляющего на данный момент отдельный элемент нужной выборки. Так что если, например, задачей является продажа товаров для людей преклонного возраста, то использование данного приложения ставится под вопрос — ведь немногие из них активно пользуются Интернетом вообще и поисковым сервисом в частности. Ясно и то, что люди с низким достатком и тем более находящиеся за чертой бедности тоже вряд ли могут позволить себе бродить по просторам всемирной паутины в поисках нужной им информации.

Приняв во внимание данные замечания, стоит попробовать использовать данный инструмент и посмотреть, сможет ли он изменить прогнозную модель в лучшую сторону.

Работа на перспективу

Сергей Плаунов,
руководитель практики по внедрению BPM- и ECM-систем компании КРОК

Подавляющее большинство коммуникаций в мире происходит в неструктурированном виде: документы, электронная почта и все то, что можно найти Интернете. В связи с этим обработка неструктурированной информации становится все более востребованной в самых разных областях. Стандартные средства отчетности, такие как BusinessIntelligence, не справляются с задачей анализа подобной информации, вместо них можно использовать специализированные системы — ContentAnalytics.

Возьмем, к примеру, крупную компанию по производству бытовой техники. В одной из партий холодильников случился заводской брак. Компания об этом узнает не сразу, отчет по бракованным товарам попадет к руководителю спустя пару месяцев. А между тем поставляемый бракованный товар будет портить имидж компании. Но ведь практически сразу можно отследить отзывы клиентов о низком качестве продукции в Интернете по частому употреблению слов «холодильник» и «брак» в контексте упоминания производителя. Уже через несколько дней система выявит рост негативных отзывов, а этого достаточно, чтобы оперативно отозвать партию товаров. Своевременное выявление проблемы позволит сохранить репутацию и деньги компании.

Кроме того, с помощью ContentAnalytics можно повысить степень удовлетворенности клиентов. Система позволяет на основе анализа большого объема замечаний, предложений и отзывов точнее предугадывать их потребности. Проследить контекст упоминаний компании в социальных сетях не так просто, ведь это огромный объем информации, и ContentAnalytics значительно облегчает эту задачу.

Существуют системы, позволяющие обрабатывать и речь. Они могут быть полезны при работе в контакт-центре. Решения класса SpeechAnalytics способны автоматически выявлять фрагменты разговоров, в которых упоминается заданный продукт или есть негативные высказывания клиентов. Это дает возможность узнать, корректно ли работает оператор, какие продукты чаще интересуют потребителей и т.д.