Дэвид Столлер

Сегодня предприятия находятся под давлением необходимости эффективнее использовать все имеющиеся ресурсы данных. Новые технологии интеграции, поиска и аналитической обработки текстов создают беспрецедентные потенциальные возможности. Однако их пока тяжело использовать и интегрировть В ИТ-архитектуру компании.

Сегодня траектории миров структурированных данных и неструктурированного контента пересекаются. Встреча структурированной и неструктурированной информации обещает более совершенные знания о клиенте и взаимодействие с ним, более интеллектуальные бизнес-процессы, более всесторонние процедуры обнаружения мошенничеств и т.д.

Ширится поддержка XML в качестве универсального способа описания данных. Как только универсальное описание данных разрушит барьеры, в тот же момент ценность каждой частички информации возрастет многократно - будь то оперативные данные, сообщения электронной почты, записи об обращениях клиентов, текстовые документы, графика, электронные таблицы, видео- или аудиофайлы.

Увы, вместе с распространением новостей об этих новых захватывающих возможностях усложнятся задачи, стоящие перед ИТ-специалистами. Станут ли реляционные базы данных универсальными механизмами управления информацией? Что произойдет с управлением контентом? Сможет ли ПО интеграции информации предприятия (Enterprise Information Integration, EII) связать воедино разнородные источники данных? И какую роль будут играть аналитическая обработка и поиск текста, а также другие технологии доступа и анализа неструктурированной информации в расширении возможностей BI-решений (Business Intelligence)?

Быстрее, лучше, дешевле

Сегодня понятие "быстрее" означает устранение задержек; компании стремятся получить конкурентоспособные преимущества за счет сокращения времени хранения складских запасов или промежутка между получением и исполнением клиентского заказа. Другие организации, особенно те, в которых есть центр обработки вызовов, стремятся сократить время, уходящее у менеджера по продажам с начала работы с потенциальным клиентом до заключения сделки.

ИТ-отделу также приходится устранять задержки в информационных потоках, независимо от типа данных или контента и места их хранения. Открытие доступа и обеспечение высокой доступности большего количества данных также критически важны для создания управляемой событиями архитектуры, которая призвана автоматически и немедленно уведомлять топ-менеджеров о важных событиях в бизнес-процессах.

По мере перехода компаний на работу с информацией реального масштаба времени, отделы маркетинга, обслуживания клиентов, сервиса, корпоративного регулирования, разработки продуктов и другие ключевые подразделения должны усовершенствовать свои процессы принятия решений. За прошедшие почти два десятилетия механизм принятия бизнес-решений был структурирован, исторические данные размещены в реляционных базах данных, электронных таблицах и форматах, которые им предшествовали. Однако из-за прогресса во взаимодействии с клиентами и партнерами, а также в механизме принятия коллективных решений топ-менеджерами, одного наличия и доступа к BI-средствам и хранилищам данных уже недостаточно.

Например, в финансовом учреждении для получения единого представления о клиентах, которое позволило бы видеть возможности перекрестных и дополнительных продаж, а клиентам - предоставить индивидуализированный доступ к их учетным записям, ИТ-отдел должен объединить всю относящуюся к клиентам информацию из всех подразделений. Речь не только о консолидированном представлении информации. Лицам, принимающим решения, недостаточно простых механизмов BI-запросов и отчетности для получения и анализа данных. Они нуждаются в специализированных механизмах поиска, классификации и аналитического исследования текстов (text mining), созданных в области неструктурированных данных.

Наконец, это позволяет экономить деньги. В поставщике офисного оборудования и сервисов, компании Corporate Express, достигли экономии от перехода бизнеса в интерактивный режим, благодаря создания информационного потока от клиентского портала к BI-решениям и другим приложениям. "Портал позволил передать управление сайтом от разработчиков в руки бизнес-пользователей, - говорит Вейн Айелло, вице-президент по электронным бизнес-услугам в Corporate Express. - Бизнес-пользователи могут вносить изменения в реальном времени, используя любой формат, который посчитают полезным для клиентов".

В надежде сократить затраты на ИТ и повысить гибкость бизнеса многие компании объявили о новом курсе своего развития - на сервисно-ориентированную архитектуру (Service-Oriented Architecture, SOA). Закрытые информационные среды корпоративных подразделений являются препятствием для SOA - препятствием, которое дорого обходится, потому что разработчикам приходится прибегать к устаревшим методам создания нестандартного кода и процедур преобразования данных, которые без этого не годятся для повторного использования. В процессе достижения предусмотренных SOA бизнес-целей - снижения совокупной стоимости владения, повышения гибкости управления и совершенствования понимания, что действительно важно для получения конкурентных преимуществ, - для ИТ-подразделения критически важной задачей становится всеобщая интеграция информации.

Мощь и ограничения порталов

Будучи основанным на Web центром сотрудничества и поставки контента, портал часто становится основным местом, где встречаются миры структурированных и неструктурированных данных. Полноценная концепция портала предусматривает не просто предоставление доступа к виртуальному хранилищу контента, но и автоматизацию технологических цепочек и документооборота, аналитику, а также другие функции, позволяющие расширить роль человека в бизнес-процессах.

Однако есть вещь, которую портал не в состоянии скрыть, - плохая интеграция информации. Некоторые компании уже пытались использовать портал для интеграции данных и текстов в одном окне, но проекты оказывались дорогостоящими, разовыми, а полученное в результате решение оказывалось неспособным к расширению.

С другой стороны спектра решений - простое предоставление средствами портала доступа к Web-сервисам и размещенным на нем приложениям и базам данных, где более сложная интеграция реализована невидимо для пользователя. Например, компании Sabre Airline Solutions использование портала на основе продуктов Sun Microsystems позволяет выступать в качестве поставщика услуг аренды приложений для более чем 200 авиалиний. "Наряду с текущими средствами поддержки принятия решений мы также ставим перед собой цель реализовать управление контентом на нашем портале eMergo; это обусловлено тем, что у авиалиний много документации, которая нужна для управления и контроля", - говорит Дэвид Ендикотт, вице-президент по развитию продуктов в Sabre Airline Solutions.

Амбиции универсальных баз данных

На заре XML, когда в умах членов консорциума W3C только начали возникать мысли о подобном стандарте, поставщики баз данных активно обсуждали перспективы "универсальной" БД. В конце 1990-х основные производители СУБД частично приняли стандарт SQL99 и создали дополнительные компоненты к ядрам своих БД, позволяющие управлять и обращаться к неструктурированным данным.

Совсем недавно IBM и Oracle закрыли пробелы, существовавшие между своими расширенными реляционными ядрами БД и системами управления коллективной работой и контентом. Почти два года назад IBM первой из трех ведущих поставщиков предложила поддержку управления контентом в реляционных СУБД, добавив Content Manager в набор приложений DB2 Universal Database. В 2004 году компания пошла дальше на пути конвергенции данных и контента, поглотив компанию Venetica и ее продукт VeniceBridge, реализующий SOA-подход к доступу и интеграции технологических цепочек и контента.

В конце 2004 года Oracle представила Oracle Files 10g, где управление контентом попало в центр базы данных Oracle и систем серверов приложений. Наконец, последней, с большим отставанием от лидеров, идет Microsoft. Компания заявила, что SQL Server станет двигателем управления контентом, текстового поиска и управления XML-данными в следующей версии, которая сейчас носит кодовое название Yukon.

Несомненно, поставщики реляционных баз данных видят огромные возможности в том, что потребности в получении доступа, интеграции и управлять различными формами контента становятся все острее. "Один из наших клиентов создает хранилище контента и структурированных данных с объемом контента, превышающем в пять раз объем библиотеки Конгресса, - говорит Ричард Винтер, президент Winter Corp. и специалист по сверхбольшим базам данных. - Мы уверены, что в следующие несколько лет число подобных смешанных хранилищ с сотнями терабайт - если не петабайт - данных и контента значительно возрастет".

Контент как ускоритель прогресса

Приобретение компанией EMC решения Documentum инициировано, в первую очередь, быстрым отпочкованием рынка управления корпоративным контентом в отдельное направление. Покупка Documentum, наряду с поглощением Legato, VMWare и AskOnce (подразделение Xerox), сделала EMC лидером рынка управления контентом и позволила компании создать полноценную стратегию управления жизненным циклом информации (Information Life Cycle Management, ILM). Технология AskOnce легла в основание "виртуального хранилища" EMC - объединенного концентратора управления контентом и бизнес-процессами, а также интеграции.

Компания Corporate Express, клиент Documentum с 1996 года, видит реальную ценность в ILM. "Уже сейчас объем хранящихся у нас данных составляет почти 30 терабайт, - говорит Вейн Айелло. - Мы должны видеть, какие есть возможности оптимального управления контентом, причем не только в производственных системах, но и в других системах с более дешевыми хранилищами".

Однако ни жестко лимитированные ИТ-бюджеты, ни ведущие поставщики СУБД не в состоянии помешать появлению новых инновационных компаний в области управления контентом и анализа. Особого внимания заслуживают две из них - Attensity ("рационализация" и интеграция структурированных и неструктурированных данных) и Mark Logic (компания пытается повторить историю развития реляционных баз данных и SQL, но только в области контента и XML, интерпретируя документы как базы данных). Например, компания Whirlpool использует Attensity Relational Extraction Server для извлечения информации и получения новых ценных сведений из гарантийных претензий, откликов клиентов и записей службы поддержки - процесс, который ранее занимал столько времени, что компания была в состоянии выявить проблемы только много месяцев спустя, когда проданы уже тысячи единиц товаров.

Правила интеграции

Но даже при наличии универсальных расширений, от поставщиков реляционных баз данных, интерес к альтернативным интеграционным решениям в виде ПО промежуточного уровня никогда не падал. Теперь же, когда Web и XML стали общепринятыми стандартами, интеграция информации (EII), стала почти всеобщей технологией. EII-решения многих поставщиков сегодня оптимизируют доступ к гетерогенным источникам данных и, в частности, обеспечивают единое и всестороннее представление клиента. Например, IBM DB2 II действует как внешний интерфейс ко всем видам ресурсов данных. Вместе с тем DB2 II знаменита своим "федеративным" подходом, в котором данные не копируются в центральное хранилище, а для получения результатов запросы перенаправляются в локальные хранилища. "Федеративный" объединительный подход обязателен для EII, технологии, которая ныне революционизирует хранилища данных. Невзирая на пламенные дебаты вокруг предмета, EII никогда не заменит централизованные хранилища данных; у обоих подходов есть свои достоинства и им придется сосуществовать.

Однако, обратим внимание на другую возможность. Почему бы не возложить на технологию EII функции по определению того, как контент должен становиться частью информационной инфраструктуры, особенно если принять во внимание размер этих ресурсов. Действительно ли мы стали свидетелями появления нового мира, где информационные потоки не определяются типом данных, изоляцией по приложениям или схемой самого слабого звена, где универсальная связность и технологии интеграции информации учитывают потребности всех источников данных, включая унаследованные ресурсы, и где в центрах обработки вызовов клиентов знают лучше, чем они себя. Те из нас, кому не раз пришлось наблюдать, как очередное решение-панацея не решает поставленных перед ним задач, знают, что идеал недостижим. У EII и других новых технологий есть много недостатков, связанных с производительностью, надежностью и безопасностью, которые нужно преодолеть, особенно когда речь идет о множестве типов данных. Однако времена меняются: SOA, открытые XML-стандарты и бизнес-потребности призывают не оставить без внимания успех этих технологий. Традиционные границы нуждаются в фундаментальном пересмотре. И ранее независимые миры сливаются воедино.

Слияние структурированной и неструктурированной информации

Возможные технологии

  • Используйте XML и другие Web-стандарты. Всеобщее принятие XML дает возможность понять, как разрабатывать метаданные и другие средства, позволяющие приложениям работать с гетерогенными данными.
  • Обрабатывайте контент в рамках "расширенной" стратегии управления информацией.
  • Используйте возможности ПО промежуточного уровня для интеграции информации. Интеграция информации предприятия (EII) сокращает число перемещений данных и способно использовать метаданные для создания единого представления гетерогенных данных.
  • Расширьте возможности BI-решений за счет включения неструктурированного анализа и отчетности. Поисковые машины и аналитическая обработка текста (text mining) расширяют возможности получения из имеющихся текстовых данных ценных сведений для принятия решений.

Источники проблем

  • Существующие системы и навыки персонала препятствуют ИТ-инновациям. Топ-менеджерам придется взять на себя инициативу развития межведомственных связей внутри компании.
  • Незрелость технологий объединения данных. EII и другие альтернативные решения на основе интеграционного ПО промежуточного уровня еще должны доказать свою эффективность, надежность и доступность.
  • Быстрый прогресс в развитии сервисно-ориентированной архитектуры (SOA) меняет планы. Вновь появляющиеся возможности продолжают менять обстановку в интеграционных проектах.

Важнейшие инициативы

  • Выявите участки, готовые для запуска пилотных проектов, позволяющих оценить возможности новых решений по интеграции данных и текста. Участки, требующие более глубокого понимания клиентов, - первые кандидаты для инноваций.
  • Добивайтесь поддержки интеграции структурированных данных и контента в среде бизнес-пользователей. Этого можно требовать и административно, но такая потребность должна обусловливаться и ключевыми целями бизнеса.