Алексей Назарбаев
Ведущий технический
эксперт ТopS BI

В статье «От данных — к информации» мы рассмотрели, что представляет собой ILM концептуально. Обдумав проблему стремительного роста данных, вы наверняка согласитесь с положением, выдвигаемым ILM: решение проблемы постоянно растущих данных возможно только при смене парадигмы их хранения.

Можно ли реализовать в датацентре управление жизненным циклом информации уже сейчас? К сожалению, только частично. На текущий момент не существует полной реализации концепции ILM, но есть хорошие частные решения — программные продукты, устройства хранения и методологии. Для того чтобы понять, какие инструменты можно начать использовать сегодня, нам нужно рассмотреть общую стратегию и этапы внедрения ILM в датацентре и оценить предполагаемый результат реализации этой стратегии.

Этапы реализации ILM по версии EMC

Компания EMC — одна из крупнейших на рынке систем хранения данных, и именно она стала флагманом в развитии ILM, предлагая решения для создания информационной инфраструктуры и фокусируясь на ключевых технологиях: консолидации данных, виртуализации систем хранения и вычислений, управлении неструктурированной информацией, организации электронных архивов.

План реализации стратегии ILM, разработанный EMC, базируется на подходе, предложенном Storage Networking Industry Association (SNIA) в 2004 году. Этот подход подразумевает пять фаз внедрения ILM, причём каждая такая фаза означает шаг к созданию интегрированной ILM-среды:

  1. консолидация данных и сети хранения;
  2. стандартизация данных и сервисов хранения;
  3. создание «островков» ILM и фокусирование на отдельных корпоративных приложениях;
  4. введение автоматизации в процесс управления размещением данных;
  5. объединение «островков» в единую гетерогенную ILM-среду.

Однако рекомендации SNIA являются скорее общими. EMC более конкретна и выделяет всего три этапа в создании ILM-инфраструктуры, каждый из которых носит законченный характер и может быть задействован для решения наиболее острых в данный момент проблем организации. Естественно, что этапы эти последовательны, и каждый следующий не может осуществляться без реализации предыдущих.
Первый этап (рис. 1) предполагает построение иерархической архитектуры для инфраструктуры хранения (tiered storage infrastructure). Единая многоярусная инфраструктура хранения позволяет разместить приложения и обрабатываемую ими информацию в наиболее подходящем месте (по параметрам доступности, защищённости, надёжности хранения и пр.) в соответствии с её ценностью для бизнеса. Такой подход облегчит управление инфраструктурой и решение оперативных задач (например, создание резервных копий). А организация, реализовав этот этап, получит такие выгоды, как удешевление хранения информации, повышение эффективности управления инфраструктурой и оптимизация автоматизированного размещения данных в системах хранения.

Рис. 1. Первый этап реализации ILM — ярусная инфраструктура хранения Рис. 2. Второй этап реализации ILM — применение этой стратегии к одному из ключевых корпоративных приложений Рис. 3. Третий этап реализации ILM — интеграция всех приложений
в ILM-инфраструктуру

Следующий этап (рис. 2) заключается в применении стратегии ILM к одному из ключевых приложений (это может быть ERP-решение, почтовая система или СУБД). В качестве такого ключевого приложения целесообразно выбрать систему с серьёзными требованиями к ресурсам хранения. Это позволит сразу ощутить эффект от реализации ILM-стратегии и возврат сделанных инвестиций. На втором этапе ключевое приложение и его данные классифицируются и связываются с политиками, задающими правила размещения информации в инфраструктуре хранения. Классификация данных — очень важный и сложный процесс. Здесь нужно учитывать как уже имеющиеся типы, так и будущее их появление при планируемом расширении системы. С классификацией непосредственно связано и задание целевых показателей уровня сервиса (SLO), на основе которых впоследствии будет осуществляться автоматическое размещение информации в инфраструктуре хранения датацентра. Детализированная классификация и точные политики позволят сделать управление размещением данных более адекватным.

Наконец, завершающий этап — интеграция в ILM-инфраструктуру множества приложений (рис. 3). На этом этапе проводится классификация всех корпоративных приложений и обрабатываемых данных и связывание их с новыми или существующими политиками. Отныне приложения совместно используют инфраструктуру хранения, а механизм управления автоматически размещает информацию в наиболее подходящих хранилищах. Происходит виртуализация инфраструктуры хранения всей корпоративной информации, и ILM начитает работать в полную силу.

Какие ILM-технологии актуальны сегодня?

Как уже было сказано выше, полной реализации управления жизненным циклом информации на данный момент не существует. Но некоторые технологии применимы уже сегодня. Они обеспечат вполне осязаемые преимущества и позволят легче реализовать переход на ILM-стратегию в будущем.

Ярусная инфраструктура хранения — ключевое звено первого этапа реализации ILM-стратегии по версии EMC — устанавливает иерархию систем хранения на основе требований к качеству сервиса, таких как производительность, непрерывность бизнеса, защита данных, безопасность хранимой информации, соответствие нормативным актам (в том числе по времени хранения), стоимость. Физически инфраструктура представляет собой несколько объединённых в сеть систем хранения, различающихся по стоимости и уровню предоставляемого сервиса. Для каждого типа информации и соответствующего приложения выбирается наиболее адекватное хранилище.

Поскольку полная реализация ILM в гетерогенной среде приложений (третий этап по версии EMC) трудно осуществима, стоит подробнее остановиться на частных решениях. Ведущие поставщики систем хранения предлагают инструменты для управления хранением структурированной и неструктурированной информации. Разработаны специализированные решения для управления ссылочной информацией.

Средства управления структурированной информацией представляют собой программные продукты, осуществляющие перенос данных в инфраструктуре хранения согласно правилам. В роли структурированной информации могут выступать, например, файловая система серверов или таблицы баз данных. В первом случае инструмент управления будет перемещать часть файловой системы в адекватные на данный момент системы хранения в ярусной инфраструктуре (пример такого инструмента — продукт EMC DiskXtender). Во втором случае будет осуществляться перенос данных из таблиц в другую СУБД или в архив (например, так действует решение HP RIM for Databases).

Инструменты управления неструктурированной информацией используются для перемещения данных, не имеющих выраженной структуры (например, почтовых архивов), и также требуют интеграции на уровне приложений. Программные продукты для управления почтовыми архивами уже представлены на рынке. Например, EMC EmailXtender позволяет организовать архивы почтовых сообщений Microsoft Exchange и Lotus Notes/Domino.

Управление ссылочной информацией осуществляется с помощью либо программных, либо, что предпочтительно, программно-аппаратных средств — Content Addressed Storage (CAS). Особенность таких систем состоит в том, что они позволяют находить документы по содержимому, индексируя их в момент размещения в хранилище. Предназначены они в первую очередь для архивов неструктурированной информации. Включив CAS-систему в сеть хранения датацентра, вы можете организовать архив документов, удовлетворяющий нормативным требованиям по срокам хранения (эта возможность реализуется непосредственно инструментами CAS), обеспечивающий защиту и безопасность хранимой информации, устраняющий дублирование документов и соответствующий концепции ILM. На сегодняшнем рынке решения CAS представлены несколькими вендорами. Среди них — Hewlett-Packard (продукт HP StorageWorks RISS) и EMC (Centera).

В целом реализация концепции управления жизненным циклом информации в инфраструктуре датацентра — сложный и длительный процесс, но начать его и получить выгоду от внедрения можно уже сейчас.