Кто‑то из отцов‑основателей ИТ сравнил данные с газом, который стремится занять весь имеющийся объем. И объемы данных постоянно растут, что увеличивает потребность в емкостях хранения. Но при этом бюджеты на закупку емкостей хранения выделяются весьма неохотно, особенно в непростое посткризисное время. Однако есть способы, которые позволяют навести порядок в данных и отсрочить закупку нового оборудования, причем с практически нулевым или, по крайней мере, относительно невысоким уровнем затрат.

Почему растут объемы данных

Почему же объемы данных растут? Причин несколько. Прежде всего, никто не отменял объективного роста объемов информации, которые увеличиваются по мере развития цивилизации. В последние годы эти процессы еще более ускорились за счет глобализации. Немалый вклад вносит и внедрение новых бизнес-приложений, в частности бизнес-аналитики, ERP, CRM и других. При этом может становиться востребованной информация, которая раньше просто лежала мертвым грузом в архивах. Проекты, связанные с консолидацией и виртуализацией, также привели к повышению требований к подсистемам хранения данных, и по мере развития их в сторону модели облачных вычислений они будут только расти.

Но при этом малейшая ошибка разработчиков может привести к разрастанию объемов данных. С подобным сталкивались очень и очень многие. Это случается при обновлении той или иной системы или в процессе организации поддержки той или иной функции.

А в последнее десятилетие ситуация усугубляется появлением законодательных требований по хранению целого ряда данных в течение определенного времени. Это связано, в частности, с мерами по борьбе с легализацией доходов, полученных преступным путем, или финансированием терроризма, и с соблюдением требований актов, направленных на противодействие финансовым махинациям с корпоративной отчетностью (SOX и другие аналогичные законы). Причем по причине глобализации информацию приходится хранить столько, сколько установлено наиболее жесткими требованиями из всех стран присутствия. А срок исковой давности, например, кое‑где достигает семи лет.

Практическая реализация этих требований может приводить к тому, что один и тот же документ будет иметь множество копий, явно излишнее для обеспечения нормальной работы. Так, например, как показало исследование, проведенное в 2010 г. специалистами IBM, в средней американской корпоративной сети обычное электронное письмо хранится в виде 12 копий. И в этом нет ничего удивительного, ведь письма часто отправляются нескольким адресатам, и каждая копия попадает в архив. Но даже в сравнении с этим отрицательные последствия обычной недисциплинированности пользователей, которые сохраняют свои файлы где попало, будут куда меньше.

Требования, о которых мы говорим, касаются и неструктурированной информации, которая хранится в форме оцифрованной графики, звука и видео, а ее доля растет все более высокими темпами. Этому способствует массовое внедрение таких решений, как системы потокового ввода, центры обработки вызовов, систем конференц‑связи последнего поколения, в том числе и с использованием видео, а также новейших систем наблюдения, оснащенных видеорегистраторами. Причем по мере совершенствования оборудования, например все большего распространения видео высокой четкости, этот объем будет еще более расти. В итоге, по данным IDC, 70% информации приходится хранить и поддерживать, но при этом она реально не используется. Тем более что возможности работы с неструктурированной информацией сильно ограничены из‑за несовершенства технологий ее обработки и хранения. И эта доля будет, увы, только расти.

Сжатие данных

Этот подход очень давно известен и широко используется. Некоторое время назад делались попытки использовать архивирование данных «на лету» для оптимизации их хранения. И с помощью таких решений действительно удавалось увеличить реальную емкость накопителей. В первое время это было сопряжено с большим риском потери данных из‑за малейшего сбоя. Настолько, что даже ходила горькая шутка — пользователи делятся на две категории: те, кто не пользуется DRVSPACE (утилитой сжатия данных, запускаемой с командной строки), и те, кто никогда больше этого делать не будет. Но уже совсем скоро упомянутая технология была усовершенствована, и сжатие файлов перестало быть опасным. Сейчас такая функция предусмотрена в нескольких файловых системах, в частности в NTFS. Используется сжатие данных и при резервировании на ленты.

Однако в последнее время эти меры потеряли свою эффективность, поскольку стали архивироваться файлы данных, причем уровень компрессии оказался существенно больше, чем на уровне файловой системы. Долгое время вне этого процесса оставались файлы офисных приложений, но сейчас наиболее распространенные форматы файлов Microsoft OpenXML и OASIS Open Document, PDF и целый ряд других также используют сжатие. В результате использование сжатия файлов на уровне файловой системы просто теряет смысл. Скорее даже наоборот, эффект становится отрицательным вследствие снижения быстродействия за счет упаковки/распаковки файлов и затрат системных ресурсов на эти операции.

Впрочем, некоторые файловые системы позволяют добиться определенного положительного эффекта. Например, ReiserFS, поддерживаемая некоторыми Unix-подобными системами, в том числе популярной Linux, позволяет в ряде случаев уменьшить потери вследствие кластерных правил, но это не универсальное решение на все случаи жизни. Оно дает большой выигрыш лишь тогда, когда велика доля информации, хранящейся в виде множества маленьких файлов, что в реальной корпоративной практике встречается довольно редко.

Технология сжатия применяется и к базам данных на блочном уровне, причем уже довольно давно. Уже в СУБД Oracle 9i R2 эти средства были на довольно высоком уровне зрелости. В последних версиях оно стало еще более эффективным решением, к тому же способствующим не только сокращению объемов (в некоторых случаях в пять раз), но и росту производительности. По разным данным, использование такого решения позволяло на том же самом оборудовании добиться двух-трехкратного ускорения обработки транзакций. Называются и более высокие цифры.

Использование этих средств хорошо также тем, что не требует приобретения никакого дополнительного оборудования и ПО. Достаточно лишь провести сжатие таблиц, что, однако, потребует затратить некоторое количество труда и времени, особенно если объемы данных велики. Но и эффект при этом может быть значительным, и добиться чего‑то похожего другими средствами сложно. Хотя справедливости ради стоит отметить, что для ускорения работы баз данных сравнимый эффект может дать увеличение кеш-памяти или использование буферных накопителей на базе SSD-дисков (этому посвящена статья «SSD-диски как элемент СХД» в настоящем номере).

Создание многоуровневых систем хранения

Согласно принципу Парето, от 80% до 90% запросов происходит к 10%, максимум 20% данных. И, как уже было сказано выше, 70% данных просто не используется, или, по крайней мере, не изменяется. Причем такая ситуация имело место практически всегда, с самых первых ЭВМ. В результате еще на первый мэйнфреймах в 1970‑е гг. была реализована концепция HSM (Hierarchical Storage Management — иерархическое управление носителями). В основе этой концепции лежит перемещение данных между носителями более быстрыми и дорогими, такими как дисковые массивы, и более медленными, но при этом дешевыми ленточными накопителями. Часто используемые данные хранятся на быстродействующих дисковых массивах. Те же, что не требуются длительное время, перемещаются в более медленную часть системы, а когда они вновь востребованы, то возвращаются обратно.

Со временем, по мере совершенствования технологий, эта концепция менялась. Сейчас, например, существует несколько классов дисковых накопителей. При этом разница в стоимости хранения между самыми быстродействующими, но самыми дорогими SSD и самыми медленными и дешевыми SATA-дисками доходит до 100 раз. Если же включить сюда ленточные накопители, то это разница вырастет до 400, а то и 1000 раз, однако от использования лент многие отказываются. Это просто неудобно вследствие определенных особенностей самой технологии работы с лентами, причем разница в стоимости перестает быть важной, особенно при комбинировании технологий виртуальных ленточных библиотек и дедупликации, но об этом ниже. Усложнялись и программные средства, что также накладывало свой отпечаток. В итоге модель HSM со временем трансформировалась в концепцию (Information Life Сycle Management, управление жизненным циклом информации). О ней много писалось, в том числе и нами, к тому же внедрение ILM, по крайней мере в полном и каноничном виде, — дело дорогое и хлопотное.

Вместе с тем отдельные элементы этого подхода вполне можно использовать. Тем более что появляются средства, позволяющие перемещать данные по разным ярусам многоуровневого хранилища данных. Одно из них — EMC FAST, ПО для автоматизации процесса такого перемещения. Материал о проекте в страховой компании «Ингосстрах», где данное средство применялось, опубликован в этом номере. Как нам кажется, внедрение подобных средств может стать одним из элементов модернизации систем хранения или отдельных их элементов. Такой проект требует определенных затрат, но они окупаются. Так, например, в «Ингосстрахе» снижение затрат на администрирование составило 50%, а экономия за счет оптимизации стоимости используемых дисков составила 24%. Причем конфигурация СХД была довольно специфичной, и в большинстве случаев можно добиться существенно большего снижения затрат на укомплектование комплекса систем хранения.

Дедупликация

Данное решение тоже существует довольно давно. Первые решения были выпущены на рынок в 2003 г., но зрелости они достигли лишь к 2007 г. Суть этой технологии состоит в устранении и удалении избыточной информации, например, путем замены повторных копий данных ссылками на первую копию. В результате только первая копия происходит в полном объеме, а все последующие представляют собой лишь те данные, что изменились.

Эта технология дает весьма ощутимый эффект, особенно в двух случаях: при резервном копировании и для любых систем виртуализации. И в том, и в другом случае на устройствах хранения оказываются практически идентичные файлы с минимальными различиями в них. Тут выигрыш в объемах копий может достигать многих десятков и даже сотен раз. Например, по данным EMC, объем ежедневно пересылаемых данных для резервного копирования рабочих мест на Microsoft Windows при использовании технологий дедупликации снижается более чем в 500 раз. Symantec рапортует о сокращении объемов данных при резервном копировании файловых серверов Microsoft Windows Server от 390 до 744 раз. При резервировании баз данных эффект существенно скромнее, но и тут счет идет в разы. В среднем же объемы сокращаются в 20 раз.

Технологии дедупликации активно используются производителями виртуальных ленточных библиотек. В итоге оказалось возможным полностью отказаться от использования медленных и неудобных накопителей на лентах, при этом нисколько не проиграв в стоимости.

Технологии дедупликации интересны и тем, что их внедрение можно свести к установке ПО с необходимой функциональностью, например Symantec NetBackup 6.5 или новее. Модернизация оборудования при этом не является строго обязательной. Причем среди такого ПО есть и системы с открытым кодом, которые не требуют оплаты лицензий и могут быть внедрены самостоятельно. Хотя стоит иметь в виду, что функциональность подобных систем может быть ограничена по сравнению с популярными коммерческими.

Ленты рано отправлять в отставку

Валентин Орлов,
руководитель отдела системного администрирования, CUSTIS

Хотя объемы сохраняемой информации постоянно увеличиваются, найти необходимое дисковое пространство для актуальных данных можно. Достаточно лишь освободить место от старых и неиспользуемых данных. Это решит проблему недостатка места. Однако хранение резервных копий в больших объемах — удовольствие не дешевое. Непросто сейчас найти ИТ-менеджера, который в течение семи лет будет сохранять архивные копии в СХД, пусть даже и состоящей из недорогих SATA-дисков.

Дедупликация и архивирование традиционно рассматриваются как технологии, применяемые для хранения огромных объемов данных в крупных корпорациях, которые могут позволить себе соответствующие расходы. Однако благодаря ряду решений компании из сектора SMB тоже могут использовать эти технологии. Кроме того, по нашему мнению, в SMB пока еще рано списывать со счетов ленточные накопители — они остаются актуальными для использования и при хранении архивных копий.

С помощью вполне доступного для SMB-компаний решения Symantec Backup Exec 2010 и включенной в него технологии Symantec Enterprise Vault системные администраторы получают возможность более просто и эффективно управлять жизненным циклом данных. Эта технология позволяет устанавливать период автоматической миграции в менее дорогие хранилища для старых и неиспользуемых данных. Избыточные данные удаляются с сервера, за счет чего освобождается место на дисках и сокращается время резервного копирования, а размер свободного пространства становится более предсказуемым.