Об опыте, накопленном в деле строительства ЦОДов, мы беседовали с исполнительным директором Дирекции информационных технологий торгового дома «Копейка» Александром Артюховым еще осенью 2008 года. Наш разговор касался развития компании в условиях экономического подъема и бурного развития, сопряженных с территориальной экспансией, что во времена кризиса и снижения затрат может показаться почти кощунством. Тем не менее кризисы проходят, и компании начинают задумываться о развитии и соответственно о создании нового или модернизации имеющегося у них ЦОДа.

Intelligent Enterprise: Как и почему встал вопрос о модернизации ЦОДа торгового дома «Копейка»?

Александр Артюхов: Я не стану говорить о технических деталях, а буду рассматривать всё в организационной плоскости. С 2001 года «Копейка» полномасштабно использует ERP‑систему SAP R/3. Естественно, для ее работы необходим ЦОД. Надо отметить, что наша компания не имеет собственных площадей и арендует офис, включая серверные помещения. И к 2006‑му в старом ЦОДе скопилось очень много оборудования, в том числе дорогостоящего. Были и RISC‑серверы, и системы хранения данных, и коммуникационное оборудование, и телефонная станция, и много чего еще.

Вроде бы всё работало нормально. Но компания начала бурно развиваться, ведя при этом и территориальную экспансию. И перед ИТ‑службой возник целый ряд вопросов, связанных с подключением новых филиалов и ма­газинов. В результате оказалось, что резервов по масштабированию нет.Серверная комната площадью в 30 кв. метров охлаждалась бытовыми кон­диционерами. Ни о каких холодных и горячих коридорах не могло быть и ре­чи. Использовалась устаревшая сис­те­ма бесперебойного электропитания, мощ­ности которой стало недостаточно. Как-то раз мы пробовали отключать питание, и ее не хватило даже на пять минут.

Когда же к нашей системе было подключено еще полторы-две сотни магазинов, нагрузка серверов достигла 95% и их мощностей просто перестало хватать. Надо было искать выход. Можно было бы прибегнуть к услугам аутсорсинговых компаний. Но в 2006 году предложений по аутсорсингу транзакционных систем на рынке не было. Так что фактически безальтернативным вариантом стало строительство собственного ЦОДа.

Какие трудности при этом воз­никли?

Трудности существовали прежде всего в головах. Конференций и семинаров было меньше, о них не было широко известно, мы варились в собственном соку и находились под влиянием всяческого рода мифов.

Первый такой миф связан с тем, что ЦОД — это та же серверная. Зачем нам нужен интегратор, услуги которого к тому же стоят денег? Мы — дискаунтер и не можем себе этого позволить. Миф второй: ЦОД должен быть привязан к тому или иному производителю, будь то IBM, HP, APC и далее по списку. Лучшее решение — моновендорное. Достаточно выбрать этого вендора, и мы автоматически получим оптимальное решение.

Третий: только вендор может сделать грамотный сайзинг оборудования. В-четвёртых, будто бы на ЦОДе можно сэкономить.

В-пятых, считалось, что главное — принять решение, детали второстепенны. При этом на второй план отходило то, что мы находимся в непростой ситуации на арендованных площадях и, следовательно, не можем сами проводить перепланировку помещений, демонтировать коммуникации и делать все то, что нужно для размещения ЦОДа. Когда всё планировалось на уровне бизнеса, полагали, что если возникнут трудности, то заплатим больше — и проблемы решатся. Но есть и другие ограничения, например, связанные с выделением энергетических мощностей.

Шестой миф состоял в том, что переход на новое оборудование — это не проблема. Мы упускали из виду, что при централизованной схеме, когда старое оборудование уже не справляется, а новое еще не работает, возникают многочисленные проблемы. Тем более что практически все критичные системы работают в режиме онлайн.

И наконец седьмой миф: лучшие профессионалы — это дешевые профессионалы, и желательно свои, те, кто занимается оборудованием магазинов и складов. Отмечу, что в 2006 году у нас уже был выбор: пригласить компанию-интегратора, которая всё сделает за нас, — или построить ЦОД самим. Учитывая, что старая серверная была сделана своими силами, совместно с представителями бизнеса мы решили, что сделаем точно такую же новую, и она будет работать. Но за несколько лет, прошедших с момента пуска серверной комнаты, ситуация и требования к оборудованию изменились. В результате, например, неразрешимой проблемой оказался вопрос о размещении стойки весом в полторы тонны при том, что межэтажные перекрытия выдерживают только 800 кг. Наши специалисты просто не стали брать на себя ответственность, если оборудование вдруг провалится в подвал. Так что от варианта всё делать самим пришлось обоснованно отказаться.

И какие последствия имели эти мифы?

Мы потеряли время и деньги, и, естественно, в таких условиях бизнес подвергался значительному риску. Отставание факта от плана составляло от квартала до полутора лет [см. таблицу]. Только выбрать помещение удалось в плановые сроки, хотя оно и арендованное. До многого приходилось доходить самим. Из таблицы можно видеть, что пять из четырнадцати задач изначально нами просто не планировались. Например, оборудование мы взяли в лизинг, но поставщик начал выдвигать условия по его размещению, удовлетворить которые своими силами мы не могли. Это вынудило нас обращаться к услугам соответствующих компаний. А в 2006 году многие из тех, кто говорил, что они умеют делать ЦОДы, на самом деле могли делать это только на бумаге. У тех же, кто в действительности умел что‑то, специалисты расписаны на год вперед.

Были задержки с поставкой оборудования. Вместо января мы получили его в мае. И, надо сказать, хорошо, что случилось именно так, потому что помещение не было готово. Об энергетических мощностях задумались только весной 2007 года. При этом мы полагали, что нам хватит 50 кВт. Именно столько требовало имевшееся оборудование. Когда же нас спросили, собираемся ли мы расширяться и устанавливать системы кондиционирования, ответ, естественно, был утвердительным. Пришлось вносить коррективы в сторону увеличения. Однако такой мощности уже не было, и начались долгие переговоры с энергетиками. Выход удалось найти только после внедрения энергосберегающих технологий — к примеру, мы заменили настольные ПК ноутбуками. Но это обошлось нам в кругленькую сумму.

Завершение работ и пуск оборудования планировались на лето 2007‑го. Но к тому моменту работы фактически только начались. В результате оборудование было запущено лишь в середине ноября. А для розничной компании ноябрь и декабрь дают львиную долю годовой выручки. В эти месяцы, естественно, ни о каком переходе на новый ЦОД не могло быть и речи. Тем более что не было полной уверенности в том, что новое оборудование сразу заработает так, как надо.

Например, у нас был такой опыт: инженер, представляющий вендора, отказывается запускать оборудование, потому что оно не прошло так называемый «цинковый тест». Причем в российском представительстве никто не знает, как его проводить. Запрашиваем головную компанию, и оказывается, что этот тест должен идти в течение шести недель под наблюдением специалистов. А поскольку он был только что введен, таких специалистов было очень мало не только в России, но и во всём мире. Естественно, это влекло новые затраты и потери времени. Вопрос удалось урегулировать: мы обязались заменить процессор, если он покроется цинком, за свой счет, отметив это отдельным пунктом в протоколе о разногласиях, — и только тогда мы запустили серверы без проведения данного теста. В итоге мы переходили на новый ЦОД практически в новогоднюю ночь, в период с 31 декабря по 2 января. Эти тридцать часов — единственное время, которое нам мог дать бизнес-заказчик.

И практически всё это время ушло на докачку свежих данных из базы объемом в восемь терабайт. Или вот такой аспект: первоначально не планировалась установка дизель-генератора. Но однажды наш арендодатель без предупреждения отключил электричество на сорок минут, что называется, «для профилактических работ». А наша старая система бесперебойного питания держит нагрузку всего пять минут при том, что только на штатное отключение серверов нужно не меньше пятнадцати. Нам удалось быстро отключить неосновных потребителей и выделить недостающие десять минут на остановку системы. Но после этого система «поднималась» почти два часа. А что произошло бы, если бы отключение было сделано ночью?.. Так у нас появился дизель-генератор, но лишь совсем недавно этап обеспечения энергобезопасности был завершён.

Неожиданным для нас оказалось то, что любую систему, в том числе SAP, при переходе на новое оборудование надо долго донастраивать. И об этом нам не сказал никто — ни специалисты из SAP, ни интегратор, ни вендор. Нам говорили, что всё будет работать нормально, разве что понадобится что‑то «подкрутить». Мы и «подкрутили», но на это ушло полгода, и более месяца система работала где‑то на 15% от плановой мощности — не лучше, чем на старом оборудовании до миграции.

Как вы оцениваете результаты проекта? Какие выводы можно сделать на основе вашего опыта?

У нас создано комплексное решение. Оно включает помещение, сделанное по всем рекомендациям и с использованием западных стандартов. Сделать это силами наших сотрудников, оборудующих магазины, едва ли было бы возможно. И «на выходе» мы получили опыт. Его можно сконцентрированно изложить в восьми пунктах, причем каждый из них буквально писан слезами, а потом и деньгами, подчас большими.

1. Профессиональные решения делают профессионалы, а их услуги стоят недешево.
2. Никогда не следует пренебрегать альтернативами. И надо просчитывать экономическую эффективность любого варианта, будь то выбор того или иного вендора, решение строить ЦОД самим или использовать аутсорсинг…
3. Дорогие решения не всегда самые лучшие, дешевые — тем более. Нужно выбирать некую золотую середину. Об этом часто забывают при сайзинге.
4. Надо всегда думать о развитии. Об этом мало кто задумывается в начале работ. Мы часто думаем, что уж этой железки нам точно лет на десять хватит. А оказывается, что нет.
5. Формальности никто не любит, но с ними стоит считаться. Установку тех же дизель-генераторов необходимо согласовывать и с СЭС, и с пожарными. Много вопросов с тем, где хранить само оборудование и ГСМ. Урегулирование этих вопросов — процесс долгий и хлопотный, но иначе мы получим запрет на использование этого оборудования.
6. Риски стоят дорого, и иногда лучше щедро заплатить. Тут неплохо было бы оценить стоимость остановки транзакционной системы, скажем, на час.
7. Собственный ЦОД не панацея, решение «иметь или не иметь» всегда индивидуально. Однако возвращаясь назад, мы все же снова выбрали бы строительство своего ЦОДа. Даже на сегодняшний день это более дешевый вариант. Но рынок аутсорсинга будет развиваться, и со временем появятся необходимые мощности, причем скорее всего не в Москве. Потому что все московские ограничения и формальности обходятся очень дорого.
8. Нет таких грабель, на которые нель­зя наступить два раза, а то и больше.

И еще два слова о развитии. Мы создали новый ЦОД, и практически сразу после его запуска пришлось устанавливать целый ряд служебных систем. Например, вспомогательные серверы, которые обслуживают ту же SAP. В старой серверной есть эти служебные машины, и их нужно перенести в новый ЦОД. И тут мы задумались: а почему надо делать именно так? Не лучше ли модернизировать старую серверную целиком, превратить ее в полноценный резервный ЦОД и объединить его с основным? И сейчас мы приступили к реализации этой идеи.