В октябре 2011 г. Федеральная служба по гидрометеорологии и мониторингу окружающей среды (Росгидромет) запустила в эксплуатацию первую очередь нового вычислительного кластера. Он предназначен для решения задач обработки гидрометеорологических данных, моделирования и прогнозирования процессов в атмосфере и океане.

Это высокопроизводительное решение служит российским метеорологам инструментом для дальнейшего развития оперативных технологий, помогая повышать точность и детализацию прогнозов погоды. О том, как шли работы по этому проекту, как решались задачи, связанные с обеспечением бесперебойной работы вычислительных систем, мы и беседовали с директором ГВЦ Росгидромета Владимиром Анцыповичем.

Intelligent Enterprise: Что послужило толчком к запуску нового кластера? Ведь предыдущая система, казалось бы, вполне приличной вычислительной мощности была установлена не так давно, на рубеже 2008–2009 гг.?

Владимир Анцыпович: Климат изменяется, и ущерб от опасных природных явлений растет. Это происходит по всему миру, и наша страна – не исключение. Причем 90% этого ущерба, по крайней мере в денежном выражении, приходится на те случаи, которые вполне можно прогнозировать и соответственно вовремя к ним подготовиться. Это наводнения, паводки, сильный ветер, осадки, град, засухи. В 2010 г. прямой ущерб только сельского хозяйства от засухи составил более 250 млрд руб. А кроме засухи, были и другие проблемы.

Создание системы прогнозирования и предупреждения таких явлений способно существенно уменьшить ущерб. За счет этого, например, в 2010 г. наша деятельность принесла 24 млрд руб. прямого экономического эффекта. И использование новых технологий здесь неоценимо. Прогнозирование погоды сводится к решению задач гидродинамики, что требует больших объемов вычислений.

Так что далеко не случайно, что гидрометеорология стала одной из первых отраслей, где начала активно применяться вычислительная техника. Это произошло еще в 1950-е гг. В последнее время именно использование высокопроизводительных вычислений позволило добиться от прогноза на трое суток той же достоверности, какой десять лет назад можно было ожидать только от прогноза на одни сутки. Появилась возможность давать достоверный прогноз даже за десять суток, о чем раньше нельзя было и мечтать.

На предыдущем этапе некоторые модели были на стадии исследований. С установкой упомянутого вами вычислителя приняло взрывной характер внедрение в оперативную практику глобальных моделей с шагом 30–40 км и мезомасштабных моделей с шагом 2–7 км в течение двух лет. И ресурсы вычислительного кластера мощностью в 27 терафлоп практически были исчерпаны за этот период. Кроме того, уже существующий потенциал дальнейшего эффективного использования моделей, включая те исследования, которые велись ранее и продолжают вестись, показывает, что для успешного использования решения этих моделей нам необходимо увеличить вычислительные мощности минимум в 10–15 раз. Наше руководство поставило задачу обеспечить производительность вычислителей на уровне 0,5 петафлопа, а в перспективе и больше. Только так можно решить задачи, связанные с повышением точности и достоверности прогноза погоды. Так, например, необходимо учитывать в используемых моделях процессы не только в атмосфере и океане, но и в почве, растительном и животном мире, а также связанные с деятельностью человека.

И решение этой задачи было далеко не простым. Прежде всего, нам нужна была система с высоким уровнем энергоэффективности. В центре Москвы, где находится ГВЦ Росгидромета, выделение необходимых электрических мощностей трудно обеспечить. Кроме того, система должна быть компактной, так как площадь вычислительных залов тоже является дефицитным ресурсом. Но при этом система должна иметь значительные резервы для дальнейшего наращивания вычислительной мощности. И кластер разработки группы компаний РСК, которая стала нашим поставщиком и интегратором необходимых для кластера решений, оказался одним из тех, который удовлетворял этим требованиям, соответствуя достаточно жестким критериям Росгидромета, предъявляемым к вычислительным комплексам на современном этапе.

Используемый у нас кластер основан на инновационной архитектуре «РСК Торнадо» с использованием жидкостного охлаждения для массово доступных стандартных серверных плат на базе процессоров Intel Xeon, изначально создававшихся для традиционных систем с воздушным обдувом электронных компонент. На текущий момент пилотная кластерная система, установленная в Росгидромете, состоит из 96 вычислительных узлов (с пиковой производительностью 15,33 терафлоп), каждый из которых содержит по два процессора Intel Xeon 5680 с тактовой частотой 3,33 ГГц. Объем оперативной памяти на один узел составляет 48 ГБайт (4608 ГБайт у всей системы). Коммуникационная сеть построена на базе интерфейса Infiniband QDR. Важная особенность – использование жидкостной системы охлаждения. Она позволила добиться чрезвычайно высокой энергоэффективности данного решения: на отвод тепла, по данным поставщика, теперь уходит менее 6% от общего энергопотребления. При этом новый вычислительный кластер Росгидромета продемонстрировал рекордно высокий коэффициент вычислительной эффективности – более 92% на тесте LINPACK. Пока проект находится в начальной стадии.

Каково максимальное время простоя систем? Каким образом обеспечивается непрерывность работы?

Простой вычислителей недопустим в принципе. Обеспечение непрерывности работы достигается за счет резервирования основных систем. В основном мы ориентируемся на схему резервирования "N+1". Это касается как непосредственно вычислительных мощностей, так и элементов инженерной инфраструктуры. В итоге в наших системах мы пытаемся не иметь единой точки отказа.

Насколько непрерывность функционирования систем достигается техническими мерами, а насколько организационными?

О кластере РСК пока говорить рано. Проект находится на слишком ранней стадии эксплуатации. Речь для нас идет, по большому счету, об испытательном стенде.

Если же говорить о продуктивных системах, то, по моей оценке, на технические меры приходится около 70%, на организационные, соответственно, 30%. Хотя есть один нюанс: технические средства постоянно меняются, в то время как организационные остаются практически неизменными. Например, многие принципы наших политик и регламентов в области построения оперативных технологий не изменились с 1960-х гг. А тогда мы добились того, что могли обеспечивать круглосуточную работу с использованием систем М-20. У этих ламповых машин наработка на отказ не превышала 15 минут. Это достигалось сменной работой команд инженерного персонала, которые реагировали буквально на каждое отклонение от нормы. Да и сами регламентирующие документы были куда жестче. Сейчас держать сменный персонал нет необходимости, тем болеечто неисправности можно диагностировать в удаленном режиме, и дать рекомендации по их устранению тем, кто находится на месте. А некоторые проблемы, прежде всего связанные с ПО, можно и устранять в удаленном режиме. Одним словом, в 1960-е гг. центр тяжести был на инженерных службах, а сейчас – на операторских, на которые приходится до 90% всех операций по обслуживанию систем. Сфера деятельности инженерного технического персонала существенно сузилась, но заметно возросла нагрузка на специалистов, которых можно отнести к классу администраторов систем.

У ГВЦ Росгидромета большой опыт использования систем с жидкостным охлаждением. Однако это тема окружена большим количеством всевозможных пугающих мифов. Насколько эти страхи оправданны? Подтверждаются ли они реальной практикой?

Системы с использованием жидкостного охлаждения, подводимого непосредственно к вычислительным узлам, мы применяем с 1996 г. Комплекс Cray Y-MP, который мы использовали долгое время, относился как раз к таким. И это была очень надежная система. Некоторые другие модификации Cray (например, Cray 2), где использовался жидкий азот, – в нашем понимании, конечно, экзотика. Количество реально работающих систем этого класса измерялось единицами, и некоторые из этих систем даже так и не были смонтированы.

Современные массовые системы довольно хорошо проработаны. А мы всегда стараемся экспериментировать только на системах с отработанными технологиями. Та же архитектура «РСК Торнадо», например, не использует нестандартных узлов, как большинство прежних систем с жидкостным охлаждением. А как кластер покажет себя в обслуживании – посмотрим. На это и существует испытательный стенд, включенный в технологии оперативного цикла.

Зато использование жидкостного охлаждения решило массу проблем. В серверной, где находится кластер на базе «РСК Торнадо», практически нет шума. А там, где находится ранее установленный кластер, шум мешает разговаривать даже в повышенном тоне. С учетом повышенной, по сравнению с воздухом, теплоемкости жидкого хладагента эффективней производится отбор тепла в вычислительных узлах и меньше энергии тратится на поддержание температурного режима. К тому же именно использование жидкостного охлаждения позволило уменьшить объем кластера за счет более плотного расположения вычислительных элементов. Система производительностью в 15 терафлоп занимает две стойки (вместе с коммуникационным и холодильным оборудованием). При планируемой замене процессоров (при тех же 96 узлах) мощность кластера будет увеличена до 30 терафлоп. Физический объем кластера останется прежним. Другой же наш кластер, запущенный в 2009 г., при мощности в 27 терафлоп занимает 18 стоек.

Хотя без проблем с жидкостным охлаждением не обошлось. Так, например, в процессе эксплуатации "старого" кластера в радиаторах системы охлаждения был обнаружен осадок. По всей видимости, система водоподготовки не смогла в полном объеме устранить посторонние примеси. Выполнение контура охлаждения с применением высококачественных пластиковых трубопроводов и двух фильтров, один из которых вихревой, а другой – барьерного типа, не справились с этой задачей. С привлечением специалистов проведен анализ воды в контуре охлаждения, полностью промыта система и добавлен специальный реагент. Мы надеемся, что полностью решили эти вопросы.

Довольно серьезной проблемой остается также повышение массы оборудования на единицу площади. Эта проблема не определяется весом охлаждающей жидкости. В большинстве случаев приходится нести затраты на подготовительные строительные работы. Но наше здание постройки середины 1960-х гг. рассчитано именно на установку вычислительных комплексов того времени, которые были весьма и весьма массивными. По тогдашним нормам, это 2 т на квадратный метр. А вот здания, построенные в 1970–1990-е гг., имеют перекрытия, не рассчитанные на большие нагрузки, и тут могут возникать сложности. Их проектировали в расчете на то, что удельная масса оборудования не будет превышать 600 кг на квадратный метр. О совсем старых зданиях, где не редкость и деревянные перекрытия, можно даже не говорить.

Как у вас решается проблема обучения и переподготовки кадров? Вы уже говорили, что технологии постоянно меняются, и многие старые навыки неприменимы к новым системам.

Вы затронули одну из сложнейших для нас проблем. И я благодарен персоналу, который здесь работает. Это преданные и долго работающие люди, с колоссальным опытом работы. Но все мы стареем. У нас почти нет притока молодежи, что связано и с невысоким уровнем заработной платы, и с большим объемом работы. И тем не менее у нас есть немного очень перспективной молодежи, которую здесь держит многообразие технических средств и возможность получить прекрасную практику в области информационных технологий.