В марте 2008 года в НИВЦ МГУ был запущен суперкомпьютер СКИФ МГУ «Чебышев». До сих пор он остается одним из самых мощных суперкомпьютеров в России. При создании инженерной инфраструктуры этого комплекса применялись системы бесперебойного электропитания, охлаждения и мониторинга от компании APC by Schneider Electric. Об инженерных системах, обеспечивающих работу вычислительного комплекса, мы беседовали с заместителем директора НИВЦ МГУ Владимиром Воеводиным.

Intelligent Enterprise: Как и для чего создавался суперкомпьютер СКИФ МГУ «Чебышев»? Что он представляет собой с технической точки зрения?

Владимир Воеводин: Кластер создавался в рамках и при частичном финансировании суперкомпьютерной программы союзного государства «СКИФ-ГРИД». Это отражено в названии кластера — а они, по традиции, получают собственные имена. Вторая часть названия связана с именем великого русского математика Пафнутия Львовича Чебышева, чья научная и преподавательская деятельность тесно связана с Московским университетом.

Кластер создавался и используется, прежде всего, для поддержки фундаментальных научных исследований. Им пользуются все естественные факультеты и научные институты: физический, химический, биологический, геологический, мехмат, ВМК, Астрономический институт, Институт ядерной физики и многие другие. Кроме того, на нем выполняются учебные практикумы, причем весьма интенсивно, например, по биоинженерии и биоинформатике.

Кластер — центр коллективного пользования. На нем можно одновременно рассчитывать и 20, и 50, и 200 задач. Не нужно приходить в машинный зал, это давно в прошлом. Данные можно загрузить со своего рабочего места, в том числе и через Интернет, и оттуда же запустить расчет. Система управления суперкомпьютером следит за тем, чтобы та или иная задача не выходила за рамки выделенных ей ресурсов. Системы управления дают возможность постоянно осуществлять мониторинг текущей загрузки вычислителя. Сейчас, в момент нашего разговора, свободно восемь процессорных ядер из более чем 4000. Всего активно 46 пользователей, запущено 283 задачи, из них работают 104, ожидают 179. Некоторые из расчетов заблокированы, поскольку превысили выделенные им лимиты на системные ресурсы. При этом из запущенных задач кому‑то выделено 512 процессоров, кому‑то 256, кому 100, а кому‑то два. Вот текущая реальная ситуация. И это в самом начале рабочего дня.

Кластер построен на базе четырехъядерных процессоров Intel Xeon E5472. «Строительным материалом» при этом были двухпроцессорные серверы-лезвия компании «Т-Платформы». Они специально спроектированы в расчете на создание мощных вычислительных установок. Всего в системе установлено 1250 физических процессоров, или 5000 ядер. Это позволяет достичь пиковой производительности 60 Тфлопс. Общий объем оперативной памяти составляет 5,5 Тбайт, дисковой — 60 Тбайт. При этом все узлы имеют доступ к высокопроизводительной файловой системе Panasas. NFS тут работать просто не будет. Узлы связаны тремя независимыми сетями: системной InfiniBand DDR, вспомогательной Gigabit Ethernet, управляющей СКИФ-ServNet+IPMI.

Однако не менее важна для больших установок инфраструктурная часть, и она, в определенном смысле, является ключевой. Я не возьмусь однозначно ответить на вопрос, что сложнее построить: сам вычислитель или его системы бесперебойного электроснабжения, охлаждения, безопасности, пожаротушения, мониторинга.

Комплекс инженерной инфраструктуры строился одновременно с самим кластером? Что представляет собой решение?

Такие работы можно проводить только одновременно. Если все оставить на потом, то работающую систему создать просто нельзя, особенно при таких масштабах. Система потребляет 520 кВт электроэнергии, так что энергоснабжение должно быть соответствующим. Ну и не стоит забывать о том, что при потреблении 500 кВт тепла выделится тоже около 500 кВт. Естественно, система охлаждения должна справляться с таким тепловыделением. При этом крайне велика энергонасыщенность: на каждую стойку приходится 24 кВт, и это тепло нужно надежно отводить.

Предложенное решение на базе технологий APC выполнено с использованием технологии «горячего» коридора. Стойки с оборудованием ставятся в два ряда, и горячий воздух от серверов поступает внутрь пространства между рядами. Стойки с вычислительными системами при этом перемежаются стойками с кондиционерами, эффективно забирающими горячий воздух из замкнутого пространства горячего коридора. Выбор решения оставался за подрядчиком. Нам была нужна законченная система, подходящая для проведения исследований и способная работать в режиме 24×7. Если мы сами начнем выбирать компоненты, мы возьмем на себя не свойственную нам функцию. Каждый должен заниматься своим делом.

Инженерную основу комплекса составляет оборудование APC: источники бесперебойного электропитания, системы охлаждения, рядные кондиционеры. Была применена двухконтурная система охлаждения, когда узлы охлаждаются воздухом, а горячий воздух — этиленгликолем, который, в свою очередь, выводится за пределы здания, и уже там стоят три холодильных агрегата (чиллера). Работает система мониторинга, которая отслеживает с помощью датчиков температуру, влажность, утечки хладагентов. В случае возникновения того или иного инцидента она рассылает оповещения с помощью SMS или по электронной почте. Если тот или иной показатель, к примеру температура в серверной, находится на критическом уровне, система мониторинга сама автоматически отключит суперкомпьютер. Однако не весь комплекс инженерной инфраструктуры был от самой APC, подрядчик «Т-Платформы» использовал сертифицированную систему пожаротушения от российской компании.

Систему оповещения при этом мы настроили сами. Мы приобрели специальный модем, установили внешнюю антенну, чтобы обеспечить уверенную связь из машинного зала. Система оповещения, которую делали «Т-Платформы», позволяет задавать уровень критичности инцидентов, при которых проходит оповещение. Регламентное техническое обслуживание проводят специалисты APC, что происходит ежеквартально, а текущим обслуживанием занимаются наши специалисты.

Пришлось ли столкнуться с какими‑либо сложностями в ходе реализации проекта?

Пришлось, куда же без этого. Главная из проблем — выбор помещения. Далеко не всякое способно выдержать 24 тонны — столько весит весь комплекс. Это плата за высокую плотность размещения и компактность: вся система занимает лишь 98 кв. м, не считая веса охлаждающей жидкости, который тоже составляет несколько тонн. Причем нельзя допускать утечек этой жидкости.

Другой проблемой стал шум. Система охлаждения все‑таки использует воздух. Хотя эту проблему мы успешно решили. Сам суперкомпьютер находится точно под бухгалтерией, и она продолжает работать в нормальном режиме, ни одной жалобы не поступало. Звукоизоляция сделана на самом высоком технологическом уровне. Все делалось так, как это предусмотрено стандартами. Хотя, следует отметить, необходимость проведения таких работ была ясна уже на самых ранних стадиях проекта.

Пришлось вести строительные работы, связанные с укреплением полов, подготовкой помещений, монтажом средств тепло- и шумоизоляции. Корпус довольно старый, 1953 года постройки. Он строился как высоковольтный корпус, но спустя два года, когда был создан НИВЦ МГУ, его передали нам. А строили тогда надежно, так что объем работ был меньше, чем он мог бы быть. Кстати, как раз в этом же корпусе, в этом же помещении в свое время работала первая советская серийная ЭВМ «Стрела», установленная у нас в 1956 году. Она занимала 300 кв. м, потребляла 150 кВт электроэнергии и могла производить 2 тысячи операций в секунду. «Чебышев», для сравнения, может производить 60 триллионов операций в секунду. Так что есть некая историческая преемственность.

Как долго работают инженерные системы? Были ли случаи, когда они подвели или, наоборот, их наличие позволило избежать серьезных сбоев?

За весь период эксплуатации, с марта 2008 года, серьезно электричество отключалось только один раз. Система подбиралась таким образом, чтобы времени работы от батарей было достаточно для корректного завершения всех задач и отключения системы. Так и произошло при сбое. Когда подача энергии была восстановлена, комплекс был запущен, все продолжило работать дальше.

Какой накоплен опыт в эксплуатации системы?

Опыт только один: необходимо все проектировать с самого начала. Поставить сервер или даже стойку с серверами — это совсем не то, что создать серьезную суперкомпьютерную систему. Собрать вычислитель — задача непростая, тут нужны знания, умения, ноу-хау. Но в целом понятно, как это делается. Можно говорить лишь о том, какое решение лучше, а какое хуже для каждой конкретной задачи.

Важность инженерной инфраструктуры часто недооценивают, и очень зря. Ведь проблемы в этой области нарастают по экспоненте по мере роста производительности вычислительных систем. Системы электропитания, охлаждения, шумоизоляции, мониторинга, то, как подготовлено помещение, — вот от чего зависит работоспособность всего вычислительного комплекса. Тут не будет работать ни «охлаждение», когда просто открывается окно, ни система кондиционирования, предназначенная для бытовых условий или офиса. Нужны прецизионные промышленные системы. Не все так просто с расположением установок систем водяного охлаждения. Устройства пожаротушения должны быть только газовыми, использовать воду или порошок нельзя. Это, в свою очередь, требует обеспечения безопасности людей, которые оказались в помещении.

Так что созданию системы нужно уделять самое пристальное внимание. Чуть что сделано не так, она попросту работать не будет, поэтому инженерные проблемы выходят на передний план.

Экономия на инженерных системах в итоге выльется в дополнительные расходы. Сэкономишь на системах бесперебойного питания, особенно имея плохую ситуацию с энергетикой, — рискуешь вывести из строя вычислители. Экономия на системах охлаждения приведет в конце концов к тому, что сам комплекс придется отключать на летнее время, ведь в теплое время года система охлаждения не будет справляться. При неоптимальном выборе система охлаждения зимой будет потреблять столько же, сколько и летом, хотя могла бы использовать даровое охлаждение с улицы. У нас, кстати, зимой основные холодильные агрегаты не задействованы. Так что стоит как минимум трижды подумать, как все это лучше спроектировать. Слишком велик риск получить нечто неработоспособное, особенно если система должна работать всегда.

Как обосновать необходимость выделения средств на создание суперкомпьютеров?

А как обосновать необходимость создания, например, сети автомобильных дорог? Это вопрос к государству. Как и необходимость развития космических технологий. Это вопрос приоритетов. Развитие суперкомпьютеров лежит в этой же плоскости. Это экономика, это инновации, это внедрение новых технологий в промышленности. Это, говоря высоким штилем, вопрос развития нации. Сложно говорить о самоокупаемости таких систем, тем более установленных в обра­зовательных и научных учреждениях, где проводят фундаментальные исследования и обучают тех, кто будет в дальнейшем работать на таких установках. Речь идет, ни больше ни меньше, об интеллекте и потенциале нации.

Алексей Солодовников,
руководитель подразделения Schneider Electric Datacenter Solution Team

В настоящее время в МГУ полным ходом завершаются монтажные и начинаются пусконаладочные работы по новому суперкомпьютеру — Т-500 с проектной вычислительной мощностью 500 Тфлопс. В этом проекте были впервые в российской практике использованы объединенные возможности компании Schneider Electric по созданию инженерных систем ЦОДа. Помимо двух ИБП Symmetra MW мощностью 1,6 МВт каждый и ISX-решения для машинного зала (монтажные стойки для серверов, прецизионные кондиционеры, комплекты герметизации «горячего» коридора и т.д.) был применен, в частности, способ передачи выходной мощности от ИБП потребителям с помощью не кабелей, а шинопроводов. Есть и еще ряд совершенно уникальных инженерных показателей, достигнутых в этом проекте, но не хочется слишком сильно забегать вперед. Осталось дождаться ввода Т-500 в эксплуатацию, и можно будет выпускать новый номер IE, посвященный отечественным суперкомпьютерам, нашим позициям в мировом рейтинге HPC (High-Performance Computing), ну и конечно же, тем инженерным системам, которые обеспечивают работу нового флагмана российских высокопроизводительных вычислений.