Тема анализа больших данных в последние несколько лет, что называется, на слуху. Причем интерес этот уже давно вошел в сугубо практическую плоскость, и интересует не то, что такое большие данные, и для чего средства их анализа можно применить, а уже то, как такие решения внедрять. О некоторых практических аспектах мы поговорили с Романом Барановым, руководителем направления Analytics & Big Data компании КРОК.

На рынке присутствует утверждение, что большие данные — это маркетинговый термин, за которым ничего нет. Чем можно возразить?

Роман Баранов: Действительно, средства анализа больших данных самим фактом своего использования в организации всех проблем не решат. Это лишь возможность обрабатывать большие объемы структурированных и неструктурированных данных с целью получения бизнес-пользы при минимальных затратах. Ставить задачи, где требуется применение этой технологии, должен бизнес, который только начинает мыслить в нужных парадигмах. Поэтому роль системного интегратора заключается в том, чтобы предлагать заказчикам решения аналитики больших данных, ориентированные не на ИТ, а на бизнес-пользователей и их бизнес-требования. Кроме того, нужно понимать, что под термином «большие данные» понимается целый ряд технологий, и обсуждать концепцию в целом не совсем корректно. Стоит говорить про конкретные технологии. В первую очередь, это движок Hadoop и массивно-параллельные базы данных (МПП БД). И если Hadoop, действительно, появился на рынке не так давно, и многие компании еще не до конца понимают, как эффективно применять эту технологию, то МПП БД существуют уже много лет и успешно применяются в бизнесе для построения масштабных аналитических систем. Появление новой концепции никак не повлияло на применимость данной технологии. Что же касается Hadoop, то тут несколько сложнее. Эта технология уже успешно используется ИТ-специалистами для решения технических задач, в первую очередь связанных с производительностью. Ее востребованность можно наблюдать даже на рынке труда – количество вакансий в этой области продолжает расти.

Насколько решения по обработке больших данных востребованы в России? В каких отраслях?

Решения востребованы и опосредованно используются практически всеми крупными компаниями. Достаточно спросить службу безопасности или финансистов, какими интернет-сервисами они пользуются для проверки контрагентов. В частности, ряд отечественных разработок для мониторинга рынка и анализа информации из открытых источников вполне могут претендовать на звание инструментов, разработанных с использованием подходов обработки больших данных.

Со своей стороны, мы уже попробовали создать аналогичные сервисы с использованием подходов Big Data и можем однозначно сказать, и сроки и трудозатраты значительно меньше, чем при классическом подходе к реализации.

Опять же вернусь к разделению технологий. Что касается технологии Hadoop, то основное ее назначение – это аналитика полезной для бизнеса неструктурированной информации, наибольшее количество которой находится в интернете. Таким образом, подобные решения используются в первую очередь для анализа больших объемов данных из глобальной сети, в том числе и из социальных сетей. Выделить отдельные отрасли тут сложно, в той или иной степени это интересно всем игрокам рынка, активно работающих в интернете и социальных сетях.

Массивно-параллельные базы данных используются в первую очередь в отраслях, где традиционно обрабатывается много информации и присутствует серьезная конкуренция. Это телекоммуникационные компании, банки, розничная торговля и страхование. Например, сейчас мы реализуем проект по миграции всего хранилища данных на EMC Greenplum в одной крупной страховой компании. В результате внедрения заказчик получит значительный рост производительности при снижении стоимости по сравнению с традиционными решениями по управлению базами данных.

Расскажите поподробнее об этом проекте.

В этой компании уже было хранилище данных, но потребности росли, и в какой-то момент решение перестало удовлетворять требованиям заказчика к производительности. В итоге значительная часть потенциала, связанного с возможностями, которые может дать анализ данных, оказывалась нереализуемой.

Мы предложили провести миграцию этого хранилища данных на платформу EMC Greenplum. Эта платформа обладала наиболее оптимальным соотношением цены и производительности по сравнению с конкурентами, а также требовала минимума усилий по миграции данных с прежнего решения. Кроме того, EMC использует движок Hadoop со значительными доработками, связанными с информационной безопасностью, лучшей оптимизацией под используемую аппаратную платформу и расширенными функциональными возможностями в целом.

Какие технические решения необходимы для того, чтобы внедрять системы обработки больших данных? Насколько хорошо работают эти системы анализа в виртуальных и облачных средах?

Очень важное преимущество систем аналитики больших данных заключается в том, что они построены по принципу массивно-параллельной архитектуры. Другими словами, состоят из большого количества независимых серверов, которые вместе решают одну общую задачу. В архитектуру подобных решений по определению заложена большая отказоустойчивость. То есть все данные хранятся на нескольких узлах, и выход из строя одного из них не сказывается на функциональности всей системы в целом. Кроме того, это именно тот случай, когда количество переходит в качество, и общая производительность системы легко увеличивается простым добавлением новых серверов. Таким образом, здесь можно использовать не самые дорогие сервера, увеличивая лишь их количество. Тем самым мы добиваемся заявленной самой концепцией дешевизны хранения и обработки данных.

Однако, исходя из упомянутых выше особенностей, мы получаем то, что системы класса Big Data хорошо работают именно на реальных серверах с локальными накопителями. То есть использование этих технологий в виртуальных средах возможно, но, пожалуй, не очень оптимально.

Также хотелось бы обратить внимание и на то обстоятельство, что большая часть современных систем хранения данных (СХД) не подходит для обработки Big Data. Это объясняется тем, что возникает «эффект бутылочного горлышка», связанный с необходимостью передачи больших объемов данных по сети. Поэтому чаще всего выбирают программно-аппаратные комплексы с локальными дисками.

Какие сложности могут быть при внедрении систем анализа больших данных?

Ключевая сложность одна и вполне понятна – это выбор правильного подхода к решению бизнес-задачи. В частности, если речь идет об анализе информации из интернета, то даже бизнес-пользователи понимают, что средства аналитики больших данных – как раз то, что нужно. Но далеко не все архитекторы решений могут адекватно оценивать применимость таких инструментов при решении «классических задач», например, создания хранилищ данных и документов.

Другая сложность на текущий момент заключаются в малом количестве профессиональных специалистов. Если мы говорим про Hadoop, то технология еще молода, и рынок еще не успел сформировать достаточное сообщество специалистов требуемой квалификации. Поэтому внедрение подобных решений самостоятельно – под силу далеко не каждой компании, без помощи компетентного интегратора в этом вопросе не обойтись.

Также проблемой может обернуться недостаточный уровень зрелости организации, решившей работать с большими данными. Компания должна понимать ценность аналитики неструктурированной информации, и перед внедрением нового инструмента нужно как минимум иметь собственное хранилище структурированных данных и уметь извлекать из них пользу.

Экономика проектов. За счет чего достигается ROI?

Здесь можно провести аналогию с проектами построения хранилищ данных. Как можно оценить ROI в этом случае? Обычно это стратегическое решение, внедряя которое компания получает конкурентное преимущество за счет более точной и долгосрочной оценки ситуации. Более адекватная оценка окружающей действительности позволяет принимать грамотные и взвешенные решения, с опорой на аналитику. То есть изменить ROI прямыми методами - крайне непросто.

Но если пойти другим путем и сравнить решение задачи с использованием классического инструментария, то есть с внедрением обычной СХД и пр., и сценарий применения модного тренда Big Data, то стоимость лицензий и дальнейшего сопровождения почти всегда дешевле во втором сценарии.

Насколько велико влияние человеческого фактора? Возможно ли его минимизировать?

Влияние человеческого фактора исключается одним грамотным архитектором с багажом выполненных проектов и парой ведущих разработчиков, которые смогут контролировать создание решения для обработки больших объемов данных с использованием правильных подходов. В дальнейшем, с переводом решения хотя бы в опытную эксплуатацию, с ним начинают работать аналитики, уже привыкшие использовать тот или иной инструментарий BI, Data Discovery или т.д.

Еще года два назад мало какой инструментарий поддерживал любые решения анализа больших данных, но уже сейчас большинство вендоров предлагают коннекторы и перенос части логики на сторону систем обработки данных. Все, что надо сделать сейчас, – это подключить к решению привычный для аналитиков инструментарий и объяснить особенности работы в новой среде. При необходимости можно дополнить этот минимум специализированными семинарами по использованию дополнительных методик анализа данных.