Проект под названием massive data компании «Деловая среда» — дочернего предприятия Сбербанка — направлен на решение задач обработки больших данных (Big Data) в финансовой отрасли. О том, как развивается проект, каких целей он позволяет достичь и можно ли считать его развитие инновационным направлением, рассказывает ИТ-директор «Деловой среды» Владимир Труфанов.

Intelligent Enterprise: О концепции Big Data, о соответствующих методах обработки информации и о конкретных программных системах сейчас говорят очень много. И уже кажется, что эту концепцию должны глубоко освоить по крайней мере крупные предприятия. И все-таки — видите ли вы в ней инновационное направление?

Владимир Труфанов: Big Data действительно является одним из важнейших направлений инновационной активности современных предприятий, а в финансовой отрасли это, пожалуй, особенно заметно. Я думаю, следует иметь в виду две составляющие данного вопроса: технологическую и организационную. О первой говорят гораздо чаще, но скажем об этом и мы.

Решая аналитические задачи, крупные коммерческие предприятия опирались (да во многом опираются и сейчас) на многомерный анализ или на OLAP-технологии. По сути это инструмент в руках менеджеров, дающий им возможность проводить необходимый анализ быстрее. Они выполняют запросы оперативно, часто даже в режиме реального времени, порой и не обращаясь к программистам. Но при этом они по сути пользуются своими управленческими приемами анализа информации, которые применяли всегда.

Когда информации появляется слишком много, когда она становится очень детальной, OLAP-системы не справляются с потоком данных, а если бы и справлялись, то быстрое выполнение разного рода информационных агрегаций и фильтров, на что собственно и направлен основной функционал OLAP-систем, никакой пользы в такой ситуации все равно не принесло бы.

Методическая основа Big Data, можно сказать, совсем не менеджерская. Она основана на применении ряда математических дисциплин — линейной алгебры, статистики, кластерного анализа, нейронных сетей и других. Причем уровень использования такого фундамента весьма высок. Подготовка исходных данных, их загрузка в хранилища, а затем непосредственно в ИТ-систему — это тоже целый проект, требующий владения определёнными информационными системами, технологиями, инструментами программирования, а в некоторых случаях той же математикой. Тем не менее практический эффект от подобных методов в бизнесе оспариваться уже никем не может.

«Деловая среда», предоставляя информационные сервисы другим компаниям, очевидно, должна как-то учитывать все эти особенности…

Если говорить об ИТ-сервисах из области Big Data, то здесь мы целиком сосредоточились на финансовой сфере или, выражаясь современным языком, на финтехе. В данном случае я отношу сюда и такие сервисы, как, например, факторинг, страхование и некоторые другие. И только что перечисленные особенности, равно как и наш предшествующий опыт, мы конечно же пытаемся использовать в максимальной степени. До этого мы, разумеется, уже взаимодействовали с компаниями группы «Сбербанк», а также с некоторыми другими финансовыми организациями и понимали проблемы финансовой отрасли. Нынешняя стратегия «Деловой среды» в сфере построения ИТ-сервисов, основанных на концепции Big Data, направлена на то, чтобы взаимодействовать со многими, в том числе крупнейшими, российскими финансовыми институтами, такими как «Тинькофф», «Открытие», «Зенит», ВТБ. На собственной практике мы в общем наблюдаем универсальную картину. Менеджменту требуется аналитическая обработка большого количества первичных данных, результаты нужны бизнесу, что называется, вчера, собственный ИТ-отдел не может полноценно вкладываться в эти задачи, а данные устаревают очень быстро.

Создавая модель предоставления ИТ-сервисов, мы изучали рынок и за основу взяли функционал известной платформы Kaggle. Ее услугами пользуются многие мировые компании (в том числе крупные), желающие в кратчайшие сроки справиться с не традиционными для себя аналитическими задачами, которые в рамках традиционных для любого бизнеса процессов оперативной обработки данных, как правило, никогда не решались. Но это не услуги доступа к некой системе в режиме SaaS. Механизм тут совсем другой.

Компания объявляет своего рода конкурс, предусматривающий вполне определенное вознаграждение за решение задач и отводит для этого определенное время. Она может загрузить на сайт Kaggle свой набор данных, а у Kaggle в свою очередь есть ресурс внешних исполнителей и набор онлайн-инструментов для тех, кто профессионально решает задачи Big Data.

Заимствуя данную модель, мы хотели максимально приспособить ее для отечественного финтеха и сейчас, при ее развитии, последовательно решаем именно эту задачу.

Формирование такой платформы помимо решения технических задач, очевидно, требует массы организационной и методической работы. Необходимо поставить четкие цели, определить возможных заинтересованных участников, выяснить мотивацию каждого из них. Нужно, чтобы все процессы работали эффективно и чтобы при этом соблюдались все требования безопасности, внутрикорпоративные правила и даже государственное законодательство. Думается, это не такие уж простые задачи…

Конечно, прежде чем приступать к созданию платформы, все эти вопросы мы себе задавали. Цели проекта тут, однако, наиболее просты и прозрачны. Это оперативное высококачественное решение актуальных отраслевых задач категории Big Data.

Что касается заинтересованных участников, то тут мы решили создать своего рода замкнутую экосистему. Помимо «Деловой среды», выступающей в роли некоего модератора, здесь присутствуют партнеры — call-центры, лидогенераторы и другие компании, работающие с конечным заказчиком. Они генерируют заказ на тот или иной банковский продукт и могут получить на него скидку для последующей перепродажи конечному клиенту. Здесь же, как я уже говорил, присутствуют банки, которые собственно заказывают решение аналитических задач. Разумеется, есть инфраструктура внешних разработчиков. Они выполняют необходимую работу, получая за это оговоренное вознаграждение. Изначально предполагается, что весь положительный опыт решения задач Big Data, который нам удастся накопить при взаимодействии с другими банками, будет обобщаться и впоследствии использоваться Сбербанком. Таким образом, интерес всех участников проекта был соблюден.

Безусловно, надо было подумать и о выполнении необходимых требований, прежде всего относящихся к безопасности. Вообще созданием безопасных каналов с участниками группы «Сбербанк» мы, разумеется, занимались и до этого проекта, а теперь надо было распространить свой опыт на общение в его рамках с внешними компаниями. Отдельный вопрос безопасности — обеспечение деперсонификации тех исходных наборов данных, которые представляют нам заказчики. Без этого наша общая деятельность оказалась бы просто нелегитимной.

Ну и, конечно, сама деятельность по проекту должна быть максимально эффективной. В международной практике, которую, повторю, мы тщательно изучали, были примеры, когда в силу неэффективности работ на каком-то этапе задача либо не решалась вовсе, либо решение представлялось не вовремя, либо оно давалось ценой таких затрат, которые превышали получаемый эффект.

Чтобы быть эффективными в общих чертах, мы исповедуем следующие принципы. Решение задач класса Big Data коммерческим рынком пока еще не освоено, опыта по организации соответствующего процесса у компаний тоже очень мало, да и сам процесс весьма специфичен. В этой ситуации мы берем на себя роль консультанта. У нас есть специалисты класса Data Scientists. Сами не решая никаких задач, они заняты лишь конвертацией полученных от клиента данных в такие наборы, которые могут считаться полностью готовыми для той или иной задачи. То есть эти специалисты анализируют поступившую от клиента информацию и отмечают имеющиеся недостатки. Какие-то из найденных недостатков они могут устранить сами, а в каких-то случаях вынуждены вновь обращаться к заказчику за уточнениями. И так продолжается, пока набор данных не станет полностью соответствовать всем требованиям.

Выстраивание работы с сообществом, решающим задачи, тоже требует отдельного методического подхода. Сейчас пул наших внешних парт­неров насчитывает более двухсот пятидесяти коллективов. Мы, разумеется, должны тщательно следить за профилем их активности и имеющимся портфолио, классифицировать эти коллективы в соответствии с теми задачами, которые они могут и готовы решать. Необходимо собрать максимально полный набор критериев оценки разработчиков, присваивать им некие рейтинги и т. д. В то же время нам следует оставаться открытыми и сохранять возможность для новых участников оптимальным образом встроиться в уже сложившуюся и работающую экосистему. Это тоже методическая работа.

И наконец, обобщение опыта, выработка неких лучших практик, формирующихся по результатам решения множества отдельных задач, тоже в известной степени базируется на методических подходах.

Одним из базовых принципов для нас является переход от ручной работы к автоматизированной. Не стоит забывать, что наша платформа является не только средством решения определенных задач, но и призвана обслуживать работу по всем сопутствующим вопросам, возникающим в ходе взаимодействия участников процесса. Поначалу было много «ручного» труда, но общий вектор совершенствования платформы состоит в том, чтобы на любом этапе решения задач автоматизировать все операции в максимально возможной степени. Это касается и деперсонификации данных, и автоматической их загрузки по заранее сформированному регламенту, и информационной поддержки ряда чисто бюрократических процедур.

Для решения новых для бизнеса задач информатизации сейчас все чаще практикуется проведение так называемых хакатонов, которые постепенно превращаются в довольно популярный и уже достаточно отработанный механизм поиска эффективных решений. Этот инструмент вы как-то применяете в своей работе?

Да, хакатон проводился в том числе и в рамках решения тех задач, о которых у нас идёт речь. Позволю себе, однако, вернуться к нашей платформе. То, о чем мы сейчас говорили в контексте нашей работы или деятельности упомянутой Kaggle, представляет собой соревнование. В данном случае мы имеем задачу, заранее заданные сроки ее решения, бюджет вознаграждения и пул потенциальных исполнителей. Связанный с решением задачи процесс запускается, функционирует и завершается исключительно в электронной среде в соответствии с процедурами, которые нами же и разработаны. Очно ни с заказчиками, ни с исполнителями, ни с разработчиками в подавляющем большинстве случаев мы не встречаемся.

Хакатон, как известно, мероприятие очное. Исполнители собираются вместе на очень короткий период времени (обычно не более двух дней) и в обстановке, предусматривающей и конкуренцию, и интенсивное сотрудничество, вырабатывают решение поставленной задачи.

На первом этапе, еще только приступая к данному проекту Big Data, мы как раз провели такой хакатон. Собрали исследователей данных вместе (посмотреть на их коллективную работу «вживую» тоже бывает крайне полезно), необходимым образом подготовили данные Сбербанка и предоставили их им для работы. В результате хакатона решение искомой задачи было получено. А кроме того, стало ясно, что совместная работа внешних профессиональных коллективов при условии методически грамотной подготовки и правильного проведения имеет очень хорошие перспективы.

Хотелось бы услышать и о том, какие продукты и технологии в основном задействованы в решении обсуждаемых нами задач и специалистов какого профиля следует нанимать для этой цели.

Прежде всего у нас, как, я думаю, и во всех проектах, связанных с интенсивной обработкой больших данных, применяется Hadoop. Ключевой технологической платформой, которая сейчас очень популярна у Data Scientists, является также Jypiter. На ней проводится значительная часть работы: можно, скажем, загрузить обучающую выборку, запустить необходимый сценарий ее обработки, оперативно визуализировать полученные данные и т. д. Ну и, наконец, для решения конкретных задач служат языки программирования — прежде всего R и Python. Тут, впрочем, важны не столько сами языки, сколько богатая инфраструктура их библиотек, связанных с глубокими математическими методами обработки данных.

Что касается специалистов, то ключевыми в данном случае конечно же являются Data Scientists. Потребность в остальных в значительной степени определяется необходимостью использования ИТ-инструментов. Иными словами, всегда нужен администратор Hadoop, а также программисты, владеющие упомянутыми мною языками. Не исключено, что специфика задач Big Data может потребовать и других платформ, с которыми тоже должны будут работать соответствующие специалисты.

С Владимиром Труфановым беседовал ведущий эксперт Intelligent Enterprise Сергей Костяков