Хорошо известно, что бизнес сотовых операторов тесно связан с генерацией огромных объемов первичной информации, основную долю которой составляют клиентские данные. Они же могут помочь бизнесу принимать адекватные решения, и здесь большую роль играет информационное хранилище. О том, как продукт этой категории внедрялся в компании Tele2, какие изменения в культуру ведения бизнеса он привнес, рассказывает Ника Пономарёва, руководитель департамента систем машинного обучения и бизнес-анализа Tele2.

Intelligent Enterprise: Прежде всего хотелось бы, чтобы вы рассказали, насколько важно единое информационное хранилище для вашего бизнеса, какие задачи оно помогает решать и какие категории сотрудников могут его использовать.

Ника Пономарёва: Крупный сотовый оператор на современном рынке по определению имеет дело с огромными массивами данных, которые используются в компании для самых разных целей. Это и маркетинг, и продажи, и финансовая деятельность. Если говорить о приемах обработки информации, то речь также идет о целом спектре методов — от регулярной отчетности до ad-hoc-анализа и машинного обучения. Соответственно и потребителями данных, непосредственно работающими с ними, тоже могут быть представители всего бизнеса — начиная от специалистов различных бизнес-подразделений, которые могут быть далеки от технологий обработки данных, и заканчивая аналитиками и учеными по данным (data scientists), использующими в своей работе самые современные инструменты. При этом важно всем бизнес-функциям компании обеспечить единую версию правды — как на уровне управленческих KPI, так и по детальным срезам.

Хранилище информации — это такой термин, который формально подходит к любому информационному продукту, способному сохранять хоть какую-то информацию, и поэтому при обсуждении вопросов автоматизации бизнеса он употребляется очень часто. А подразумеваться здесь могут самые разные системы, в то время как серьезные промышленные хранилища пока внедрены в очень немногих компаниях…

Зачастую хранилище данных для определенных целей бизнеса внедряется не потому, что его вовсе нет в компании, а потому, что хранилище, которое есть, нецелесообразно использовать для решения определенного класса бизнес-задач. Подобная ситуация складывалась и у нас. Использование операционного хранилища транзакционных данных в аналитических задачах не позволяло развивать процессы бизнес-анализа и целевого маркетинга. В результате пришлось создавать единое корпоративное хранилище данных — EDW. А чтобы как можно скорее начать возврат инвестиций, первым результатом и первой системой, запущенной на EDW, стал Campaign Management — основной инструмент целевого маркетинга. Эту задачу мы решили в начале уходящего года, запустив продукт сначала в Москве, а затем и в других регионах.

Но связывать хранилище только c системой управления кампаниями не следует. Одна из основных задач состояла в том, чтобы предоставить бизнесу максимальную свободу в использовании данных с минимальным привлечением ИТ-специалистов. Ну и, конечно, для нас важно было, чтобы новый инструмент обеспечивал возможность работы с данными через BI-интерфейсы и был удобен аналитикам, разговаривающим с ним на R или Python.

Каковы были критерии выбора хранилища?

Забегая немного вперед, скажу, что мы остановили свой выбор на продукте Integrated Data Warehouse компании Teradata.

Изначально основным условием для нас была возможность работы продукта с основными базами данных и ключевыми технологиями, которые есть в Tele2. Мы, как, наверное, большинство компаний в нашей отрасли, имеем очень широкий спектр ИТ-продуктов и при этом не ориентируемся на какого-то одного вендора. Очень большое значение для нас имели способность параллельной обработки информации и возможность предельно оперативно загружать данные из разных источников. Поток данных в хранилище огромен, процессы их загрузки и обработки идут постоянно.

В настоящее время эффективность работы с большими данными (а это безусловно наша тема) в ряде сценариев может быть существенно повышена за счет использования известных и хорошо зарекомендовавших себя на корпоративном рынке продуктов категории open source. Интеграции коммерческого ПО (и хранилищ, наверное, в особенности) с такими системами ИТ-вендоры сейчас уделяют довольно большое внимание как в техническом, так и в маркетинговом плане. Такой подход мы видим и у Teradata. Мы всё это тоже держали в голове, но это не было критерием выбора корпоративного хранилища данных. Кроме того, open source-продукты по определению являются открытыми. Можно настроить их внутренний функционал и «заставить» работать совместно с многими ИТ-системами. Для этого нужны соответствующие специалисты и адекватная постановка задачи. Протестировать же, скажем, Hadoop или Cloudera внутри компании вполне можно, объединив между собой несколько относительно простых компьютеров.

Иными словами, интеграция открытого ПО в корпоративный ИТ-ландшафт является для бизнеса актуальной, но при этом вполне самостоятельной задачей. И к выбору хранилища данных в этом проекте она прямого отношения не имела.

Как проходил непосредственно процесс внедрения, какие методические акценты при этом делались? Повлияло ли внедрение хранилища и его последующая эксплуатация на работу ИТ-подразделения в целом и на те принципы, в соответствии с которыми оно выстраивает отношения с бизнесом?

То, что отношения между бизнесом и ИТ-службой должны измениться, было понятно изначально. Понятно было и то, что трансформироваться они будут в сторону сближения позиций, создания своего рода безбарьерной рабочей среды и командной работы.

Компания Tele2 внедряет в процессы культуру data driven, фокусируясь при принятии решений не только на опыте и экспертизе, но и на обоснованности данных и получаемой из них информации. Из этого следуют методические акценты, а именно тщательная проработка подхода к управлению данными, включая построение логической модели данных в терминах бизнес-сущностей.

Как я уже говорила, развертывание хранилищ в компаниях сопровождается стремлением иметь единую версию правды. Мы же считаем, что кроме этого должна существовать и единая версия понимания этой правды. Поэтому у нас уже к запуску хранилища в эксплуатацию был разработан глоссарий терминов, где каждый показатель описывается в бизнес-формулировках и, если необходимо, даются ссылки на объекты хранилища, по которым можно найти адекватную конкретному вопросу информацию. Таким образом мы предоставляем удобный интерфейс всем, кто с ним работает, и прежде всего бизнес-пользователям.

Созданию той самой безбарьерной среды способствовало также появление новых ролей и их распределение внутри команд. Уже на стадии активной эксплуатации продукта у нас, например, появились scrum-мастера, которые наладили совместную деятельность с разработчиками, аналитиками и функциональными экспертами. Примечательно, что эти роли были определены уже после того, как люди в течение какого-то времени их фактически выполняли. Процессы, связывающие работу этих людей, проектировались и имплементировались в бизнес компании, что называется, «с колес». Наш вывод состоит в том, что только опыт подсказывает, как в той или иной компании лучше организовать этот процесс, какие роли и каких ответственных к нему следует подтянуть. Взять методичку по скраму и дословно внедрить его по книжке на этом этапе не получится — у каждого свой путь.

Что касается проектов, которые выполнялись при внедрении управленческой отчетности в хранилище, то лучшие результаты показали небольшие команды до десяти человек. Такой команде удавалось быстрее наладить взаимопонимание разных функциональных экспертов и разработчиков. Столь плотное кросс-функциональное взаимодействие только оздоравливает общий климат. Крупными временными коллективами, по нашему мнению, в этом плане очень сложно управлять.

Поскольку промышленное хранилище — продукт весьма непростой, его внедрение связано еще и с соблюдением ряда более формальных и проверенных на практике приемов и методик…

Базовый приём, позволяющий внедрить промышленное хранилище и строить процессы управления данными, — создание логической модели данных в бизнес-терминах. Одной из основных задач здесь стала детальная проработка единого слоя данных — процесс, который являет собой хороший пример необходимости использования классической методологии waterfall. Иными словами, сначала надо было полностью проработать все требования, чтобы сформировать модель. Процесс, состоящий в том, чтобы быстро создать, условно говоря, нужный в данный момент «кусок» модели, а затем прикрутить к нему еще один, для решения нашей задачи был бы очень болезненным. При создании логической модели данных в бизнес-сущностях мы описали все предметные области, по которым компании необходима работа с хранилищем. При этом каждый показатель должен был иметь бизнес-владельца в каждом сегменте бизнеса.

Надо сказать, что у нас были и некоторые преимущества. По сравнению с теми компаниями, которые при описании модели вынуждены проходить этап консолидации разнородных биллинговых источников, мы, например, имеем абсолютно одинаковые биллинговые инстансы. Структура наших продуктов во всех регионах одна и та же. А если задачи информационной консолидации все же возникали, то мы могли опираться на уже имеющийся большой опыт, который ИТ-служба получила при работе с операционным хранилищем транзакционных данных. И сейчас, на этапе развития EDW, при проработке каждого нового технического задания этот опыт конечно же помогает.

Всё это, а также работа подрядчиков и постоянное активное участие компании Teradata позволили запустить хранилище в промышленную эксплуатацию через четыре-пять месяцев после поставки оборудования. Поэтому и вендор, и наш проектный офис могут гордиться таким результатом, ведь в крупных компаниях этот период в среднем составляет от полугода до года.

Говоря о внедрении, мы уже частично затронули тему персонала. Вместе с тем известно, что развертывание промышленных хранилищ заметно меняет культуру работы с информационным ресурсом как таковым. Как следствие действительно появляются новые роли и должности — от руководящих до исполнительских. Хотелось бы поговорить об этом более подробно.

Да, новые роли, и я уже говорила об этом, в компании активно появляются. Роли, связанные с управлением данными, появились как мостик между бизнесом и ИТ-отделом. Все вместе мы стали плотнее работать друг с другом, к чему мы и стремились. Это стало очевидно уже при внедрении хранилища, и теперь такая тенденция становится все более явной в разных бизнес-проектах, которые рассчитаны на интенсивное его использование.

Появление новых ролей подразумевает и некое не всегда очевидное разделение их содержательных сущностей, которые важно хорошо себе представлять. Аналитики в бизнесе существовали давно, когда же бизнес получил быстрый доступ к данным, стало возможно развивать и роль ученых по данным. Вы спросите, чем содержательно различается суть деятельности этих двух групп специалистов? Аналитик обычно отвечает на конкретный вопрос, и если у него недостаточно данных, то он в текущий момент на вопрос этот ответить не может или может осветить его только частично. Ученый же по данным, как правило, в решении задачи часто идет дальше, имея сильные навыки работы с Big Data и привлекая, если необходимо, дополнительные источники путем разовых выгрузок, например.

Если говорить о поиске аналитиков на рынке труда, то они универсальны в отношении отраслевого опыта работы. Пришел ли он из банка или, скажем, из фармацевтической компании — не столь важно, важны только его математические способности и умение работать с популярными ИТ-продуктами. А вот что касается ученых по данным, то тут следует говорить не столько о способностях, сколько о владении инструментами работы с большими данными. Они часто являются профессионалами в исследовании какого-то определенного класса данных, что позволяет проявить особенные способности в текстовой аналитике, в геоданных и прочем. Важно также, чтобы результаты всех названных специалистов не обрывались на аналитических выкладках, а являлись понятным стимулом для дальнейших бизнес-инициатив. Поэтому у нас принята проектная организация таких работ: от источника данных до приземления результата на бизнес-процессы.

Если говорить о должностях, то в последнее время часто обсуждают позицию главного офицера по данным в компании (chief data officer — CDO). Нам видится, что в условиях зависимости процессов принятия решений от данных эта роль действительно может быть очень значимой. Однако вполне может сложиться и так, что соответствующие этой позиции обязанности будут выполнять несколько человек, корректно разделяющих сферы своей деятельности и взаимодействующих между собой. Иными словами, вопросы управления информационным ресурсом важны, но отсутствие CDO в компании вовсе не означает, что этими вопросами там никто не занимается.

С Никой Пономарёвой беседовал ведущий эксперт Intelligent Enterprise Сергей Костяков