Ресурсы предприятия

Архитектура и инфраструктура

Безопасность

Новости

Российская платформа vStack стала партнером ИТ-компании «Инфосистемы Джет»

X-Com расширяет ассортимент серверов и компьютерного оборудования

ERP-платформа «Ма-3»: новая оборотно-сальдовая ведомость с аналитикой на Angular уже в 11-м релизе

На форуме «Атомэкспо» предложили создать международную площадку для обмена опытом реализации проектов «Умного города»

Эксперты Группы Т1 выступили на форуме RBC.TECH

Поводом для написания этого блога стала уже вторая в течение года массовая вирусная эпидемия. И это стало очень неприятным прецедентом. Ведь столь масштабных заражений не было уже очень давно. Впрочем, данная ситуация была ожидаемой. Эпидемию вызвали …

Не все апдейты одинаково полезны

Утечки бывают разными

Здравствуй, племя младое, незнакомое...

Инновации для сетей X5

Роман Баранов, КРОК: Большие данные. Как сделать так, чтобы они приносили больше пользы

29.10.2014

Роман Баранов

Тема анализа больших данных в последние несколько лет, что называется, на слуху. Причем интерес этот уже давно вошел в сугубо практическую плоскость, и интересует не то, что такое большие данные, и для чего средства их анализа можно применить, а уже то, как такие решения внедрять. О некоторых практических аспектах мы поговорили с Романом Барановым, руководителем направления Analytics & Big Data компании КРОК.

На рынке присутствует утверждение, что большие данные — это маркетинговый термин, за которым ничего нет. Чем можно возразить?

Роман Баранов: Действительно, средства анализа больших данных самим фактом своего использования в организации всех проблем не решат. Это лишь возможность обрабатывать большие объемы структурированных и неструктурированных данных с целью получения бизнес-пользы при минимальных затратах. Ставить задачи, где требуется применение этой технологии, должен бизнес, который только начинает мыслить в нужных парадигмах. Поэтому роль системного интегратора заключается в том, чтобы предлагать заказчикам решения аналитики больших данных, ориентированные не на ИТ, а на бизнес-пользователей и их бизнес-требования. Кроме того, нужно понимать, что под термином «большие данные» понимается целый ряд технологий, и обсуждать концепцию в целом не совсем корректно. Стоит говорить про конкретные технологии. В первую очередь, это движок Hadoop и массивно-параллельные базы данных (МПП БД). И если Hadoop, действительно, появился на рынке не так давно, и многие компании еще не до конца понимают, как эффективно применять эту технологию, то МПП БД существуют уже много лет и успешно применяются в бизнесе для построения масштабных аналитических систем. Появление новой концепции никак не повлияло на применимость данной технологии. Что же касается Hadoop, то тут несколько сложнее. Эта технология уже успешно используется ИТ-специалистами для решения технических задач, в первую очередь связанных с производительностью. Ее востребованность можно наблюдать даже на рынке труда – количество вакансий в этой области продолжает расти.

Насколько решения по обработке больших данных востребованы в России? В каких отраслях?

Решения востребованы и опосредованно используются практически всеми крупными компаниями. Достаточно спросить службу безопасности или финансистов, какими интернет-сервисами они пользуются для проверки контрагентов. В частности, ряд отечественных разработок для мониторинга рынка и анализа информации из открытых источников вполне могут претендовать на звание инструментов, разработанных с использованием подходов обработки больших данных.

Со своей стороны, мы уже попробовали создать аналогичные сервисы с использованием подходов Big Data и можем однозначно сказать, и сроки и трудозатраты значительно меньше, чем при классическом подходе к реализации.

Опять же вернусь к разделению технологий. Что касается технологии Hadoop, то основное ее назначение – это аналитика полезной для бизнеса неструктурированной информации, наибольшее количество которой находится в интернете. Таким образом, подобные решения используются в первую очередь для анализа больших объемов данных из глобальной сети, в том числе и из социальных сетей. Выделить отдельные отрасли тут сложно, в той или иной степени это интересно всем игрокам рынка, активно работающих в интернете и социальных сетях.

Массивно-параллельные базы данных используются в первую очередь в отраслях, где традиционно обрабатывается много информации и присутствует серьезная конкуренция. Это телекоммуникационные компании, банки, розничная торговля и страхование. Например, сейчас мы реализуем проект по миграции всего хранилища данных на EMC Greenplum в одной крупной страховой компании. В результате внедрения заказчик получит значительный рост производительности при снижении стоимости по сравнению с традиционными решениями по управлению базами данных.

Расскажите поподробнее об этом проекте.

В этой компании уже было хранилище данных, но потребности росли, и в какой-то момент решение перестало удовлетворять требованиям заказчика к производительности. В итоге значительная часть потенциала, связанного с возможностями, которые может дать анализ данных, оказывалась нереализуемой.

Мы предложили провести миграцию этого хранилища данных на платформу EMC Greenplum. Эта платформа обладала наиболее оптимальным соотношением цены и производительности по сравнению с конкурентами, а также требовала минимума усилий по миграции данных с прежнего решения. Кроме того, EMC использует движок Hadoop со значительными доработками, связанными с информационной безопасностью, лучшей оптимизацией под используемую аппаратную платформу и расширенными функциональными возможностями в целом.

Какие технические решения необходимы для того, чтобы внедрять системы обработки больших данных? Насколько хорошо работают эти системы анализа в виртуальных и облачных средах?

Очень важное преимущество систем аналитики больших данных заключается в том, что они построены по принципу массивно-параллельной архитектуры. Другими словами, состоят из большого количества независимых серверов, которые вместе решают одну общую задачу. В архитектуру подобных решений по определению заложена большая отказоустойчивость. То есть все данные хранятся на нескольких узлах, и выход из строя одного из них не сказывается на функциональности всей системы в целом. Кроме того, это именно тот случай, когда количество переходит в качество, и общая производительность системы легко увеличивается простым добавлением новых серверов. Таким образом, здесь можно использовать не самые дорогие сервера, увеличивая лишь их количество. Тем самым мы добиваемся заявленной самой концепцией дешевизны хранения и обработки данных.

Однако, исходя из упомянутых выше особенностей, мы получаем то, что системы класса Big Data хорошо работают именно на реальных серверах с локальными накопителями. То есть использование этих технологий в виртуальных средах возможно, но, пожалуй, не очень оптимально.

Также хотелось бы обратить внимание и на то обстоятельство, что большая часть современных систем хранения данных (СХД) не подходит для обработки Big Data. Это объясняется тем, что возникает «эффект бутылочного горлышка», связанный с необходимостью передачи больших объемов данных по сети. Поэтому чаще всего выбирают программно-аппаратные комплексы с локальными дисками.

Какие сложности могут быть при внедрении систем анализа больших данных?

Ключевая сложность одна и вполне понятна – это выбор правильного подхода к решению бизнес-задачи. В частности, если речь идет об анализе информации из интернета, то даже бизнес-пользователи понимают, что средства аналитики больших данных – как раз то, что нужно. Но далеко не все архитекторы решений могут адекватно оценивать применимость таких инструментов при решении «классических задач», например, создания хранилищ данных и документов.

Другая сложность на текущий момент заключаются в малом количестве профессиональных специалистов. Если мы говорим про Hadoop, то технология еще молода, и рынок еще не успел сформировать достаточное сообщество специалистов требуемой квалификации. Поэтому внедрение подобных решений самостоятельно – под силу далеко не каждой компании, без помощи компетентного интегратора в этом вопросе не обойтись.

Также проблемой может обернуться недостаточный уровень зрелости организации, решившей работать с большими данными. Компания должна понимать ценность аналитики неструктурированной информации, и перед внедрением нового инструмента нужно как минимум иметь собственное хранилище структурированных данных и уметь извлекать из них пользу.

Экономика проектов. За счет чего достигается ROI?

Здесь можно провести аналогию с проектами построения хранилищ данных. Как можно оценить ROI в этом случае? Обычно это стратегическое решение, внедряя которое компания получает конкурентное преимущество за счет более точной и долгосрочной оценки ситуации. Более адекватная оценка окружающей действительности позволяет принимать грамотные и взвешенные решения, с опорой на аналитику. То есть изменить ROI прямыми методами - крайне непросто.

Но если пойти другим путем и сравнить решение задачи с использованием классического инструментария, то есть с внедрением обычной СХД и пр., и сценарий применения модного тренда Big Data, то стоимость лицензий и дальнейшего сопровождения почти всегда дешевле во втором сценарии.

Насколько велико влияние человеческого фактора? Возможно ли его минимизировать?

Влияние человеческого фактора исключается одним грамотным архитектором с багажом выполненных проектов и парой ведущих разработчиков, которые смогут контролировать создание решения для обработки больших объемов данных с использованием правильных подходов. В дальнейшем, с переводом решения хотя бы в опытную эксплуатацию, с ним начинают работать аналитики, уже привыкшие использовать тот или иной инструментарий BI, Data Discovery или т.д.

Еще года два назад мало какой инструментарий поддерживал любые решения анализа больших данных, но уже сейчас большинство вендоров предлагают коннекторы и перенос части логики на сторону систем обработки данных. Все, что надо сделать сейчас, – это подключить к решению привычный для аналитиков инструментарий и объяснить особенности работы в новой среде. При необходимости можно дополнить этот минимум специализированными семинарами по использованию дополнительных методик анализа данных.

Версия для печати (без изображений)

Статьи по схожей теме

СберСтрахование жизни внедрит искусственный интеллект в урегулирование убытков уже в начале 2023 года
Чтобы повысить качество услуг, СберСтрахование жизни роботизирует процесс урегулирования убытков. Масштабное внедрение искусственного интеллекта стартует уже в первом квартале 2023 года. Нейросети автоматизируют рутину и ускорят …

Статьи из тематического обзора

Электронные данные доминируют
В сентябре исполняется ровно пять лет с того момента, как в нашем журнале впервые в рамках специально подготовленного номера была затронута тема smart city, и с тех пор мы регулярно уделяли ей внимание. Сначала приходилось делать акценты на том, что для …

Лидеры читательского рейтинга

Мы в социальных сетях



© 1997—2025 АО «СК ПРЕСС». Политика конфиденциальности персональных данных, информация об авторских правах и порядке использования материалов сайта 109147 г. Москва, ул. Марксистская, 34, строение 10. Телефон: +7 495 974-22-60. Факс: +7 495 974-22-63. E-mail: siteeditor@iemag.ru.. ITRN \| IT Channel News \| itWeek \| Byte/Россия \| Бестселлеры IT-рынка

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.