Большие Данные были всегда — в большой науке. Малой науки в принципе не бывает: любая научная задача из области астрофизики, физики элементарных частиц, метеорологии, химии, биологии и т. д. неминуемо вырастает до гигантских размеров и требует огромных вычислительных мощностей, которые, увы, не всегда доступны.

Большой бизнес, в отличие от науки, до сих пор обходился сравнительно малыми объемами данных: число транзакций по кредитным картам или количество звонков абонентов неисчислимо меньше числа галактик во Вселенной.

Почему феномен тотального интереса к Big Data возник именно сейчас, и как отделить маркетинговую шумиху от реальных потребностей бизнеса?

Нужно принять во внимание два фактора. Во-первых, бизнес стал в целом больше полагаться на ИТ, а существование многих отраслей сегодня и вовсе немыслимо без ИТ. CIO вошли в советы директоров и участвуют в решении стратегических вопросов. И исторических данных накопилось достаточно.

Во-вторых, нельзя не упомянуть кризис. Время экстенсивного роста закончилось, теперь компании должны стать более изворотливыми, более точно фокусироваться на своих клиентах. Поэтому одной интуиции даже самых гениальных менеджеров уже недостаточно, требуется углубленный анализ данных и поиск всевозможных корреляций и паттернов.

Разумеется, индустрия ИТ ответила на эти вызовы. В настоящее время разработано множество проприетарных и открытых инструментов. Крупные вендоры, такие как EMC, IBM, HP, Microsoft и Oracle также участвуют в разработке решений для Больших Данных.

Что такое Большие Данные?

Насколько эти данные велики? Мы создаем 2,5 квинтильона байт ежедневно — это значит, что более 90% всех хранимых данных создано за последние два года. Но слово «большие» применительно к нынешним данным можно истолковать и в другом смысле — бизнес связывает с ними большие ожидания, поскольку сегодня появилась возможность извлечь практическую пользу из их анализа.

Как любое новое направление, Большие Данные не избежали злоупотребления. Любой более-менее значительный игрок на ИТ-рынке использует данный термин применительно к своим предложениям, пытаясь привлечь внимание потенциальных клиентов.

Прежде чем продолжать разговор о Больших Данных, внесем уточнения и поясним, о чем идет речь. Большие наборы данных человечество умеет хранить достаточно давно. Еще в 2004 г. компания EMC анонсировала первый в мире петабайтный дисковый массив Symmetrix, а еще раньше существовали ленточные библиотеки, способные вмещать десятки петабайт.

Действительно, хранение больших объемов данных (сотни терабайт и даже петабайты) – это пусть и экзотика, но привычная. Тогда в чем же новшество и отличие Больших Данных от просто больших объемов данных? А в том, что еще буквально вчера возможность обработки этих данных в масштабе времени, приближенном к реальному, казалась фантастикой. Стоит лишь посчитать, что на чтение 1 петабайта данных на традиционной системе хранения с пропускной способностью 1 Гб/сек (характерная скорость мощной, но традиционной системы хранения три года назад) требовалось более 12 дней, довольно мощный сервер и десятки миллионов долларов.

Где взять столько данных?

Большие Данные сегодня везде, стоит лишь творчески подойти к вопросу. Один пример на стыке науки и бизнеса: установка ветряных турбин. Датская компания Vestas занимается этим с 1979 г., на ее счету более 43 тыс. установленных турбин в 66 странах. Что произойдет, если инженеры выберут не оптимальное место? Тогда либо установка будет работать не на полную мощность, либо возникшая турбулентность приведет к поломке механизма.

Чтобы избежать этого, Vestas выбирает место установки, анализируя свою библиотеку ветров, которая содержит данные, собираемые с существующих турбин и из глобальных систем изучения погоды, с 35 тыс. метеостанций по всему миру.

Раньше библиотека ветров базировалась на сетке 27х27 км. Новое решение на платформе IBM InfoSphere® BigInsights и IBM System x® iDataPlex® dx360 M3 вместе с IBM System Storage® DS5300 позволило повысить точность сетки ветров до 10х10 м.

Источником Больших Данных могут стать любые системы датчиков, радиочастотных меток, траектории перемещения объектов, действия пользователей на сайтах и в социальных сетях, спутниковые данные, лог-файлы информационных систем, данные аудио- и видеорегистрации и др.

Если посмотреть в разрезе бизнес-задач, то Большие Данные актуальны прежде всего для анализа покупательского поведения и увеличения продаж, более таргетированного маркетинга, повышения качества продукции, оптимизации запасов, логистики.

Чем обрабатывать Большие Данные?

Кроме упомянутых выше решений IBM, можно отметить решение Greenplum Data Computing, предлагаемое компанией EMC, которое может быть построено целиком на базе компонентов стандартной архитектуры – Intel-серверов и Ethernet-коммутаторов, поверх которых работает кластерная масштабируемая СУБД Greenplum, обладающая функцией массивно-параллельной обработки данных (MPP – Massive Parallel Processing). EMC предлагает свое решение в виде программных лицензий, которые могут быть использованы для развертывания СУБД на серверах по выбору заказчика.

Однако цена даже таких доступных решений может показаться высокой. Ее трудно обосновать для небольших компаний, которые тем не менее хотят приобщиться к Большим Данным.

В этой связи заслуживает внимания разработка сообщества Open Source— Hadoop. Этот проект был запущен Apache Software Foundation, чтобы дать миру доступную технологию для консолидации, комбинирования и анализа массивных объемов данных, построенную на базе стандартной архитектуры x86.

Архитектурно Hadoop состоит из двух ключевых частей – надежного хранилища на основе Hadoop File System (HDFS) и механизма высокопроизводительной параллельной обработки данных. Цель технологии – создание основы, на базе которой можно будет реализовать надежный и быстрый анализ структурированных и неструктурированных данных.

По мере снижения цен на оборудование и ПО для Больших Данных продвинутая аналитика будет становиться все более и более популярным инструментом, особенно для тех средних и малых компаний, которые ищут пути и конкурентные преимущества для быстрого роста объема бизнеса.

Большие Данные и облака

Эти технологии связаны неразрывно. Именно средства хранения и обработки Больших Данных относятся к тем ключевым приложениям, которые дадут мощный толчок развитию облачных инфраструктур. Причем это влияние взаимное: для эффективного управления облаком нужно анализировать большой поток данных в реальном времени, а для решения задачи из области Больших Данных нужно динамически выделять ресурсы для хранения и вычислительные мощности.

Еще важно отметить, что облака делают технологии Больших Данных доступными не только для крупных, но также для средних и малых компаний, которые не могут самостоятельно развернуть столь дорогую инфраструктуру.

Заключение

Хотелось бы предостеречь будущих заказчиков от эйфории относительно возможностей технологии Больших Данных.

Французский астроном Пьер Симон Лаплас был настолько впечатлен красотой теории Ньютона, что утверждал: точно зная текущее состояние Вселенной, можно вычислить любое ее будущее состояние, вплоть до положения отдельной молекулы, и только громадность вычислительной работы не позволяет ему это сделать.

Квантовая физика покончила с подобным детерминизмом и приучила нас к мысли, что в основе мироздания лежат вероятностные процессы. Поэтому давайте не будем вслед за Лапласом впадать в иллюзию, будто бы все в мире можно исчислить и предсказать — теперь уже на основе анализа Больших Данных. У любого инструмента есть своя область применимости, и у Больших Данных тоже.