В последнее время тема использования новых методов анализа на базе разбора так называемых больших данных (традиционно термин big data оставляют без перевода). Это позволяет решить массу проблем, которые в прошлом доставляли существенные трудности или неудобства. Прежде всего, связанные с обработкой больших массивов неструктурируемых или плохо структурируемых данных, а также поиском не вполне очевидных зависимостей.

Надо сказать, что только этим преимущества, которые дает разбор больших данных, не исчерпывается. Так, например, наиболее популярный движок hadoop является СПО, а значит, вообще говоря, его лицензирование не стоит ничего. Хорошо известные и популярные СУБД, как правило, являются коммерческими продуктами, причем от иностранных компаний, которые вынуждены следовать нормативным актам своих стран. Не надо долго распространяться, что в нынешних условиях последнее сопряжено с довольно серьезным риском. Да и стоимость лицензирования высока.

При этом комплексы, ориентированные на работу с обработки большими данными позволяют добиться более высокой производительности, не просто в разы, а на порядки, часто при меньших ресурсах. Известно, что сама концепция обработки больших данных возникла вследствие того, что реляционные СУБД, при достижении некоей критичной массы данных, резко замедляли работу. Особенно при обработке сложных запросов. Так что в середине 2000-ных начали говорить о «конце безразмерности». Стало очевидно, что объемы данных достигли того уровня, что обработка их традиционными методами уже в обозримом будущем может стать невозможной.

Такая ситуация связана с целым комплексом причин. Так, сама концепция реляционной СУБД не претерпела практически никаких изменений с 70-х годов прошлого века. Многое можно объяснить и тем, что быстродействие накопителей с того времени выросло не так существенно, как вычислительная мощность и скорость обмена данными между вычислительной подсистемой и памятью. Появление более быстродействующих накопителей лишь отсрочило этот процесс. В этих условиях использование технологий массово-параллельной обработки данных стало очевидным выходом. В том числе и для решения задач, связанных с обеспечением информационной безопасности.

Первые значимые результаты появились в 2013 году. А в текущем году данный процесс ускорился. Совершенствовались как уже существовавшие продукты, так и появлялись новые. Подробнее об этих тенденциях более подробно будет сказано ниже.

Совершенствование старых решений

Сегмент решений SIEM (Security Information and Event Management, дословно – управление информацией и событиями в области безопасности, в России больше устоялся термин «системы мониторинга и корреляции событий») стал тем классом систем, где переход к парадигме больших данных назрел уже давно. У многих даже вызывало удивление не то, что SIEM традиционные системы хорошо работают и решают поставленные перед ними задачи, а то, что они вообще способны функционировать, обрабатывая столь большие и потоки данных «на лету».

Однако развивать подобные системы долго удавалось таким образом, что многие возможности по аналитике в полной мере не использовались, а значит, удавалось обходиться без по-настоящему сложных запросов. Включение многих интеллектуальных функций приводило к резкому росту ложных срабатываний, что, естественно, никому не нравилось, и от их использования очень быстро отказывались.

Тем не менее, данный подход все чаще и чаще подвергался критике. За ограниченность аналитических возможностей. За невозможность обработки информации при изменении формата журналов событий, а это происходит часто. За отсеивание информации, которая система сочтет ненужной, но она может оказаться критически важной. «Так что современное поколение SIEM – это, увы, умирающая технология, не способная справиться со слишком быстро меняющимся ИТ-ландшафтом. Данные системы сложно и бессмысленно внедрять, так как они устаревают еще до того, как начнут полноценно работать», – вот довольно типичное мнение профессионала в области ИБ (Павел Волков. Три болезни SIEM//Intelligent Enterprise, №11-12, 2013).

В 2013 году на рынок вышла система RSA Security Analytics, которая стала первой, базирующейся на технологии больших данных. Эта система, как утверждается, имеет практически неограниченные возможности по масштабированию. Также для нее не составляет проблемы изменение формата журналов событий. Ее не нужно «переучивать» после замены или модернизации того или иного средства обеспечения ИБ, будь то межсетевой экран, система детектирования вторжений, антивирусные средства или что-то еще. Система может обрабатывать больше событий при меньших системных ресурсах. Кроме того, RSA Security Analytics имеет открытые API, что существенно упрощает организацию сопряжения с другими системами, например, мониторинга инфраструктуры. В итоге, согласно данным исследования «2014 Cost of Cyber Crime Study», проведенного Ponemon Institute, отдача от внедрения систем нового поколения на треть выше, чем традиционных.

Другой класс систем, где внедрение решений на базе технологий анализа больших данных назрел уже давно – средства предотвращения утечек информации, или DLP. В текущем году два таких решения вышли на рынок. Оба они от российских разработчиков: Дозор Джет 5 от компании «Инфосистемы Джет» и «Гарда Предприятие 3» компании «МФИ Софт».

У каждого из этих продуктов своя «изюминка». Так, новую версию «Дозор Джет» отличает повышенное быстродействие и расширенные средства анализа данных (например, позволяющие ускорить анализ документов большого объема). Для систем, которые базируются на традиционных технологиях, и то, и другое относятся к слабым местам. Это является одним из наиболее серьезных препятствий в ходе проектов в крупных компаниях.

Разработчики из «МФИ Софт» и вовсе создали нечто, практически в корне отличающееся от привычной DLP системы. Их продукт анализирует типичную картину поведения сотрудников и затем сигнализирует о любых серьезных отклонениях от этой модели. Как утверждается, подготовительный период занимает в среднем около недели. Для привычной системы защиты от утечек формирование базы контентной фильтрации или грифование документов занимает существенно больше времени. По крайней мере, трехмесячный срок внедрения считается рекордно коротким, обычно же советуют ориентироваться на период от полугода до года.

И результат от внедрения системы, которая базируется на выявлении отклонений от типичной модели поведения, часто заметно превышает ожидания. Ведь за любой такой аномалией скрывается то или иное нарушение. Будь то политики информационной безопасности, например, использование постороннего ПО, трудовой или технологической дисциплины. Например, в одной из компаний, где тестировалась «Гарда Предприятие 3», обнаружилось, что ввод данных в систему производится только с одного рабочего места. В результате расследования оказалось, что всю черновую работу бухгалтеры спихнули на недавно принятую сотрудницу. Каким либо другим способом обнаружить сей факт было бы невозможно. И, что не менее важно, для работы с такой системой не требуются высококвалифицированные специалисты. Более подробно с впечатлениями от данного продукта автора этих строк можно по адресу http://www.iemag.ru/analitics/detail.php?ID=31869.

Появление новых решений и новых игроков

Есть и движение в обратном направлении, когда на рынок систем обеспечения информационной безопасности выходят компании, которые раньше на нем не присутствовали. Это, например, Teradata и SAP.

Так, например, на недавно завершившейся партнерской конференции Teradata, которая прошла в американском Нэшвилле в конце октября текущего года, была представлена платформа Connections Analytics, предназначенная для выявления связей между людьми, продуктами, процессами. И среди возможностей, для которых можно применять данную платформу, назывались и такие (цитата из официального WhitePaper компании): «Контроль киберугроз. Компании могут отслеживать трафик IP-данных, сетевых и серверных данных, а также данных журналов коммуникаций. Возможность синтезировать эти данные позволит обнаруживать угрозы почти в реальном времени.

Обнаружение мошеннических действий. Мошенники могут легко создавать новые поддельные сущности, однако их соучастники и методы меняются не так уж часто. Connection Analytics может выявлять подозрительные закономерности, указывающие на потенциальное мошенничество, прослеживая известные мошеннические транзакции вплоть до веб-сайта или компании».

Как видно, эти функции закрывают функциональность систем SIEM, DLP, фрод-менеджмента и гарантирования доходов. Все они из разряда сложных, дорогих, требующих длительных затрат времени и ресурсов на внедрение и квалифицированного персонала для эксплуатации и сопровождение. А тут система всего одна, и для ее работы (если верить разработчикам) достаточно иметь навыки самостоятельного поиска информации в Интернете.

В итоге порог входа становится ниже, и рынок может получить мощный толчок. Ведь не секрет, что в непростое время желание поднять свое благосостояние за счет работодателя возникает у очень многих. Так, по данных юридической компании Vegas Lex, 38% российских компаний обнаружили у себя признаки корпоративного мошенничества. И это еще довольно консервативные оценки. Международная аудиторская и консалтинговая компания Pricewaterhouse Coopers оценивает ситуацию куда более пессимистично. Так, присвоение активов и товарно-материальных ценностей имеет место в 72% российских компаний, а в 48% выявлены факты коммерческого подкупа, которые наносят немалый ущерб. При этом размер в целом не имеет значения. При этом относительно небольшие компании более уязвимы, так как для них внедрение систем фрод-менеджмента или гарантирования доходов просто неподъемно.

Да и крупные компании также заинтересованы в выявлении мошенничества, но при этом также не всегда считают нужным идти на длительные и дорогие интеграционные проекты. При этом они могут уже иметь платформу вроде SAP HANA. Ее также оснастили средствами, позволяющими считать ее полноценным средством фрод-мониторинга. Причем весьма высокопроизводительным, которое позволяет обрабатывать до 2 млн. документов в секунду. Также данное решение имеет версии, адаптированные для разных видов бизнеса: банков, страховых компаний, розничной торговли, государственного и общественного сектора.

Как отметил заместитель генерального директора SAP СНГ Дмитрий Шепелявый, использование SAP HANA с новой функциональностью позволяет выявлять множество сценариев злоупотреблений. Как правило, за счет того, что отклонения от нормы становятся четко видны.

В результате довольно легко выявить такую схему, как, например, закупка явно излишнего количества сезонных ягод, которые фиктивно списываются якобы ввиду порчи, а на самом деле благополучно продаются «налево». На этом «приработок» злоумышленников за сезон достигает сумм, эквивалентных многим десяткам тысяч евро. Как отметил Дмитрий Шепелявый, повышенные объемы закупок и списаний очень легко увидеть, если сравнивать их с магазинами той же сети, имеющими схожие показатели по товарообороту.

С помощью средств анализа больших данных очень легко выявляются многочисленные мелкие платежи. А это симптом использования одной из старейших схем высокотехнологического мошенничества, которой без малого полвека: «атаки салями». Но периодически такого рода случаи возникают регулярно. Так, например, один из инцидентов, который привел к наибольшему ущербу, был связан с тем, что в одной крупной розничной компании злоумышленники внесли изменения в кассовую систему, при котором у части покупателей взимались лишние деньги, которые переправлялись на счет злоумышленников. При этом речь шла о суммах, которые не превышали двух рублей с одного покупателя. Злоумышленники остались незамеченными довольно продолжительное время и успели похитить весьма приличную сумму. Тем более, как особо подчеркнул Дмитрий Шепелявый, в решениях SAP для розничной торговли имеется Customer Activity Repository, где аккумулируются все чеки. Ее наличие облегчает поиск всяческого рода отклонений.

Всяческого рода злоупотребления при закупках, за которым как правило скрывается то, что называют откатами, выявить несколько сложнее. Тут возможны несколько вариантов. Например, что некая компания слишком часто выигрывает конкурсы, которые инициирует определенный сотрудник. Или что цена товаров (услуг) заметно отличается от среднерыночной. Мониторинг цен SAP HANA делать также «умеет». Можно выявить злоупотребления и с помощью анализа аффилированности, причем скрыть возможные связи очень сложно. Для этого применяется в том числе анализ социальных сетей, данные из УГРН и ЕГРЮЛ и прочая информация из открытых источников. SAP HANA позволяет сделать это быстро и интеллектуально. Хотя она, конечно, не сделает за офицера безопасности всю оперативную работу по проверке аффилированности, но места, где потенциально можно что-то найти, будут намечены.