• Для специалистов по ИТ и ИБ
  • Советы по ИБ на практике

Алгоритмическая стража. Тонкости внедрения актуальных средств сетевой безопасности на базе машинного обучения

30.01.2025

автор Александра Максимова, руководитель направления по искусственному интеллекту департамента разработки систем искусственного интеллекта ООО «Нейроинформ»

Предпосылки проблем с сетями

Киберпреступники – главные знатоки по «приземлению» актуальных подходов и технологий в современных ИТ. Они широко применяют нейросети для кибератак и поручают искусственному интеллекту огромное количество задач, от написания зловредного кода до генерации дипфейков для методов социальной инженерии. В их руках эти и другие передовые разработки показывают свою деструктивную эффективность.

В сфере информационной безопасности адаптация технологий идет медленно и неравномерно. Но и в ней есть направления, где искусственный интеллект - полноправная и неотъемлемая часть специализированных продуктов и решений. Этот пост - о применении ИИ для обеспечения безопасности на уровне сетевого трафика.

Тот факт, что ИИ в первую очередь был адаптирован для задач мониторинга трафика, в какой-то степени поднимет планку корпоративного кибербеза в целом. По нашему опыту, потоки данных, – чуть ли не последнее, чему организации уделяют внимание, когда у них доходят руки до корпоративной ИБ. Особенно это касается бизнесов, которые быстро растут. Даже после кратного расширения сетевой инфраструктуры подходы к ее топологии, управлению и защите остаются такими же, как в первый год функционирования компании.

Невнятная сегментация сети, «мерцающие» границы периметра, когда (непонятно,кого и что в этот периметр включать), отсутствие какого-либо базового мониторинга – подобные болезни роста встречаются регулярно и грозят осложнениями для информационной безопасности предприятий. В нашей практике был кейс, когда из песочницы, где клиент тестировал приложения open source, наш пентестер проник во внутреннюю сеть инфраструктуры заказчика. Там он получил контроль над доменом, а затем над всеми серверами локальной сети. Если простыми словами – захватил часть инфраструктуры, потеря доступа к которой лишила бы компанию возможности дальнейшей работы.

Передовые решения класса NGFW (next generation firewall, файрволл нового поколения) и IDS/IPS (системы обнаружения и предотвращения вторжений) в какой-то степени могут эти проблемы закрыть. Собственно, они именно так и позиционируются вендорами. Но считать их некой «волшебной таблеткой» не нужно, а нужно искать возможность преодолеть их недочеты, например, с помощью ИИ. Пользу из средств активной защиты сети на базе искусственного интеллекта можно будет извлечь при соблюдении нескольких условий. О них и поговорим.

Где используется машинное обучение

Для начала предлагаю разобраться, какие инструменты и технологии используются для анализа трафика.

Анализ трафика может быть осуществлен с разной степенью автоматизации. Например, сетевые анализаторы трафика используют эксперты, анализируя пакеты практически “вручную”. В свою очередь, системы мониторинга сетевой активности предоставляют обобщенные данные о происходящих процессах, однако по-прежнему требуют значительного вмешательства специалистов для выявления и предотвращения кибератак.

Системы обнаружения и предотвращения вторжений используют непосредственно для защиты сетей и инфраструктуры от кибератак. Принцип работы таких систем построен на выявлении признаков вредоносной и подозрительной активности при анализе данных в сети.

Существует два взаимодополняющих подхода к выявлению киберугроз в сетевом трафике. Первый подход заключается в сравнении данных в сетевых пакетах с известными сигнатурами и поведенческими шаблонами, специфическими для атак. Второй подход - выявление необычного, неспецифического для данной инфраструктуры поведения, или так называемых аномалий.

Первый подход можно назвать консервативным. Его принципы уже давно применяются в других активных средствах защиты – например, в антивирусах. Как и программные «зловреды», сетевые угрозы обладают своими сигнатурами и поведенческими шаблонами. Имея в памяти набор описаний того, как работает та или иная угроза, система обнаружения и предотвращения вторжений не позволяет ей развиться.

Все происходит «под капотом» у специализированного решения, и без ложноположительных срабатываний, что особенно ценится ИБ-специалистами. Базу сигнатур необходимо регулярно обновлять и пополнять в связи с появлениями новых угроз. И здесь – важная тонкость. Если сигнатура угрозы не записана в базу, эта угроза для решения попросту не видна.

Искусственный интеллект в составе NGFW и/или IPS/IDS в значительной мере способен исправить этот врожденный недостаток решений подобного класса. Но и здесь есть нюанс, специфический именно для ML-подхода. Имя ему – данные.

О чем молчит вендор

Недостаточный и/или устаревший набор данных для обучения таких моделей внутри NGFW и/или IDS/IPS может в принципе свести на нет результативность защиты. Вот почему постоянно расширяемый дата-сет, специфичный именно для решений подобного класса – насущная необходимость. Следует обеспечить сбор, хранение, обеспечение быстрого доступа к этому дата-сету. Эту задачу — по крайней мере на первоначальном этапе внедрения средств мониторинга трафика на базе ИИ —следует поручить специалисту в сфере машинного обучения.

Мало опознать сам факт вероятной атаки. Важно понять его природу и классифицировать угрозу – как минимум для того, чтобы выстроить тактику противодействия ей. И для выявления, и для классификации используются различные алгоритмы и подходы для анализа сетевого трафика. Выбор алгоритма зависит от типа данных, объема трафика и требуемой скорости обработки.

Первая группа алгоритмов решает задачу классификации трафика на «нормальный» и «вредоносный», и/или осуществляет классификацию вредоносного трафика по типам опасности: DDoS-атака, SQL-инъекция, внедрение команды. Такие методы часто называет алгоритмами обучения с учителем. Необходимо предоставить алгоритму качественный набор с примерами классифицированного трафика. Успех внедрения решения на основе таких алгоритмов зависит только от наличия наборов данных с примерами. При этом такие наборы данных должны быть полными и точными. И, как уже отмечалось выше, нужен специалист, который не только проверит качество этих данных, но и сможет правильно обучить алгоритмы.

Вторая группа алгоритмов способна отследить неспецифическую активность, связанную с трафиком. Такие алгоритмы относятся к группе алгоритмов обучения без учителя, поэтому не требуют сбора обучающих данных со специальной разметкой. Достаточно сохранить и преобразовать в понятный алгоритму вид какое-то количество данных сетевого трафика компании.

Но без «погонщика алгоритмов» в виде эксперта по машинному обучению не обойтись и тут. Информацию о трафике компании анализирует алгоритм кластеризации, который выделяет группы однотипных паттернов. В процессе использования алгоритма необходимо следить за трафиком в сети и сравнивать его с уже выделенными в кластеры типами сетевой активности. В случае значительных отличий набора текущих пакетов от известных групп интеллектуальный алгоритм сообщает об опасности и просит провести проверку.

Лучше всего на практике использовать комбинацию двух методов. Поиск по правилам, описывающим сигнатуры известных угроз и поиск аномалий здесь друг друга дополняют. Поиск угроз по набору правил позволяет не пропустить известные угрозы, а поиск аномалий дает возможность отследить новый тип вредоносной активности.

Важное условие

В заключение отметим, что применение методов машинного обучения в задачах анализа сетевых данных показывает очень хорошие результаты. Особенно это касается так называемых уязвимостей нулевого дня — только что появившихся угроз, для отражения которых пока нет гарантированно эффективного способа.

Но у метода есть и ограничения. Чтобы отслеживать трафик, необходимы дополнительные ресурсы. Данные о трафике нужно как минимум собирать, хранить, обеспечить к ним быстрый доступ для анализа в реальном времени, а также правильным образом систематизировать и постоянно следить за их актуальностью. И дополнительный сервер и дорогой софт под эту задачу — далеко не самая значительная статья расходов. Гораздо больший вклад в повышение стоимости владения такой системой вносит специалист по машинному обучению. Толковые сотрудники в этой предметной области сейчас нарасхват, они стоят достаточно дорого.

Позволить себе ML-эксперта на задачи по кибербезу могут лишь те компании, для которых любой инцидент на сетевом уровне означает гарантированную потерю выручки и дорогостоящую ликвидацию ущерба. На мой взгляд, для идеальной картины — когда ИИ в составе NGFW или решения смежного класса сам формирует релевантный дата-сет, пополняет его и «повышает квалификацию» без участия человека — следует подождать еще пару смен поколений такого софта. А пока — объективно воспринимать возможности ML «в моменте». И смириться с тем, что без компетентного специалиста искусственный интеллект в составе продукта — просто технологический фетиш, мало влияющий на практическую кибербезопасность.

Автоматическая киберзащита
для вашего бизнеса

Регулярный контроль чувствительных данных компании, понятные отчёты и экспертная поддержка с точными рекомендациями.

  • Для специалистов по ИТ и ИБ
  • Советы по ИБ на практике
наш блог

о нас много говорят клиенты, эксперты, сми и партнеры

начните защищать свою компанию, данные и инфраструктуру и получать выгоды от автоматизации киберзащиты

Подписка
Будьте на связи

Для получения полезных материалов и последних новостей, введите свое имя и электронную почту
Кибербезопасность для бизнеса простым языком — подписывайтесь на наш телеграм канал! Подписаться