Использование машинного обучения для выявления скрытых угроз веб-безопасности

Продукты и системы безопасности

Защита данных

Сетевая безопасность

Экспертиза и сервисы

Обзор всех систем

Полезное

Новости и аналитика

Новости, исследования и статьи

Мероприятия

Наши и партнёрские события

Видео

Записи вебинаров и интерактивные материалы

Отрасли

Финансовые организации

Защита финансового сектора

Государственный сектор

Безопасность государственных организаций

Связь и телекоммуникации

Безопасное развитие телекоммуникационных компаний

Энергетика

Защита информации в энергетических компаниях

Промышленность

Комплексная защита промышленных предприятий

Ритейл и e-com

Безопасность розничных продаж

СМИ

Обеспечение защиты средств массовой информации

Обзор всех систем

Партнеры

Наши партнеры

Дистрибьюторы, интеграторы, технологические партнеры

Стать партнером

Приглашаем к сотрудничеству

Личный кабинет

Вход в партнерский портал

Поддержка

Техническая поддержка

Комплексная техническая поддержка

Вход в портал техподдержки

Для пользователей продуктов

Техническая документация

Для клиентов техподдержки

Жизненный цикл

Сроки поддержки безопасности сертифицированных версий

Компания

О нас

Знакомство с компанией

ML-модели для анализа веб-угроз

Универсальные ML-модели

Большинство решений для проверки логов и запросов на наличие вредоносного кода используют большие и универсальные ML-модели. Такие модели не только проверяют историю, но и выявляют нарушителей, точно определяя тип угрозы. Более того, их разработчики часто заявляют о 99% точности. Звучит впечатляюще!

Специализированные ML-модели малого масштаба

Помимо обучения с учителем (supervised), существует и обучение без учителя (unsupervised). Если собранные данные имеют единый формат и точную классификацию, первый подход дает наилучший результат. Но если все входные данные исключительно чистые, их можно использовать без предварительной ручной разметки, в качестве идеальных примеров для обучаемой модели. Проблема в том, что без ручной разметки обученная модель не сможет определять точный характер обнаруженных нарушений.

Рассмотрим решение задачи по анализу логов и выявлению веб-угроз с помощью ML на примере. Для обнаружения аномалий в логах была собрана не универсальная модель, а группа моделей-детекторов под трафик с предопределенного ресурса. Для этого был разработан разделенный модуль анализа трафика на основе логов nginx’а.

Для каждого сайта создали свой набор детекторов. Данные для каждой записи из таблицы логов поделили на два типа: «числовые» и «текстовые», и для каждого типа создали свою модель, которая определяет нарушения в предоставленной истории. Этот подход увеличивает вероятность ложных срабатываний, поэтому появилась необходимость также добавлять фильтрующий алгоритм оценки результата. Таким образом, данные проходят полный цикл проверок всеми модулями детектора, и аномальные данные сразу получают соответствующие пометки.

Архитектура и применение специализированных моделей

Обе модели имеют архитектуру «автокодировщик» (autoencoder). Подобные модели всегда имеют три основных слоя: входной, промежуточный и выходной. Но остальная структура и количество параметров подбирается под конкретные задачи. Данные из входного слоя сжимаются в промежуточный в соответствии с установленными параметрами, и модель учится восстанавливать данные таким образом, чтобы выходной слой был максимально близок к входному. Такая архитектура заставляет нейросеть обучаться, выявлять корреляции и общие признаки. Несмотря на простоту структуры, она до сих пор встречается при решении множества задач: от поиска отличий элементов в больших массивах данных до участия в генерации изображений.

Немного тестов

Разберем работу специализированных небольших ML-моделей на примере автокодера с прямым кодированием текста (о способе кодирования ниже). Допустим, пользователь использовал следующий текст в реквесте:

/wp-content/uploads/2024/09/photo_2024-06-14_09-49-43.jpg

Эта запись идентична многим подобным, которые использовались в датасете при обучении. Поэтому при проверке этой записи мы получим ожидаемую для этой модели потерю:

Применение ML-моделей к более сложным случаям

Помимо моделей для работы с числами и текстами, мы используем третий тип для работы с последовательностями, который подключается в цепь обработки первых двух. Задача этой модели идентифицировать отклонения в выборе типичных маршрутов пользователей во время передвижения по ресурсам. Эта модель обучается на том же наборе данных, на которых тренировалась текстовая, однако в основе ее архитектуры ‒ классификатор с использованием слоев LSTM. Для модели, которая работает с последовательностями, данные дополнительно обрабатываются через алгоритм, который усредняет назначения запросов. Затем на основе выбранных уникальных конструкций создается словарь для последующего упрощения работы с данными под эту модель, а также карта разрешенных после определенных запросов маршрутов.

Итак, у нас есть данные в виде последовательностей, которые были закодированы, а затем переведены словарем в удобный для обучения вид. Однако, раз мы собрались делить результат по категориям, нам потребуются данные для обучения и второй, некорректной категории. Обычно это как раз тот случай, когда требуется ручная разметка. Однако благодаря автоматической обработке данных с предыдущих действий мы можем воспользоваться нашим словарем и картой маршрутов для создания «злого двойника» нашего датасета. Для этого создадим датасет той же длины, но нарушим все собранные правила карты маршрутов и проведем его через тот же словарь.

Благодаря тому, что вся предварительная обработка автоматизирована, мы вольны задавать длину целевой последовательности для каждого уникального случая: будь то проверка на коротких последовательностях из трех запросов или пачки из 10. Все это позволяет модели детектировать случаи перехода на ресурсы, куда рядовой пользователь будет обращаться только через другие запросы. Например, заметит частые обновления страниц, если это не являлось нормой для других пользователей, и сможет находить отклонения в самих запросах.

Отметим два нюанса: во-первых, не для всех защищаемых ресурсов такая модель имеет смысл, а потому не является обязательной. Если предполагается, что для ресурса можно вывести логику поведения в последовательных запросах, то имеет смысл попробовать обучить эту модель. Во-вторых, эта модель не является полноценной заменой текстовой модели. Из-за особенностей подготовки датасета ссылки сильно теряют в своей уникальности, что исключает определение корректности отдельно взятого запроса. Поэтому в случае, если проверка не нашла отклонений на основе результатов этой модели, для большей надежности следом запрос будет проверен цифровой и текстовой моделями.

Выводы

Разработка системы модульного распознавания аномалий на данный момент все еще продолжается. Однако уже сейчас на основе протестированных в процессе данных можно сделать выводы о точности и целесообразности такого метода.

Тестирование проводилось на выборке трафика из логов 496 пользователей с суммарным объемом в 446 543 записей, куда мы, помимо нормальных логов, заранее поместили записи 81 пользователя с различными отклонениями от норм в поведении. В результате анализа по завершении процесса валидации мы получили отчет о 82 потенциальных нарушениях, выявленных моделью последовательностей и 81 потенциальном нарушении, выявленном парными моделями для тестовых и числовых данных. Таким образом были зарегистрированы все пользователи с нарушениями и по одному пользователю отмечено ложное срабатывание в модели последовательностей.

Если говорить о точности, то тестирование показывает, что некоторые одиночные запросы все еще могут ускользнуть от определения типовыми моделями. Равно как и необычные запросы нормального пользователя могут вызвать срабатывание системы безопасности. Также достоверность работы модели последовательностей стоит оценивать аккуратнее, так как поведение пользователей сложно поддается объективной оценке и является отдельной задачей, которая требует дополнительной проработки.

Если считать только по общему количеству данных, то погрешность в точности определения пользователей с нелегитимными запросами (с учетом использования трех моделей одновременно) составляет 0.002. Такое небольшое значение отклонения во многом заслуга большого объема чистых записей и, хотя оно выглядит красиво, на деле не совсем точно отображает реальное положение дел. В реальности к наиболее очевидному недостатку системы можно отнести тот факт, что она функционирует только при наличии достаточного количества записей при проверках. К тому же, модель последовательностей имеет ограничения в применении.

Стоит отметить, что модульная проверка указывает на источник срабатывания, но минусом такой системы является невозможность точной идентификации типа зафиксированного отклонения или угрозы. Однако в случаях, когда проверяются большие объемы данных и особенно при верном выборе способа кодирования текстовых данных запроса, такой способ становится не менее точным, чем использование больших универсальных моделей.