Помимо моделей для работы с числами и текстами, мы используем третий тип для работы с последовательностями, который
подключается в цепь обработки первых двух. Задача этой модели идентифицировать отклонения в выборе типичных маршрутов
пользователей во время передвижения по ресурсам. Эта модель обучается на том же наборе данных, на которых
тренировалась текстовая, однако в основе ее архитектуры ‒ классификатор с использованием слоев LSTM. Для модели, которая работает с последовательностями, данные дополнительно обрабатываются
через алгоритм, который усредняет назначения запросов. Затем на основе выбранных уникальных конструкций создается
словарь для последующего упрощения работы с данными под эту модель, а также карта разрешенных после определенных
запросов маршрутов.
Итак, у нас есть данные в виде последовательностей, которые были закодированы, а затем переведены словарем в удобный
для обучения вид. Однако, раз мы собрались делить результат по категориям, нам потребуются данные для обучения и
второй, некорректной категории. Обычно это как раз тот случай, когда требуется ручная разметка. Однако благодаря
автоматической обработке данных с предыдущих действий мы можем воспользоваться нашим словарем и картой маршрутов для
создания «злого двойника» нашего датасета. Для этого создадим датасет той же длины, но нарушим все собранные правила
карты маршрутов и проведем его через тот же словарь.
Благодаря тому, что вся предварительная обработка автоматизирована, мы вольны задавать длину целевой
последовательности для каждого уникального случая: будь то проверка на коротких последовательностях из трех запросов
или пачки из 10. Все это позволяет модели детектировать случаи перехода на ресурсы, куда рядовой пользователь будет
обращаться только через другие запросы. Например, заметит частые обновления страниц, если это не являлось нормой для
других пользователей, и сможет находить отклонения в самих запросах.
Отметим два нюанса: во-первых, не для всех защищаемых ресурсов такая модель имеет смысл, а потому не является
обязательной. Если предполагается, что для ресурса можно вывести логику поведения в последовательных запросах, то
имеет смысл попробовать обучить эту модель. Во-вторых, эта модель не является полноценной заменой текстовой модели.
Из-за особенностей подготовки датасета ссылки сильно теряют в своей уникальности, что исключает определение
корректности отдельно взятого запроса. Поэтому в случае, если проверка не нашла отклонений на основе результатов этой
модели, для большей надежности следом запрос будет проверен цифровой и текстовой моделями.
Поделиться: