Сфера информационной безопасности также активно внедряет эти инновации. Возможности нейронных сетей стали важной частью системы «Гарда DCAP». В данном материале мы подробно разбирем принципы работы алгоритмов и их роль в защите корпоративных активов внутри DCAP-решений.

В последние годы вектор развития информационных технологий неразрывно связан с прогрессом в области искусственного интеллекта. Масштабируемость и гибкость нейросетей позволяют интегрировать их в самые разные индустрии. Сегодня нейросетевые инструменты повсеместно применяются для генерации фотореалистичного контента, подготовки маркетинговых текстов и написания учебных работ.
Даже люди, чья деятельность не связана с написанием кода, так или иначе постоянно используют алгоритмическое мышление. Объясняя ребенку способ вычисления площади круга, мы обращаемся к четкой формуле: возвести радиус в квадрат и умножить на число Пи. Такую последовательность действий предельно просто автоматизировать. Пример реализации на языке Python:
from math import pi
def get_circle_area(radius):
return pi * (radius ** 2)
Однако представьте задачу посложнее: как научить ребенка отличать на снимке кошку от собаки? Для человеческого мозга это секундное дело, но сформулировать четкий логический алгоритм распознавания крайне трудно. Форма ушей или разрез глаз могут варьироваться, а части тела могут быть скрыты, но мы все равно безошибочно определим животное. Наше сознание опирается на визуальный опыт миллионов образов, формируя целостное представление мгновенно. Создать классический код для такой задачи практически невозможно — и здесь на сцену выходят нейросети.
Если использовать упрощенную математическую аналогию, нейросеть можно сравнить с комплексной системой уравнений:
X + Y = 10
Y - 2 = 3
В данном случае нам требуется подобрать такие значения X и Y, чтобы равенства стали верными. Нейронная сеть — это колоссальная математическая модель, в которую загружаются эталонные ответы, а она самостоятельно корректирует миллионы внутренних параметров (свои X и Y), пока не достигнет нужного результата.
Процесс обучения нейросети во многом повторяет развитие мозга. Алгоритму демонстрируют массивы фотографий с соответствующими пометками. В процессе обработки сеть адаптирует свои внутренние коэффициенты, чтобы в дальнейшем автономно и точно идентифицировать объекты на новых кадрах.
Поскольку нейросети способны осваивать огромные пласты знаний, их использование в кибербезопасности стало закономерным шагом. На текущий момент в ИБ-решениях доминируют два ключевых направления: CV (computer vision, компьютерное зрение) и NLP (natural language processing, обработка естественного языка). Рассмотрим их специфику.
Компьютерное зрение (CV). Хотя название звучит как из области научной фантастики, на деле это задачи по автоматизированному анализу графического и видеоконтента. В корпоративных хранилищах накапливаются терабайты визуальных данных: сканы документов, личные фото сотрудников, скриншоты, обои для рабочих столов. Нейросети позволяют классифицировать этот массив, выделяя критически важные объекты, подверженные риску кражи, например, изображения паспортов сотрудников или договоров.
Обработка естественного языка (NLP). Работа с текстовыми массивами требует еще более тонкого подхода из-за высокой скорости их прироста. Традиционный поиск по ключевым словам часто дает сбои из-за опечаток или намеренного искажения текста недобросовестными сотрудниками, пытающимися скрыть передачу конфиденциальных сведений. Необходимы интеллектуальные системы, способные анализировать контекст и семантику, извлекая смысл документа, а не просто фиксируя набор символов.
Нейросети применяются и в системе Гарда DCAP, а именно для эффективного выявления и классификации информации на файловых хранилищах. Учитывая разнообразие форматов конфиденциальной информации, использование ИИ становится обязательным условием для качественного анализа.
С помощью методов компьютерного зрения Гарда DCAP может выявлять нарушения 152-ФЗ. Например, если где-то в сети появятся отсканированные паспорта сотрудников компании, интеллектуальные алгоритмы системы выявят компрометацию персональных данных, и отдел ИБ сможет решить проблему с наименьшим уроном.
При этом Гарда DCAP позволяет реализовать гораздо более гибкий подход. При анализе отсканированных документов можно обнаружить дополнительные признаки, например: наличие печатей и подписей, таблиц, фирменных бланков и многого другого. Комбинируя эти признаки, можно находить среди моря офисных документов те, что соответствуют нужному формату. Предположим, отдел ИБ установил, что сотрудник случайно выложил в сеть скан корпоративного письма с конфиденциальными данными. Система Гарда позволяет задать гибкие критерии поиска, чтобы проверить, был ли этот случай единичным.
Процесс обработки изображений выглядит так: при обнаружении графического файла он направляется в специализированный микросервис, где первая нейросеть проводит базовую классификацию по 12 категориям:
Водительские права
Банковская карта
Свидетельство о рождении (старого и нового образца)
Документы об образовании
Полис ОМС
Военный билет
Пенсионное удостоверение
Паспорт
СНИЛС (старого и нового образца)
Загранпаспорт
Прочие офисные документы
Прочие изображения
Если объект попадает в первые 10 групп, он автоматически получает метку «152-ФЗ», и обработка завершается. Файлы 12-й категории (личные фото, обои) игнорируются как не представляющие интереса для ИБ.
Для 11-й категории (офисная документация) запускается углубленный анализ. Нейросеть-детектор начинает поиск специфических элементов:
Гербовые, круглые, треугольные и прямоугольные печати;
Различные типы ЭЦП (с гербом, логотипом или текстовые);
Угловые штампы и фирменные бланки;
Собственноручные подписи и блоки реквизитов;
Графики, таблицы и фотографии лиц.
После этого в дело вступает третья нейросеть, определяющая наличие гербовой бумаги. Итоговые данные о классе документа и найденных атрибутах возвращаются в систему для принятия решения.
Методы NLP в «Гарда DCAP» позволяют эффективно сегментировать отчетность, договоры и счета. Система не просто определяет тип файла, но и идентифицирует упомянутых субъектов (персон и организации). Это дает возможность мгновенно найти, например, все контракты, подписанные генеральным директором, или документы, касающиеся стратегических партнеров.
Алгоритм работы с текстом имеет свою специфику. После извлечения текстового слоя из файла проводится предобработка, затем нейросеть-классификатор соотносит содержание с одной из категорий:
Документация
Прочие офисные документы
Художественная литература (нецелевые тексты)
Договоры
Технические задания
Справки
Годовые и квартальные отчёты
Квитанции
Если обнаружена художественная литература, микросервис возвращает системе Гарда DCAP обнаруженный класс и больше с текстом ничего не делает.
Во всех остальных случаях он запускает поиск именованных сущностей (named entity recognition или NER), то есть в тексте выявляют все названия организаций и имена людей. Каждое найденное название организации приводят к именительному падежу (Министерства культуры Российской Федерации -> Министерство культуры Российской Федерации). А найденные разделяются на фамилию, имя и отчество и приводятся к виду «Фамилия И О» в именительном падеже.
Затем все дубликаты названий и имён удаляются, микросервис возвращает системе Гарда обнаруженный класс и найденные именованные сущности без них.
Нейросети уже трансформировали подход к решению задач, которые долгое время считались невыполнимыми. Несмотря на сложность долгосрочного прогнозирования в условиях бурного роста технологий, очевидно: ИИ стал неотъемлемой частью ИТ-ландшафта. В сфере информационной безопасности использование нейросетей перешло из разряда инноваций в разряд необходимости. Способность алгоритмов к самообучению и обработке колоссальных объемов данных делает их незаменимым инструментом для защиты и классификации корпоративной информации.
Защита неструктурированных данных
Контролирует доступ к информационным ресурсам и защищает файловые хранилища.

Поделиться: