Лингвистический анализ
Технология лингвистического анализа позволяет настроить список слов или фраз для анализа текстовой информации. При
перехвате текстового файла в потоке трафика DLP-система сравнивает наличие слов из списка в перехваченном документе и,
если такие слова встречаются в определенном количестве, создает событие.
Лингвистический анализ позволяет решить следующие задачи:
-
Классифицировать документы: финансы, бухгалтерия, конструкторская документация и т.д.
-
Если документ имеет общий шаблон, но какая-то часть документа изменяется регулярно, например, шаблоны бланков, то
технология помогает детектировать такие шаблоны.
-
Детектирование по триггерам (например, по словам в общении работников, связанных с незаконными действиями,
обсуждением руководства, ненормативной лексикой и др.).
Регулярные выражения (RegExp или иные)
Если в случае с набором слов все понятно, то что делать с наборами цифр или сочетаниями цифр и букв в документе? Как
отличить гриф от фразы в тексте? На помощь приходят регулярные выражения. Это формальный язык, который позволяет
описывать варианты последовательностей символов. С помощью регулярных выражений система детектирует конкретный объект
(номера карт, паспортные данные, номера деталей и так далее).
Важно понимать, что актив – это не всегда конкретный документ. Например, утечка паспортных данных в теле письма –
тоже потенциальное нарушение. Актив – это конкретные данные в документе. Для детектирования активов регулярные
выражения подходят наилучшим образом.
Как отличить конкретный номер документа (Пример: УРН 34П65), который проставляется на документы в организации, от
любого другого номера?
Рассмотрим примеры применения регулярных выражений.
-
Регулярное выражение позволяет детектировать не просто сам актив, но и окружающие его символы. В случае
детектирования грифа «Коммерческая тайна» необходимо описать регулярное выражение:
(\r|\n|\t|^)((КОММЕРЧЕСКАЯ ТАЙНА)|(КТ)|([Кк]оммерческая [Тт]айна))(\r|\n|\t|$)
,
где \r|\n|\t
— управляющая последовательность «возврат каретки»,
управляющая последовательность «горизонтальный табулятор»,
управляющая последовательность «перевод строки» соответственно,
^
и $
— начало строки и конец строки соответственно.
«Коммерческая тайна» в разных вариантах написания: разный регистр, табуляцией вначале и конце и так далее.
При такой форме описания объекта можно не переживать за ЛПС в обычном тексте (например, в подписи письма), при
этом детектирование грифа «Коммерческая тайна» будет производиться корректно.
-
Не всегда получается ориентироваться на конкретный документ, так как слова внутри встречаются общие (например,
любая форма договора). В таком случае приходится искать какой-то признак важности документа. Например, учетный
номер документа.
Предположим, есть условный УРН (учетный регистрационный номер) – такой номер в организации проставляется на все
важные документы. По регламенту компании наличие этого номера в заданном формате автоматически делает документ
конфиденциальным.
Зная алгоритм формирования УРН, можно настроить регулярное выражение:
\s*УРН\S*[0-9]{2}(Д|А)[0-9]{2}\s*
,
где УРН
— фиксированные символы,
[0-9]
— встречающиеся символы,
{2}
— количество предыдущих символов,
(Д|А)
Д — действующий, А – архивный.
Пример для проверки регулярного выражения: УРН 11А56
.
Подобные документы передаются по каналам коммуникаций с уже проставленным номером. Это, как правило, скан-копии
документов. Это значит, что мы говорим о детектировании растровых изображений (pdf-, image-форматах).
Для детектирования подобных кейсов зачастую DLP-системы имеют встроенный OCR-модуль, позволяющий извлекать текст
из изображений. Дальше этот текст направляется на анализ всем вышеперечисленным технологиям.
Цифровые отпечатки
Под цифровыми отпечатками подразумеваются неизменяемые документы или файлы. Например, у ресторана есть свой рецепт
блюда, этот рецепт статичен и никогда не изменяется. Файл, содержащий описание рецепта, необходимо защищать.
Технология работает просто: документ загружается в базу DLP как эталонный. Система записывает хеш этого документа
(алгоритмы хеширования: SHA-1, MDA-5, SHA-256 или выше), после чего сверяет в проходящем трафике хеши всех
передаваемых документов с базой эталонного и, если хеши совпадают, система подсвечивает срабатывание.
Преимущества:
-
Технология используется как для бинарных файлов, так и для текстовых. То есть если необходимо детектировать с
помощью DLP конкретную аудиозапись, то данная технология будет решением.
-
Простота настройки. Один клик – система все запоминает и в дальнейшем работает автоматически.
Минусы: слабая устойчивость к внесению изменений в файлы. Например, в эталоны загружается jpg-файл и в DLP-системе
формируется эталонный хеш. Если злоумышленник при передаче меняет один пиксель в исходном файле, то хеш в этом
передаваемом файле меняется. Как итог – DLP-система не обнаружит инцидент и срабатывания не будет.
ML-модели
Что делать с изображениями паспортов, СНИЛС, водительских удостоверений и с другими графическими персональными
данными (сканы, в частности), в которых логика построения элементов внутри одинаковая, но сами изображения всегда
разные?
Для таких случаев существуют технологии машинного обучения для детектирования похожих картинок.
В некоторых DLP-системах имеется ML-модель (machine learning – от англ. машинное обучение), которая уже обучена на
часто встречающиеся персональные данные: разворот паспорта, лицевая сторона СНИЛС и так далее.
Мы рассмотрели технологии контентного анализ, которые помогают определять содержимое файлов, но необходимо помнить,
что сама политика безопасности формируется не только из технологий, но и из дополнительных параметров. Рассмотрим
типовые дополнительные параметры.
Поделиться: