Что такое маскировка данных и как правильно ее реализовать?
Опубликовано: 2023-03-13Штрафы, связанные с раскрытием конфиденциальных данных, растут. Например, серьезные нарушения GDPR могут стоить компаниям до 4% их годового глобального оборота, а грубые нарушения HIPAA могут привести к тюремному заключению.
Ваша производственная среда может быть полностью защищена. Но как насчет инициатив по тестированию и демонстраций продаж? Вы уверены в сторонних подрядчиках, которые имеют доступ к вашим конфиденциальным данным? Сделают ли они все возможное, чтобы защитить его?
Чтобы обеспечить соответствие требованиям и безопасность данных, компании обращаются к поставщикам услуг по управлению данными. Если вы также заинтересованы, ознакомьтесь с этим руководством, ответив на три важных вопроса:
- Что такое маскировка данных?
- Зачем и когда вам это нужно, и
- Как ваша компания может успешно внедрить его?
Здесь также представлен подробный пример маскирования данных из нашего портфолио. После прочтения статьи у вас будет достаточно информации для переговоров с поставщиками маскирования данных.
Понимание маскировки данных
Итак, что такое маскировка данных?
Маскировка данных определяется как создание реалистичной и структурно похожей, но, тем не менее, поддельной версии организационных данных. Он изменяет исходные значения данных с помощью методов манипулирования, сохраняя при этом тот же формат, и предоставляет новую версию, которую нельзя реконструировать или отследить до аутентичных значений. Вот пример замаскированных данных:
Вам нужно применять алгоритмы маскирования данных ко всем данным, хранящимся в вашей компании? Скорее всего нет. Вот типы данных, которые вам обязательно нужно защитить:
- Защищенная медицинская информация (PHI) включает медицинские записи, лабораторные анализы, информацию о медицинском страховании и даже демографические данные.
- Информация о платежной карте связана с информацией о кредитной и дебетовой карте и данными о транзакциях в соответствии со Стандартом безопасности данных индустрии платежных карт (PCI DSS).
- Личная информация (PII) , такая как паспорт и номера социального страхования. По сути, любая информация, которая может быть использована для идентификации человека.
- Интеллектуальная собственность (ИС) включает изобретения, такие как промышленные образцы, или все, что имеет ценность для организации и может быть украдено.
Зачем нужно маскирование данных?
Маскировка данных защищает конфиденциальную информацию, используемую в непроизводственных целях. Таким образом, пока вы используете любой из типов конфиденциальных данных, представленных в предыдущем разделе, в обучении, тестировании, демонстрациях продаж или любых других видах непроизводственной деятельности, вам необходимо применять методы маскирования данных. Это имеет смысл, поскольку непроизводственные среды обычно менее защищены и содержат больше уязвимостей в системе безопасности.
Более того, если есть необходимость поделиться своими данными со сторонними поставщиками и партнерами, вы можете предоставить доступ к замаскированным данным вместо того, чтобы заставлять другую сторону соблюдать ваши обширные меры безопасности для доступа к исходной базе данных. Статистика показывает, что 19% утечек данных происходит из-за компрометации со стороны бизнес-партнера.
Кроме того, маскирование данных может дать следующие преимущества:
- Делает организационные данные бесполезными для киберпреступников, если они могут получить к ним доступ
- Снижает риски, связанные с обменом данными с авторизованными пользователями и аутсорсинговыми проектами.
- Помогает соблюдать нормативные акты, связанные с конфиденциальностью и безопасностью данных, такие как Общий регламент по защите данных (GDPR), Закон о переносимости и подотчетности медицинского страхования (HIPAA) и любые другие нормативные акты, применимые в вашей области.
- Защищает данные в случае удаления, так как обычные методы удаления файлов по-прежнему оставляют след старых значений данных
- Защищает ваши данные в случае несанкционированной передачи данных
Типы маскирования данных
Существует пять основных типов маскирования данных, предназначенных для удовлетворения различных потребностей организации.
1. Маскировка статических данных
Это подразумевает создание резервной копии исходных данных и их безопасное хранение в отдельной среде для производственных сценариев использования. Затем он маскирует копию, добавляя поддельные, но реалистичные значения, и делает ее доступной для непроизводственных целей (например, тестирования, исследований), а также для обмена с подрядчиками.
2. Динамическое маскирование данных
Направлен на изменение фрагмента исходных данных во время выполнения при получении запроса к базе данных. Таким образом, пользователь, не авторизованный для просмотра конфиденциальной информации, запрашивает производственную базу данных, и ответ маскируется на лету без изменения исходных значений. Вы можете реализовать это через прокси базы данных, как показано ниже. Этот тип маскирования данных обычно используется в настройках только для чтения, чтобы предотвратить переопределение производственных данных.
3. Маскировка данных на лету
Этот тип маскирования данных маскирует данные при их передаче из одной среды в другую, например, из рабочей среды в тестовую. Он популярен среди организаций, которые постоянно развертывают программное обеспечение и выполняют интеграцию больших объемов данных.
4. Детерминированное маскирование данных
Заменяет данные столбца тем же фиксированным значением. Например, если вы хотите заменить «Оливию» на «Эмму», вы должны сделать это во всех связанных таблицах, а не только в таблице, которую вы в данный момент маскируете.
5. Обфускация статистических данных
Это используется для раскрытия информации о шаблонах и тенденциях в наборе данных без предоставления каких-либо подробностей о реальных людях, представленных в нем.
7 основных методов маскировки данных
Ниже вы можете найти семь самых популярных методов маскирования данных. Вы можете комбинировать их для удовлетворения различных потребностей вашего бизнеса.
- Перетасовка. Вы можете перемешивать и переназначать значения данных в одной таблице. Например, если вы перемешаете столбец имени сотрудника, вы получите реальные личные данные одного сотрудника, соответствующие другому.
- Скремблирование. Переставляет символы и целые числа в поле данных в случайном порядке. Если исходный идентификатор сотрудника — 97489376, после применения перетасовки вы получите что-то вроде 37798649. Это ограничено определенными типами данных.
- Обнуление. Это простая стратегия маскирования, при которой полю данных присваивается нулевое значение. Этот метод имеет ограниченное применение, так как имеет тенденцию нарушать логику приложения.
- Замена. Исходные данные заменены фальшивыми, но реалистичными значениями. Это означает, что новое значение по-прежнему должно удовлетворять всем ограничениям домена. Например, вы заменяете номер чьей-то кредитной карты другим номером, который соответствует правилам, установленным банком-эмитентом.
- Дисперсия числа. Это в основном применимо к финансовой информации. Одним из примеров является маскировка исходной заработной платы путем применения +/- 20% дисперсии.
- Дата старения. Этот метод увеличивает или уменьшает дату на определенный диапазон, сохраняя при этом, что результирующая дата удовлетворяет ограничениям приложения. Например, вы можете установить срок действия всех контрактов на 50 дней.
- Усреднение. Включает замену всех исходных значений данных средним значением. Например, вы можете заменить каждое отдельное поле заработной платы средним значением заработной платы в этой таблице.
Как правильно реализовать маскировку данных?
Вот ваш пятиэтапный план внедрения маскирования данных.
Шаг 1: Определите масштаб вашего проекта
Прежде чем начать, вам нужно определить, какие аспекты вы будете охватывать. Вот список типичных вопросов, которые ваша группа данных может изучить, прежде чем приступить к инициативам по маскированию:
- Какие данные мы хотим замаскировать?
- Где он находится?
- Кто имеет право доступа к нему?
- Каков уровень доступа каждого пользователя из вышеперечисленных? Кто может только просматривать, а кто может изменять и удалять значения?
- Какие приложения используют эти конфиденциальные данные?
- Какое влияние окажет маскировка данных на разных пользователей?
- Какой уровень маскировки требуется и как часто нам нужно будет повторять процесс?
- Мы хотим применить маскирование данных во всей организации или ограничить его конкретным продуктом?
Шаг 2. Определите стек методов маскирования данных.
На этом этапе вам необходимо определить, какой метод или комбинация инструментов маскирования данных лучше всего подходят для поставленной задачи.
Прежде всего, вам нужно определить, какие типы данных вам нужно маскировать, например, имена, даты, финансовые данные и т. д., поскольку для разных типов данных требуются специальные алгоритмы маскирования данных. Исходя из этого, вы и ваш поставщик можете выбрать, какие библиотеки с открытым исходным кодом можно повторно использовать для создания наиболее подходящего решения для маскирования данных. Мы советуем обратиться к поставщику программного обеспечения, так как он поможет вам настроить решение и безболезненно интегрировать его в рабочие процессы всей компании, не прерывая бизнес-процессы. Кроме того, можно построить что-то с нуля, чтобы удовлетворить уникальные потребности компании.
Существуют готовые инструменты маскирования данных, которые вы можете приобрести и развернуть самостоятельно, например Oracle Data Masking, IRI FieldShield, DATPROF и многие другие. Вы можете выбрать эту стратегию, если вы самостоятельно управляете всеми своими данными, понимаете, как работают различные потоки данных, и у вас есть ИТ-отдел, который может помочь интегрировать это новое решение для маскирования данных в существующие процессы, не снижая производительности.
Шаг 3. Защитите выбранные алгоритмы маскирования данных
Безопасность ваших конфиденциальных данных во многом зависит от безопасности выбранных алгоритмов генерации поддельных данных. Следовательно, только уполномоченный персонал может знать, какие алгоритмы маскирования данных развернуты, поскольку эти люди могут преобразовать замаскированные данные в исходный набор данных, обладая этими знаниями. Хорошей практикой является применение разделения обязанностей. Например, отдел безопасности выбирает наиболее подходящие алгоритмы и инструменты, а владельцы данных сохраняют настройки, применяемые при маскировании их данных.
Шаг 4. Сохраните ссылочную целостность
Ссылочная целостность означает, что каждый тип данных в вашей организации маскируется одинаковым образом. Это может быть проблемой, если ваша организация довольно велика и имеет несколько бизнес-функций и продуктовых линеек. В этом случае ваша компания, скорее всего, будет использовать разные алгоритмы маскирования данных для разных задач.

Чтобы решить эту проблему, определите все таблицы, содержащие реляционные ограничения, и определите, в каком порядке вы будете маскировать данные, поскольку родительские таблицы должны маскироваться перед соответствующими дочерними таблицами. После завершения процесса маскирования не забудьте проверить, сохранилась ли ссылочная целостность.
Шаг 5: Сделайте процесс маскирования повторяемым
Любая корректировка конкретного проекта или просто общие изменения в вашей организации могут привести к изменению конфиденциальных данных и созданию новых источников данных, что потребует повторения процесса маскирования.
Бывают случаи, когда маскирование данных может быть одноразовым действием, например, в случае подготовки специализированного обучающего набора данных, который будет использоваться в течение нескольких месяцев для небольшого проекта. Но если вам нужно решение, которое прослужит вам долгое время, ваши данные могут в какой-то момент устареть. Итак, потратьте время и усилия на формализацию процесса маскирования, чтобы сделать его быстрым, воспроизводимым и максимально автоматизированным.
Разработайте набор правил маскирования, например, какие данные должны быть замаскированы. Определите любые исключения или особые случаи, которые вы можете предвидеть на данном этапе. Приобретайте/создавайте сценарии и автоматизированные инструменты для согласованного применения этих правил маскирования.
Контрольный список для выбора решения для маскирования данных
Независимо от того, работаете ли вы с поставщиком программного обеспечения по вашему выбору или выбираете готовое решение, конечный продукт должен соответствовать следующим передовым методам маскирования данных:
- Быть необратимым, что делает невозможным преобразование поддельных данных в их подлинные значения.
- Защитите целостность исходной базы данных и не делайте ее бесполезной из-за ошибочного внесения постоянных изменений.
- Маскируйте неконфиденциальные данные, если это необходимо для защиты конфиденциальной информации.
- Предоставьте возможность автоматизации, так как данные в какой-то момент изменятся, и вы не хотите каждый раз начинать с нуля
- Создавайте реалистичные данные, сохраняющие структуру и распределение исходных данных и удовлетворяющие бизнес-ограничениям.
- Возможность масштабирования для размещения любых дополнительных источников данных, которые вы хотите внедрить в свой бизнес.
- Соответствует всем применимым нормам, таким как HIPAA и GDPR, а также вашим внутренним политикам.
- Хорошо интегрируйтесь в существующие системы и рабочие процессы
Проблемы с маскировкой данных
Вот список проблем, с которыми вы можете столкнуться во время внедрения.
- Сохранение формата. Решение для маскирования должно понимать данные и сохранять их исходный формат.
- Сохранение пола. Выбранная методология маскирования данных должна учитывать пол при маскировании имен людей. В противном случае гендерное распределение в наборе данных будет изменено.
- Семантическая целостность. Сгенерированные поддельные значения должны соответствовать бизнес-правилам, ограничивающим различные типы данных. Например, заработная плата должна находиться в определенном диапазоне, а номера социального страхования должны соответствовать заранее определенному формату. Это также верно для сохранения географического распределения данных.
- Уникальность данных. Если исходные данные должны быть уникальными, например идентификационный номер сотрудника, метод маскирования данных должен предоставить уникальное значение.
- Баланс безопасности и удобства использования. Если данные слишком сильно замаскированы, они могут стать бесполезными. С другой стороны, если он недостаточно защищен, пользователи могут получить несанкционированный доступ.
- Интеграция данных в существующие рабочие процессы может быть крайне неудобной для сотрудников в самом начале, поскольку люди привыкли работать определенным образом, который в настоящее время нарушается.
Пример маскирования данных из портфолио ITRex
Международная организация здравоохранения стремилась скрыть конфиденциальную личную информацию (PII), представленную в нескольких форматах и хранящуюся как в производственной, так и в непроизводственной среде. Они хотели создать программное обеспечение для маскировки данных на основе машинного обучения, которое могло бы обнаруживать и запутывать PII, соблюдая при этом внутренние политики компании, GDPR и другие правила конфиденциальности данных.
Наша команда сразу заметила следующие проблемы:
- У клиента были огромные объемы данных, более 10 000 источников данных и множество соответствующих потоков данных.
- Не было четкой стратегии маскировки данных, которая бы охватывала все отделы.
Из-за такого большого разнообразия наша команда хотела разработать набор политик и процессов, которые бы помогли различным владельцам наборов данных маскировать свои данные и послужили бы основой для нашего решения. Например, кто-то может прийти со списком точек данных, которые он хочет запутать один раз или постоянно, и решение, основанное на этих принципах, будет изучать данные и выбирать подходящие методы запутывания и применять их.
Мы подошли к этому проекту, исследуя ландшафт с помощью следующих вопросов:
- Какие решения для управления данными вы используете? Клиент уже использовал Informatica, поэтому мы согласились с этим. Решение Informatica для маскирования данных предлагает готовые функции, которые удовлетворяли некоторые потребности клиента, но этого было недостаточно, чтобы удовлетворить все требования.
- Какие типы данных вы готовы маскировать? Из-за большого количества источников данных было невозможно охватить все сразу. Итак, мы попросили клиента расставить приоритеты и определить, что было критически важным.
- Вы хотите сделать это один раз или сделать это повторяемым процессом?
Ответив на эти вопросы, мы предложили предоставлять маскирование данных как услугу, главным образом потому, что у клиента слишком много источников данных для начала, и на то, чтобы охватить их все, могли уйти годы.
В конце концов, мы предоставили услуги маскирования данных с помощью специального инструмента на основе машинного обучения, который может полуавтоматически выполнять маскирование данных в четыре этапа:
- Определите типы данных. Владельцы данных помещают свои источники данных в инструмент анализа, который изучает данные столбцов и выявляет типы данных, которые он может идентифицировать в этих столбцах, такие как адреса, номера телефонов и т. д. Эксперт-человек проверяет его вывод, позволяя ему учиться на ошибках. .
- Предлагайте подходы к маскированию для каждого столбца и применяйте их после одобрения человеком.
- Разверните результаты. После создания замаскированных данных их необходимо развернуть. Мы предоставили несколько вариантов хранения данных. Это включает, помимо прочего, использование временной базы данных, которая остается активной в течение нескольких дней, назначение постоянного местоположения для маскированных сред, создание файлов со значениями, разделенными запятыми (CSV), и многое другое.
- Изучите набор данных или набор сред и выдайте значок одобрения в качестве доказательства того, что они должным образом замаскированы и соответствуют требованиям.
Это решение для маскирования данных помогло клиенту соответствовать GDPR, значительно сократило время, необходимое для формирования непроизводственной среды, и снизило затраты на перенос данных из рабочей среды в песочницу.
Как сохранить замаскированные данные после реализации?
Ваши усилия не прекращаются, когда конфиденциальные данные маскируются. Вам все еще нужно поддерживать его с течением времени. Вот шаги, которые помогут вам в этой инициативе:
- Установите политики и процедуры, которые управляют маскированными данными. Это включает в себя определение того, кто имеет право на доступ к этим данным, при каких обстоятельствах и для каких целей эти данные служат (например, тестирование, отчетность, исследования и т. д.)
- Обучите сотрудников тому, как использовать и защищать эти данные
- Регулярно проверяйте и обновляйте процесс маскирования, чтобы убедиться, что он остается актуальным.
- Отслеживайте замаскированные данные на предмет любых подозрительных действий, таких как попытки несанкционированного доступа и взломы.
- Выполняйте замаскированные резервные копии данных, чтобы убедиться, что их можно восстановить
Заключительные мысли
Маскирование данных защитит ваши данные в непроизводственной среде, позволит вам обмениваться информацией со сторонними подрядчиками и поможет вам в соблюдении нормативных требований. Вы можете приобрести и развернуть решение для запутывания данных самостоятельно, если у вас есть ИТ-отдел и вы контролируете свои потоки данных. Однако имейте в виду, что неправильная реализация маскирования данных может привести к довольно неприятным последствиям. Вот некоторые из наиболее известных:
- Мешает производительности. Выбранные методы маскирования данных могут вызвать большие ненужные задержки в обработке данных, тем самым замедляя работу сотрудников.
- Стать уязвимым к утечке данных. Если ваши методы маскировки данных или их отсутствие не смогут защитить конфиденциальные данные, будут финансовые и юридические последствия вплоть до отбывания срока в тюрьме.
- Получение неточных результатов анализа данных. Это может произойти, если данные маскируются неправильно или слишком сильно. Исследователи неправильно интерпретируют набор экспериментальных данных и придут к ошибочным выводам, которые приведут к неудачным бизнес-решениям.
Следовательно, если компания не уверена в своих способностях выполнять инициативы по запутыванию данных, лучше всего обратиться к внешнему поставщику, который поможет выбрать правильные методы маскирования данных и интегрировать конечный продукт в ваши рабочие процессы с минимальными перерывами.
Оставайтесь защищенными!
Рассматриваете возможность внедрения решения для маскировки данных? Связаться! Мы поможем вам расставить приоритеты для ваших данных, создать соответствующий инструмент обфускации и развернуть его, не прерывая ваши бизнес-процессы.
Первоначально опубликовано на https://itrexgroup.com 28 февраля 2023 г.