Apa itu Data Masking, dan Bagaimana Menerapkannya dengan Cara yang Benar?

Diterbitkan: 2023-03-13

Denda terkait paparan data sensitif semakin meningkat. Misalnya, pelanggaran GDPR besar dapat merugikan perusahaan hingga 4% dari omset global tahunan mereka, sedangkan pelanggaran HIPAA berat dapat mengakibatkan hukuman penjara.

Lingkungan produksi Anda mungkin terlindungi sepenuhnya. Tapi bagaimana dengan inisiatif pengujian dan demo penjualan? Apakah Anda yakin dengan kontraktor pihak ketiga yang memiliki akses ke data sensitif Anda? Akankah mereka melakukan yang terbaik untuk melindunginya?

Untuk memastikan kepatuhan dan keamanan data, perusahaan beralih ke penyedia layanan manajemen data. Jika Anda juga tertarik, lihat panduan ini untuk menjawab tiga pertanyaan penting:

  • Apa itu penyamaran data?
  • Mengapa dan kapan Anda membutuhkannya, dan
  • Bagaimana perusahaan Anda dapat mengimplementasikannya dengan sukses?

Ini juga menyajikan contoh penyembunyian data terperinci dari portofolio kami. Setelah membaca artikel, Anda akan memiliki informasi yang cukup untuk bernegosiasi dengan vendor penyamaran data.

Memahami penyembunyian data

Jadi, apa itu penyamaran data?

Penyembunyian data didefinisikan sebagai membangun versi data organisasi yang realistis dan serupa secara struktural, namun tetap palsu. Itu mengubah nilai data asli menggunakan teknik manipulasi sambil mempertahankan format yang sama, dan memberikan versi baru yang tidak dapat direkayasa balik atau dilacak kembali ke nilai asli. Berikut adalah contoh data bertopeng:

Apakah Anda perlu menerapkan algoritme penyamaran data ke semua data yang disimpan di dalam perusahaan Anda? Kemungkinan besar tidak. Berikut adalah tipe data yang pasti perlu Anda lindungi:

  • Protected Health Information (PHI) mencakup rekam medis, tes lab, informasi asuransi kesehatan, dan bahkan demografi.
  • Informasi kartu pembayaran terkait dengan informasi kartu kredit dan debit serta data transaksi berdasarkan Standar Keamanan Data Industri Kartu Pembayaran (PCI DSS).
  • Informasi identitas pribadi (PII) , seperti paspor dan nomor jaminan sosial. Pada dasarnya, informasi apa pun yang dapat digunakan untuk mengidentifikasi seseorang.
  • Kekayaan intelektual (IP) mencakup penemuan, seperti desain, atau apapun yang memiliki nilai bagi organisasi dan dapat dicuri.

Mengapa Anda membutuhkan penyamaran data?

Penyembunyian data melindungi informasi sensitif yang digunakan untuk tujuan non-produktif. Jadi, selama Anda menggunakan salah satu jenis data sensitif yang disajikan di bagian sebelumnya dalam pelatihan, pengujian, demo penjualan, atau jenis aktivitas nonproduksi lainnya, Anda perlu menerapkan teknik penyembunyian data. Ini masuk akal karena lingkungan non-produksi biasanya kurang terlindungi dan menimbulkan lebih banyak kerentanan keamanan.

Selain itu, jika ada kebutuhan untuk membagikan data Anda dengan vendor dan mitra pihak ketiga, Anda dapat memberikan akses ke data yang disamarkan alih-alih memaksa pihak lain untuk mematuhi tindakan keamanan ekstensif Anda untuk mengakses database asli. Statistik menunjukkan bahwa 19% pelanggaran data terjadi karena kompromi di pihak mitra bisnis.

Selain itu, penyembunyian data dapat memberikan keuntungan berikut:

  • Membuat data organisasi tidak berguna bagi penjahat dunia maya jika mereka dapat mengaksesnya
  • Mengurangi risiko yang ditimbulkan oleh berbagi data dengan pengguna resmi dan proyek outsourcing
  • Membantu mematuhi peraturan terkait privasi dan keamanan data, seperti Peraturan Perlindungan Data Umum (GDPR), Undang-Undang Portabilitas dan Akuntabilitas Asuransi Kesehatan (HIPAA), dan peraturan lainnya yang berlaku di bidang Anda
  • Melindungi data jika terjadi penghapusan, karena metode penghapusan file konvensional masih meninggalkan jejak nilai data lama
  • Lindungi data Anda jika terjadi transfer data yang tidak sah

Jenis penyamaran data

Ada lima jenis utama penyembunyian data yang bertujuan untuk menutupi kebutuhan organisasi yang berbeda.

1. Penyamaran data statis

Ini berarti membuat cadangan data asli dan menjaganya tetap aman di lingkungan terpisah untuk kasus penggunaan produksi. Kemudian ia menyamarkan salinan tersebut dengan memasukkan nilai palsu namun realistis, dan membuatnya tersedia untuk tujuan non-produksi (misalnya pengujian, penelitian), serta berbagi dengan kontraktor.

2. Penyembunyian data dinamis

Bertujuan untuk mengubah kutipan dari data asli saat runtime saat menerima kueri ke database. Jadi, pengguna yang tidak diizinkan untuk melihat informasi sensitif menanyakan database produksi, dan responsnya disamarkan dengan cepat tanpa mengubah nilai aslinya. Anda dapat mengimplementasikannya melalui proxy database, seperti yang disajikan di bawah ini. Jenis penyembunyian data ini biasanya digunakan dalam pengaturan hanya-baca untuk mencegah penimpaan data produksi.

3. Penyamaran data saat itu juga

Jenis penyamaran data ini menyamarkan data saat mentransfernya dari satu lingkungan ke lingkungan lain, seperti dari produksi ke pengujian. Ini populer dengan organisasi yang terus menyebarkan perangkat lunak dan melakukan integrasi data besar.

4. Penyamaran data deterministik

Mengganti data kolom dengan nilai tetap yang sama. Misalnya, jika Anda ingin mengganti “Olivia” dengan “Emma”, Anda harus melakukannya di semua tabel terkait, tidak hanya di tabel yang sedang Anda sembunyikan.

5. Kebingungan data statistik

Ini digunakan untuk mengungkapkan informasi tentang pola dan tren dalam kumpulan data tanpa membagikan detail apa pun tentang orang sebenarnya yang diwakili di sana.

7 teknik penyamaran data utama

Di bawah ini Anda dapat menemukan tujuh teknik penyamaran data yang paling populer. Anda dapat menggabungkannya untuk memenuhi berbagai kebutuhan bisnis Anda.

  1. Mengocok. Anda dapat mengacak dan menetapkan kembali nilai data dalam tabel yang sama. Misalnya, jika Anda mengacak kolom nama karyawan, Anda akan mendapatkan detail pribadi asli dari satu karyawan yang dicocokkan dengan yang lain.
  2. Berebut. Mengatur ulang karakter dan bilangan bulat bidang data dalam urutan acak. Jika ID asli karyawan adalah 97489376, setelah menerapkan pengocokan, Anda akan menerima sesuatu seperti 37798649. Ini dibatasi untuk tipe data tertentu.
  3. Meniadakan. Ini adalah strategi masking sederhana di mana bidang data diberi nilai nol. Metode ini memiliki penggunaan yang terbatas karena cenderung merusak logika aplikasi.
  4. Pengganti. Data asli diganti dengan nilai palsu, tetapi realistis. Artinya, nilai baru masih harus memenuhi semua batasan domain. Misalnya, Anda mengganti nomor kartu kredit seseorang dengan nomor lain yang sesuai dengan aturan yang diberlakukan oleh bank penerbit.
  5. Varian angka. Hal ini sebagian besar berlaku untuk informasi keuangan. Salah satu contohnya adalah menutupi gaji asli dengan menerapkan varians +/- 20%.
  6. Penuaan tanggal. Metode ini menambah atau mengurangi tanggal dengan rentang tertentu, menjaga agar tanggal yang dihasilkan memenuhi kendala aplikasi. Misalnya, Anda dapat menua semua kontrak hingga 50 hari.
  7. Rata-rata. Melibatkan penggantian semua nilai data asli dengan rata-rata. Misalnya, Anda dapat mengganti setiap kolom gaji individu dengan rata-rata nilai gaji di tabel ini.

Bagaimana menerapkan penyamaran data dengan cara yang benar?

Berikut adalah rencana implementasi penyembunyian data 5 langkah Anda.

Langkah 1: Tentukan ruang lingkup proyek Anda

Sebelum memulai, Anda perlu mengidentifikasi aspek mana yang akan Anda bahas. Berikut adalah daftar pertanyaan umum yang dapat dipelajari oleh tim data Anda sebelum melanjutkan inisiatif masking:

  • Data mana yang ingin kita sembunyikan?
  • Di mana ia tinggal?
  • Siapa yang berwenang untuk mengaksesnya?
  • Berapa tingkat akses setiap pengguna dari atas? Siapa yang hanya dapat melihat dan siapa yang dapat mengubah dan menghapus nilai?
  • Aplikasi mana yang memanfaatkan data sensitif ini?
  • Apa dampak penyamaran data terhadap pengguna yang berbeda?
  • Tingkat masking apa yang diperlukan, dan seberapa sering kita perlu mengulangi prosesnya?
  • Apakah kita ingin menerapkan penyembunyian data di seluruh organisasi atau membatasinya pada produk tertentu?

Langkah 2: Tentukan tumpukan teknik penyembunyian data

Selama langkah ini, Anda perlu mengidentifikasi teknik mana atau kombinasi alat penyembunyian data yang paling cocok untuk tugas yang sedang dikerjakan.

Pertama-tama, Anda perlu mengidentifikasi jenis data mana yang perlu Anda sembunyikan, misalnya, nama, tanggal, data keuangan, dll., karena jenis yang berbeda memerlukan algoritme penyamaran data khusus. Berdasarkan hal tersebut, Anda dan vendor Anda dapat memilih pustaka sumber terbuka mana yang dapat digunakan kembali untuk menghasilkan solusi penyamaran data yang paling sesuai. Kami menyarankan untuk beralih ke vendor perangkat lunak, karena mereka akan membantu Anda menyesuaikan solusi dan mengintegrasikannya dengan mudah ke dalam alur kerja Anda di seluruh perusahaan tanpa mengganggu proses bisnis apa pun. Juga, mungkin untuk membangun sesuatu dari nol untuk memenuhi kebutuhan unik perusahaan.

Ada alat penyamaran data siap pakai yang dapat Anda beli dan terapkan sendiri, seperti Oracle Data Masking, IRI FieldShield, DATPROF, dan banyak lagi. Anda dapat memilih strategi ini jika Anda mengelola semua data Anda sendiri, Anda memahami cara kerja aliran data yang berbeda, dan Anda memiliki departemen TI yang dapat membantu mengintegrasikan solusi penyamaran data baru ini ke dalam proses yang ada tanpa menghambat produktivitas.

Langkah 3: Amankan algoritme penyamaran data pilihan Anda

Keamanan data sensitif Anda sangat bergantung pada keamanan algoritme penghasil data palsu yang dipilih. Oleh karena itu, hanya personel yang berwenang yang dapat mengetahui algoritme penyamaran data mana yang diterapkan, karena orang ini dapat merekayasa balik data yang disamarkan ke kumpulan data asli dengan pengetahuan ini. Merupakan praktik yang baik untuk menerapkan pemisahan tugas. Misalnya, departemen keamanan memilih algoritme dan alat yang paling cocok, sementara pemilik data mempertahankan pengaturan yang diterapkan untuk menutupi data mereka.

Langkah 4: Pertahankan integritas referensial

Integritas referensial berarti bahwa setiap tipe data dalam organisasi Anda disamarkan dengan cara yang sama. Ini bisa menjadi tantangan jika organisasi Anda agak besar dan memiliki beberapa fungsi bisnis dan lini produk. Dalam hal ini, perusahaan Anda cenderung menggunakan algoritme penyamaran data yang berbeda untuk berbagai tugas.

Untuk mengatasi masalah ini, identifikasi semua tabel yang berisi batasan referensial dan tentukan dalam urutan mana Anda akan menutupi data karena tabel induk harus ditutup sebelum tabel anak yang sesuai. Setelah menyelesaikan proses masking, jangan lupa untuk memeriksa apakah integritas referensial terjaga.

Langkah 5: Buat proses masking berulang

Penyesuaian apa pun pada proyek tertentu, atau hanya perubahan umum dalam organisasi Anda, dapat mengakibatkan pengubahan data sensitif dan pembuatan sumber data baru, yang menimbulkan kebutuhan untuk mengulangi proses penyamaran.

Ada contoh di mana penyembunyian data dapat menjadi upaya satu kali, seperti dalam kasus menyiapkan kumpulan data pelatihan khusus yang akan digunakan selama beberapa bulan untuk proyek kecil. Tetapi jika Anda menginginkan solusi yang akan melayani Anda untuk waktu yang lama, data Anda dapat menjadi usang pada satu titik. Jadi, investasikan waktu dan upaya untuk memformalkan proses masking agar cepat, dapat diulang, dan seotomatis mungkin.

Kembangkan seperangkat aturan penyembunyian, seperti data mana yang harus disamarkan. Identifikasi pengecualian atau kasus khusus yang dapat Anda perkirakan saat ini. Dapatkan/bangun skrip dan alat otomatis untuk menerapkan aturan masking ini secara konsisten.

Daftar periksa Anda untuk memilih solusi penyembunyian data

Apakah Anda bekerja dengan vendor perangkat lunak pilihan Anda atau memilih solusi siap pakai, produk akhir harus mengikuti praktik terbaik penyembunyian data ini:

  • Tidak dapat dibalik, sehingga tidak mungkin merekayasa balik data palsu ke nilai aslinya
  • Lindungi integritas database asli dan jangan membuatnya tidak berguna dengan membuat perubahan permanen karena kesalahan
  • Tutupi data yang tidak sensitif jika diperlukan untuk melindungi informasi sensitif
  • Berikan peluang untuk otomatisasi, karena data akan berubah di beberapa titik dan Anda tidak ingin memulai dari nol setiap saat
  • Hasilkan data realistis yang mempertahankan struktur dan distribusi data asli, dan memenuhi kendala bisnis
  • Dapat diskalakan untuk mengakomodasi sumber data tambahan apa pun yang ingin Anda masukkan ke dalam bisnis Anda
  • Sesuai dengan semua peraturan yang berlaku, seperti HIPAA dan GDPR, dan kebijakan internal Anda
  • Integrasikan dengan baik ke dalam sistem dan alur kerja yang ada

Tantangan penyamaran data

Berikut adalah daftar tantangan yang mungkin Anda hadapi selama implementasi.

  • Pelestarian format. Solusi penyamaran harus memahami data dan mampu mempertahankan format aslinya.
  • Pelestarian jenis kelamin. Metodologi penyembunyian data yang dipilih perlu mengetahui jenis kelamin saat menutupi nama orang. Jika tidak, distribusi gender dalam kumpulan data akan diubah.
  • Integritas semantik. Nilai palsu yang dihasilkan harus mengikuti aturan bisnis yang membatasi tipe data yang berbeda. Misalnya, gaji harus berada dalam kisaran tertentu, dan nomor jaminan sosial harus mengikuti format yang telah ditentukan sebelumnya. Ini juga berlaku untuk menjaga distribusi geografis data.
  • Keunikan data. Jika data asli harus unik, seperti nomor ID karyawan, teknik penyembunyian data harus memberikan nilai yang unik.
  • Menyeimbangkan keamanan dan kegunaan. Jika data terlalu tertutup, itu bisa menjadi tidak berguna. Di sisi lain, jika tidak cukup terlindungi, pengguna dapat memperoleh akses tidak sah.
  • Mengintegrasikan data ke dalam alur kerja yang ada mungkin sangat merepotkan karyawan pada awalnya, karena orang terbiasa bekerja dengan cara tertentu, yang saat ini sedang terganggu.

Contoh penyamaran data dari portofolio ITRex

Sebuah organisasi perawatan kesehatan internasional ingin mengaburkan informasi identitas pribadi (PII) sensitif yang disajikan dalam berbagai format dan berada di lingkungan produksi dan non-produksi. Mereka ingin membuat perangkat lunak penyembunyian data bertenaga ML yang dapat menemukan dan menyamarkan PII sekaligus mematuhi kebijakan internal perusahaan, GDPR, dan peraturan privasi data lainnya.

Tim kami segera memperhatikan tantangan berikut:

  • Klien memiliki volume data yang sangat besar, lebih dari 10.000 sumber data, dan banyak aliran data terkait
  • Tidak ada strategi penyamaran data yang jelas yang akan mencakup semua departemen yang berbeda

Karena variasi yang besar ini, tim kami ingin membuat serangkaian kebijakan dan proses yang akan memandu pemilik kumpulan data yang berbeda tentang cara menutupi data mereka dan akan berfungsi sebagai dasar solusi kami. Misalnya, seseorang dapat datang dengan daftar poin data yang ingin mereka samarkan baik sekali atau terus menerus, dan solusinya, dipandu oleh prinsip-prinsip ini, akan mempelajari data dan memilih teknik kebingungan yang sesuai dan menerapkannya.

Kami mendekati proyek ini dengan mensurvei lanskap melalui pertanyaan-pertanyaan berikut:

  • Solusi manajemen data apa yang Anda gunakan? Klien sudah menggunakan Informatica, jadi kami memilih itu. Solusi penyembunyian data Informatica menawarkan fitur-fitur siap pakai, yang memenuhi beberapa kebutuhan klien, tetapi ini tidak cukup untuk memenuhi semua persyaratan.
  • Tipe data apa yang ingin Anda sembunyikan? Karena banyaknya sumber data, tidak mungkin menangani semuanya sekaligus. Jadi, kami meminta klien untuk memprioritaskan dan mengidentifikasi apa yang penting untuk misi.
  • Apakah Anda ingin melakukannya satu kali, atau menjadikannya proses yang berulang?

Setelah menjawab pertanyaan ini, kami menyarankan untuk menyediakan penyamaran data sebagai layanan terutama karena klien memiliki terlalu banyak sumber data untuk memulai dan mungkin perlu waktu bertahun-tahun untuk menutupi semuanya.

Pada akhirnya, kami memberikan layanan penyembunyian data dengan bantuan alat berbasis ML khusus yang dapat melakukan penyembunyian data secara semi-otomatis dalam empat langkah:

  1. Mengidentifikasi tipe data. Pemilik data memasukkan sumber data mereka ke dalam alat analisis yang mempelajari data kolom dan mengungkapkan tipe data yang dapat diidentifikasi dalam kolom ini, seperti alamat, nomor telepon, dll. Pakar manusia memverifikasi keluarannya, memungkinkannya belajar dari kesalahan .
  2. Sarankan pendekatan masking untuk setiap kolom dan terapkan setelah persetujuan manusia
  3. Terapkan hasilnya. Setelah data bertopeng dihasilkan, data tersebut perlu disebarkan. Kami menyediakan beberapa opsi untuk penyimpanan data. Ini termasuk, namun tidak terbatas pada penggunaan database sementara yang tetap aktif selama beberapa hari, menetapkan lokasi permanen untuk lingkungan yang disamarkan, membuat file nilai yang dipisahkan koma (CSV), dan banyak lagi.
  4. Periksa dan berikan lencana persetujuan untuk satu set data atau satu set lingkungan sebagai bukti bahwa mereka disamarkan dan sesuai dengan benar

Solusi penyamaran data ini membantu klien mematuhi GDPR, secara dramatis mengurangi waktu yang diperlukan untuk membentuk lingkungan non-produksi, dan menurunkan biaya transfer data dari produksi ke kotak pasir.

Bagaimana cara memelihara data yang disamarkan setelah implementasi?

Upaya Anda tidak berhenti saat data rahasia disembunyikan. Anda masih perlu mempertahankannya dari waktu ke waktu. Berikut adalah langkah-langkah yang akan membantu Anda dalam inisiatif ini:

  • Tetapkan kebijakan dan prosedur yang mengatur data bertopeng. Ini termasuk menentukan siapa yang berwenang untuk mengakses data ini dan dalam keadaan apa, dan tujuan apa yang dilayani data ini (misalnya, pengujian, pelaporan, penelitian, dll.)
  • Latih karyawan tentang cara menggunakan dan melindungi data ini
  • Secara teratur audit dan perbarui proses masking untuk memastikannya tetap relevan
  • Pantau data yang disamarkan untuk aktivitas yang mencurigakan, seperti upaya akses tidak sah dan pelanggaran
  • Lakukan pencadangan data bertopeng untuk memastikannya dapat dipulihkan

Menyimpulkan pikiran

Penyembunyian data akan melindungi data Anda di lingkungan non-produksi, memungkinkan Anda berbagi informasi dengan kontraktor pihak ketiga, dan membantu Anda dalam hal kepatuhan. Anda dapat membeli dan menerapkan sendiri solusi kebingungan data jika Anda memiliki departemen TI dan mengontrol aliran data Anda. Namun, perlu diingat bahwa implementasi penyamaran data yang tidak tepat dapat menyebabkan konsekuensi yang agak tidak menyenangkan. Berikut adalah beberapa yang paling menonjol:

  • Menghambat produktivitas. Teknik penyembunyian data yang dipilih dapat menyebabkan penundaan besar yang tidak perlu dalam pemrosesan data, sehingga memperlambat karyawan.
  • Menjadi rentan terhadap pelanggaran data. Jika metode penyamaran data Anda, atau kekurangannya, gagal melindungi data sensitif, akan ada konsekuensi finansial dan hukum hingga menjalani hukuman penjara.
  • Mendapatkan hasil yang tidak akurat dari analisis data. Ini bisa terjadi jika data disamarkan dengan tidak benar atau terlalu berat. Peneliti akan salah menafsirkan kumpulan data eksperimental dan mencapai kesimpulan yang salah yang akan mengarah pada keputusan bisnis yang tidak menguntungkan.

Oleh karena itu, jika perusahaan tidak yakin dengan kemampuannya untuk menjalankan inisiatif kebingungan data, sebaiknya hubungi vendor eksternal yang akan membantu memilih teknik penyembunyian data yang tepat dan mengintegrasikan produk akhir ke dalam alur kerja Anda dengan gangguan minimal.

Tetap terlindungi!

Mempertimbangkan penerapan solusi penyamaran data? Berhubungan! Kami akan membantu Anda memprioritaskan data Anda, membuat alat obfuscation yang sesuai, dan menerapkannya tanpa mengganggu proses bisnis Anda.


Awalnya diterbitkan di https://itrexgroup.com pada 28 Februari 2023.