개인정보 비식별조치

목차



1. 개인정보 비식별조치란

데이터 내에 개인을 식별할 수 있는 정보가 있는 경우, 이를 제거하거나 대체하여 개인을 알아볼 수 없도록 하는 조치.

개인정보는 단일성, 연결성, 추론성의 요소를 가지고 있다.


이 때, 비식별조치는 다음을 만족한다.

비식별화=가명처리+익명처리

가명처리는 단일성은 남겨둔 채, 연결성과 추론성을 제거하는 것을 말한다. 반면 익명처리는, 단일성, 연결성, 추론성 모두를 제거하는 것을 말한다.


2. 한국의 개인정보 비식별 조치

정보집합물에 포함된 식별자는 원칙적으로 삭제해야한다.

식별자란, 개인에게 고유하게 부여되는 값으로 주민등록번호나 이름, 주소, 생일, 전화번호, 계좌번호, 신용카드번호, 자격증번호, 자동차번호, 기기의 일련번호, 사진(CCTV, 동영상 등), 바이오정보(지문, 음성, 홍채 등), 이메일주소, IP주소, 사업자번호 등이 있다.


정보집합물에 포함된 속성자도 데이터 이용 목적과 관련이 없는 경우 원칙적으로 삭제해야한다.

속성자란 개인과 연관된 정보로 다른정보와 결합 시 특정 개인을 알아볼 수 있는 정보를 말하며 개인특성(성별, 연령, 우편번호, 흡연여부 등), 신체특성(혈액형, 키, 몸무게 등), 신용특성(납세정보, 신용등급, 기부금 등), 경력특성(학교명, 성적, 직업 등), 전자적 특성(쿠키정보, 접속로그, GPS 데이터 등), 가족특성(부모, 형제 등 가족정보 등) 등이 있다.


비식별 조치 방법

한국에서는 개인정보 비식별조치 가이드라인을 통해 총 17개의 방법을 제시하고 있다.

가명처리

개인 식별이 가능한 데이터를 직접적으로 식별할 수 없는 다른 값으로 대체하는 방법

  1. 휴리스틱 가명화
    • 식별자에 해당하는 값들을 몇 가지 정해진 규칙으로 대체하거나 사람의 판단에 따라 가공하여 자세한 개인정보를 숨기는 방법
    • 식별자의 분포를 고려하거나 수집된 자료의 사전 분석을 하지 않고 모든 데이터를 동일한 방법으로 가공하기 때문에 사용자가 쉽게 이해하고 활용 가능.
    • 활용할 수 있는 대체 변수에 한계가 있고, 다른 값으로 대체하는 일정한 규칙이 노출되는 취약점이 존재
  2. 암호화
    • 정보 가공시 일정한 규칙의 알고리즘을 적용하여 암호화함으로써 개인정보를 대체하는 방법, 통상적으로 다시 복호화 가능한 키를 가지고 있다.
    • 해쉬를 사용하는 경우, 복호화가 원천적으로 불가
  3. 교환 방법
    • 기존의 데이터베이스의 레코드를 사전에 정해진 외부의 변수과 연계하여 교환


총계처리

통계값을 적용하여 특정 개인을 식별할 수 없도록 함.

  1. 총계처리
    • 데이터 전체 또는 부분을 집계
  2. 부분총계
    • 데이터 셋 내 일정 부분 레코드만 총계처리, 다른 데이터 값에 비해 오차 범위가 큰 항목을 통계값으로 변환
  3. 라운딩
    • 집계 처리된 값에 대하여 올림, 내림 기준을 적용하여 최종 집계처리하는 방법, 전체 통계정보가 필요한 경우 많이 사용.
  4. 재배열
    • 기존 정보값은 유지하면서 개인이 식별되지 않도록 데이터를 재배열하는 방법으로, 개인의 정보를 타인의 정보와 뒤섞어서 전체 정보에 대한 손상 없이 특정 정보가 해당 개인과 연결되지 않도록 하는 방법


데이터 삭제

개인 식별이 가능한 데이터 삭제 처리

  1. 식별자 삭제
    • 원본 데이터에서 식별자를 단순 삭제, 남아있는 데이터로 분석의 유효성은 가져야하며, 개인을 식별할 수 없어야 한다. 공개된 정보와 결합시에도 개인 식별이 불가능해야한다.
  2. 식별자 부분삭제
    • 식별자의 일부를 삭제하는 방법으로 수치 또는 텍스트 데이터 등에도 활용이 가능하다.
  3. 레코드 삭제
    • 다른 정보와 뚜렷히 구별되는 레코드 전체를 삭제하는 방법으로, 통계분석에 있어서 전체 평균에 비해 오차범위를 벗어나는 자료를 제거할 때에도 사용 가능
  4. 식별요소 전부삭제
    • 식별자뿐만 아니라 속성자까지 전부 삭제하여 프라이버시 침해 위험을 줄이는 방법, 데이터 활용에 필요한 정보까지 제거될 수 있기 때문에 데이터의 유용성이 낮아질 수 있다.


데이터 범주화

특정 정보를 해당 그룹의 대푯값으로 변환하거나 구간값으로 변환하여 개인 식별을 방지

  1. 감추기
    • 명확한 값을 숨기기 위해 데이터의 평균 또는 범주값으로 변환
  2. 랜덤 라운딩
    • 수치 데이터를 임의의 수 기준으로 올림 또는 내림하는 기법, 총계처리의 라운딩 기법과 다르게 수치 데이터 이외의 경우에도 확장 적용이 가능하다.(나이나 우편번호 등에도 적용 가능)
  3. 범위 방법
    • 수치데이터를 임의의 수 기준의 범위로 설정하는 기법으로, 해당 값의 범위 또는 구간으로 표현
  4. 제어 라운딩
    • 총계처리의 랜덤라운딩방법에서 어떤 특정 값을 변경할 경우 행과 열의 합이 일치하지 않는 단점 해결을 위해 행과 열이 맞지 않는 것을 제어하여 일치시키는 기법이다. 하지만, 구현이 어렵고 복잡한 통계표에는 적용이 어렵기 때문에 아직 현장에서는 잘 사용하지 않고있다.


데이터 마스킹

데이터의 전부 또는 일부분을 대체값으로 변환하는 방법

  1. 임의 잡음 추가
    • 개인 식별이 가능한 정보에 임의의 숫자 등 잡음을 추가(더하기 또는 곱하기)하는 방법(생년월일 데이터에 6개월을 더하는 방법이 있다)
  2. 공백과 대체
    • 특정 학목의 일부 또는 전부를 공백 또는 대체문자로 바꾸는 방법


프라이버시 보호 모델

1. k-익명성

공개된 데이터에 대한 연결공격 등 취약점을 방어하기 위해 제안된 프라이버시 보호 모델로, 주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록(동질집합; 동일속성자 값 집합) 하여 쉽게 다른 정보로 결합할 수 없도록 하는 것


2. l-다양성

k-익명성에 대한 동질성 공격 및 배경지식에 의한 공격을 방어하기 위한 모델로 주어진 데이터 집합에서 함께 비식별되는 레코드들은 적어도 l개의 서로 다른 민감한 정보를 가져야 함

k-익명성은 다양성의 부족과 강한 배경지식으로인해 동질성 공격과 배경지식에 의한 공격이 일어날 수 있다.

동질성 공격 : k-익명성에 의해 레코드들이 범주화 되었더라도 일부 정보들이 모두 같은 값을 가질 수 있기 때문에 데이터 집합에서 동일한 정보를 이용하여 공격 대상의 정보를 알아내는 공격

배경지식에 의한 공격 : 주어진 데이터 이외의 공격자의 배경지식을 통해 공격 대상의 만감한 정보를 알아내는 공격


3. t-근접성

동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보여햐 하는 것을 말하며, t수치가 0에 가까울 수록 전체 데이터의 분포와 특정 데이터 구간의 분포 유사성이 강해지기 때문에 그 익명성의 방어가 더 강해지는 경향이 있다. l-다양성의 취약점을 보완하기 위한 모델로 제시되었으며, l-다양성에는 쏠림공격과 유사성 공격과 같은 취약점이 있다.

쏠림 공격 : 정보가 특정한 값에 쏠려 있을 경우 l-다양성 모델이 프라이버시를 보호하지 못함

유사성 공격 : 비식별 조치된 레코드의 정보가 서로 비슷하다면 l-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있음.


참고자료