본문으로 바로가기 주메뉴 바로가기

사용자별 맞춤메뉴

자주찾는 메뉴

추가하기
닫기

간행물·통계

contents area

detail content area

코호트 연구를 위한 개인정보 비식별화 방법 개요
  • 작성일2017-02-09
  • 최종수정일2017-02-09
  • 담당부서유전체역학과
  • 연락처043-719-6710
코호트 연구를 위한 개인정보 비식별화 방법 개요

질병관리본부 유전체센터 유전체역학과
박재경, 김성수*
*교신저자: ksungsoo@korea.kr, 043-719-6710
Abstract

Overview of De-Identification Method for Cohort Study
Division of Health Index and Epidemiology, Center for Genome Science, NIH, CDC
Park Jae Kyung, Kim Sung Soo

Recently, big data from various sources have become increasingly available, easier to access, and are used for various purposes. In the health sector, collected data from national surveys, cohort studies, health insurance, and disease registries include sensitive information on individuals. Therefore, strong data protection has become an increasingly important issue. This article is an overview of the basic concept and method of de-identification including examples of de-identification in government agencies in Korea and the United States.
We also discuss the relationship and trade-off between privacy protection and data quality.


들어가는 말

최근 빅데이터, 사물인터넷 등 IT 융합기술 발전으로 데이터 이용 수요가 급증함에 따라 미국, 영국 등 주요 선진국은 데이터 산업 활성화를 위한 정책을 활발히 추진하고 있고 우리나라도 정부 3.0에 따른 공공정보 개방·공유 및 빅데이터 활용을 통한 새로운 가치 창출 등에 대한 지원을 강화하고 있다. 그러나 크고 작은 개인정보 유출 사고가 발생됨에 따라 개인정보 보호 정책을 강화해야 한다는 사회적 요구가 커지고 있는 한편 대용량 데이터 분석 관련 기술 발전 등으로 개인정보 침해 위험도는 증가하는 추세에 있다. 이에 따라 미국, 영국 등 주요 선진국은 개인정보 침해가능성은 최소화하면서 데이터 산업 활성화 및 활용에 따른 사회적 편익(국민 편의, 건강 향상 등)은 증가 시킬 수 있는 방안 마련과 정책을 추진 중에 있다. 우리나라도 개인정보 침해 방지를 위한 안전장치 마련과 동시에 비식별화 된 정보의 활용도는 높이는 정책을 추진 중에 있으며 그 일환의 하나로 2016년 6월에는 관계 부처 합동으로 개인정보 비식별 조치 가이드라인이 처음 작성 되어 공표되었다[1]. 이에 따라 건강, 의료정보 등에 관한 국내외 개인정보 비식별화 방법 및 자료 제공 방법을 살펴보고 이를 통해 질병관리본부에서 수행하고 있는 한국인유전체역학조사업 자료의 비식별화 및 제공 방법 개선점 등을 검토, 정리해 보고자 한다.


몸 말

개인정보 비식별화란?

‘개인정보(personal information)’는 개인에게서 나온 정보를 지칭하며, 개인을 식별하는 정보는 ‘식별정보(identifying information)’라는 용어를 사용한다. 따라서, 식별정보는 개인정보이지만 개인정보는 식별정보가 아닐 수도 있다. 우리나라 관련 법인 개인정보보호법에서는 개인정보를 ‘살아 있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보(해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 것을 포함한다)’라고 정의하고 있으며 생명윤리 및 안전에 관한 법에서는 ‘개인식별정보, 유전정보 또는 건강에 관한 정보 등 개인에 관한 정보’로 정의하고 있다. 개인정보 비식별화(de-identification)란 정보 집합(예 : 환자기록, 보험청구자료 등)에서 식별정보를 제거함으로써 개인정보를 특정한 인물과 연결할 수 없도록 하는 것을 말하며 종종 혼동하여 사용되는 익명처리(anonymization), 가명처리(pseudonymization) 보다 상위의 개념이다[2].

개인정보 비식별화 방법

개인정보의 재식별 발생 가능성을 줄이는 방법은 수집한 정보에 직접적 조치(변수 삭제, 범주화, 치환, 변형 등)를 하는 방법과 자료를 제공ㆍ이용하는 방식을 통제하는 방법 크게 2가지로 나눌 수 있다.
수집자료에 직접적 조치를 하는 방법에는 가장 일반적으로 사용하는 식별자(성명, 주민등록번호, 환자번호, 주소, 연락처 등)를 삭제하는 방법, 식별자 대신 가상의 ID를 부여하는 가명처리(pseudonymization) 방법이 있고, 간접식별자(indirect identifier)라고도 불리는 준식별자(quasi-identifier)(연령, 성별, 직업, 조사일 등)를 처리하는 방법에는 일반화(generalizaion), 감추기(suppression), 잡음추가(noise addition), 하부집단 샘플링(sub-sampling) 등의 방법이 있다[2]. 대규모 건강조사 자료 등의 비식별화에서 주로 사용 될 수 있는 비식별화 방법에 대한 적용 예시를 [Table 1]에 정리하였다. 미국에서 가장 일반적으로 참조, 사용하는 「의료보험의 이동과 책임에 관한 법률(HIPAA)」프라이버시 규칙에는 개인보건정보의 비식별 처리에 관하여, 세이프하버 방식(the Safe Harbor method)과 전문가 활용법(Expert Determination Method) 크게 두 가지 접근법이 제시되어 있다[3]. 세이프하버방식은 성명, 사회보장번호, 연락처, IP주소, 지문, 사진, 상세주소 등 18개의 개인 식별과 관련된 변수를 삭제하는 것이며 전문가 활용법은 전문가가 만든 알고리즘 등을 통해 개인정보를 비식별 처리 하는 것을 말한다. 세이프하버 방식은 적용하기는 비교적 쉬우나 이론적 기반이 견고하지 못하다는 비판도 있다[2].

자료를 제공ㆍ이용하는 방식을 통제하는 방법에는 일반 분양 모형(the Release and Forget model), 데이터 이용 합의서(Data Use Agreement(DUA) model) 모형, 밀실 모형(the Enclave model)이 있다. 일반 분양 모형은 통상적으로 인터넷에 자료를 게시함으로써 비식별처리 된 개인정보를 대중에 공개하는 것으로 이러한 방식으로 일단 개인정보가 공개되면 기관이 개인정보를 회수하기는 거의 불가능하다. 데이터 이용 합의서 모형은 통상적으로 재식별 시도, 다른 정보와의 연결, 정보 재배포를 금지하는 내용을 사전에 협의하여 문서화하거나 인터넷상의 사용자 클릭(click-through) 라이선스 합의서로 통제하는 방법이다. 밀실모형은 비식별 처리된 개인정보 원본 정보의 반출(export)을 제한하는 일종의 밀실(물리적 접근, 네트워크 등이 차단된 분석 환경)을 유지하고, 대신에 유자격 연구자의 문의, 분석을 허용하고 해당 결과를 응답, 반출할 수 있는 물리적, 기술적 통제 방법이다[2].
한편 다양한 형태의 자료원(의료검사, 의료영상, 유전정보, 생물학 자료 등)을 이용하는 연구를 진행하기 위해 해당 자료를 비식별화하기 위한 연구가 진행되었지만 아직 이에 대해서는 완벽히 확립된 기준과 평가 기법은 없으며 추가적인 연구가 필요한 상황이다.

국내외 개인정보 비식별화 사례

미국 질병관리본부(CDC)에서는 수집자료를 일반 사용자 자료(Public-use data)와 제한자료(Restricted data)로 나누어 연구자에게 제공하고 있다. 일반 사용자 자료는 FTP서버를 통해 다운로드 받아 사용할 수 있으나 제한자료는 연구계획에 대한 심의 후 국가보건통계센터(National Center for Health Statistics)의 연구데이터센터에서 제공하는 제한된 서비스를 통해 자료를 이용할 수 있다. 제한자료에는 모든 조사의 지역정보, 조사일자 정보, 유전체 정보, 민감 정보(유소년기 성경험, 성병감염여부, 약물사용여부 등) 등이 해당 된다. 제한자료에 연구자가 접근할 수 있는 방법은 연구데이터센터나 각 지역 연방 통계연구데이터센터에 연구자가 방문하여 분석 후 자료를 반출하는 방법과 허가, 부여된 계정으로 원격 시스템에 접속하여 제공된 자료를 분석하는 방법이 있다. 영국의 대규모 코호트인 UK Biobank에서는 연구자에게 자료 제공시 참여자 성명, 국가의료서비스(National Health Service) ID등을 삭제ㆍ마스킹하고, 직접적인 주소 대신 위치 참조 정보를 가공하여 제공하며, 날짜정보는 년월까지, 서술형 응답 문항은 제공하지 않는 등의 비식별화 방법을 적용하고 있다. 수집된 자료에 대한 코드북, 기본 분포 및 통계수치 등은 홈페이지를 통해 별다른 절차 없이 다운로드 받을 수 있으나 개인별 연구용 자료는 심의를 통과한 과제에 한해 해당 연구 책임자만 접속, 다운로드 받을 수 있도록 별도 링크 주소를 제공하고 있다[4, 5].
국내 사례를 살펴보면 통계청의 경우 국가단위 통계 등 일반적 집계자료(macrodata) 등은 인터넷을 통해 일반인에게 다운로드 서비스를 제공하고 있으나 개인별 조사자료(record)인 마이크로데이터(microdata)를 분석하고자 할 경우에는 이용자가 지역별 통계센터에 방문하거나 원격접근서비스를 신청, 이용 후 결과만 반출할 수 있도록 하고 있다. 국민건강보험공단, 건강심사평가원 모두 보험청구, 지급관련 자료 등에 개인정보 비식별화(개인식별정보 삭제, 하부샘플링 등) 방법을 적용한 연구용 DB를 별도 구축 후 일정한 조건과 기준에 적합한 연구자에 한해 심의 후 자료 이용 서비스를 제공하고 있다. 두 기관 모두 밀실모형에 해당하는 자료분석실을 운영 중이며 연구자의 접근성 향상을 위해 원격접속분석시스템을 개발 또는 운영 중에 있다. 우리나라 질병관리본부 국민건강영양조사 자료의 경우 개인정보 비식별화 된 자료는 인터넷을 통해 연구계획 제출, 심의 후 자료신청자가 일정한 이용서약 후 다운로드받아 사용할 수 있도록 하고 있으나 지역 정보 등 참여자 재식별가능성이 있는 변수와 자체 민감 정보는 질병관리본부 내 학술연구자료처리실에 방문하여 분석하도록 하고 있다. 질병관리본부 국립보건연구원 유전체센터에서 수행하고 있는 한국인유전체역학조사사업 수집자료 역시 개인정보 식별위험, 민감 정보 포함여부 등에 따라 개인정보 비식별화와 자료제공방식 통제 방법을 단독 또는 함께 적용하여 [Table 2]과 같이 제공하고 있다.


맺는 말

수집한 자료의 과학적 활용 가치를 그대로 보존하는 동시에 개인정보를 비식별화하는 것은 이 두 가지 요인이 서로 상충되는 부분이 있어 쉽지 않은 일이다. 즉 연구자 입장에서는 개인정보 비식별화를 최소화하여 가능한 한 원자료에 가까운 자료를 편리하게 이용해 보다 정밀한 분석 결과를 얻고자 하는 욕구가 있고 자료를 제공해야 하는 기관 입장에서는 자료의 익명성을 보장하여 자료 주체의 프라이버시를 보호하고자 하는 의지가 강하여 개인정보 비식별화 수준 및 자료제공ㆍ이용 방식에 대해 이견이 생기게 된다. 자료의 비식별성(de-identifiability)을 높이면 자료의 질이나 연구 결과의 정밀도가 떨어지게 되고 반대로 비식별성을 낮추면 자료의 질과 정밀도는 높아질 수 있으나 개인식별 가능성 및 프라이버시 침해 가능성은 높아지게 된다(Figure 1).

최근 자료 연계, 분석 기술 등이 발달함에 따라 영원히 안전한 비식별화 방법이란 없다고 할 수 있으므로, 자료 제공 기관이 제공하는 자료에 대한 개인정보 비식별화 적용결과 등을 지속적으로 확인, 보완하고 자료 분양 시 자료 성격과 연구 목적에 맞게 자료를 제공하는 것이 정보 주체의 프라이버시 보호차원에서 필요하며 이 과정에서 수집된 자료의 활용가치와 파생되는 사회적 편익을 최대화 할 수 있는 고려도 함께 이루어져야 할 것이다.


<참고문헌>

1. 관계부처 합동(국무조정실, 행정자치부, 방송통신위원회, 금융위원회, 미래창조과학부, 보건복지부). 2016. 개인정보 비식별 조치 가이드라인.
2. 미국 상무부 국립표준기술연구소. 내부보고서(NIST IR) 8053(개인정보의 비식별처리).
3. U.S. Department of Health & Human Services, Office for Civil Rights. Guidance Regarding Methods for De-identification of Protected Health Information in Accordance with the Health Insurance Portability and Accountability Act (HIPAA) Privacy Rule.
4. UK Biobank. Summary de-identification protocol.
5. UK Biobank. Acceess procedures.
본 공공저작물은 공공누리  출처표시+상업적이용금지+변경금지 조건에 따라 이용할 수 있습니다 본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.
TOP