본문으로 바로가기 주메뉴 바로가기

사용자별 맞춤메뉴

자주찾는 메뉴

추가하기
닫기

간행물·통계

contents area

detail content area

인체자원 데이터 품질관리 체계 연구
  • 작성일2018-02-28
  • 최종수정일2019-09-10
  • 담당부서바이오뱅크과
  • 연락처043-719-6550
인체자원 데이터 품질관리 체계 연구

질병관리본부 국립보건연구원 유전체센터 바이오뱅크과
지병곤, 이상협, 전재필*
*교신저자: jpjeon@korea.kr, 043-719-6550

Abstract

A Study of data quality management in the National Biobank of Korea

Ji Byeonggon, Lee Sang-Hyeop, Jeon Jae-Pil
Division of Biobank for Health Sciences, Center for Genome Science, KNIH, KCDC

Background: Most biobanks put in manually biospecimen-related inventory data into the databases, which may introduce errors in the database. The National Biobank of Korea (NBK) operates on the self-developed Human Biobank Information System (HuBIS) which stores and disseminates data of biological samples.
Methodology/Results: The HuBIS handles various biobank inventory data generated from a central biobank and 17 regional biobanks, which form the Korea Biobank Network (KBN). Here, we report the analysis of the data quality and database structure of the HuBIS with an aim to improve the database quality and reliability. The HuBIS database was analyzed for patterns of data errors in terms of 12 assessment areas, including uniqueness and column consistency according to the database quality certification-value (DQC-V) of the Korea Data Agency. The result of the analysis indicated that the error rates for uniqueness and column consistency were 0.17% and 3.3% respectively, showing 3.04% error rate of the total evaluation standard, which is similar to 3.2, the error rate of a Sigma level and the Silver class of the DQC-V standard. In addition, we analyzed the entity relationship diagram (ERD) of the database structure, and demonstrated that data quality can be efficiently increased by improving data normalization.
Conclusion: Based on the assessment of database quality, we will apply for a data quality certification of the Korea Data Agency, and will implement the 5-year roadmap of data quality management of the HuBIS.

Keywords: Biobank, Data quality management, Database quality, Roadmap


들어가는 말

최근 공공데이터의 개방·공유·활용 요구가 증가함에 따라 데이터 품질관리가 필수적인 요소로 부각되고 있다. 한국인체자원은행사업은 2기까지(’08-’16) 인체자원 확보를 위한 국가 바이오뱅크 네트워크를 구축하고, 71만 명의 대규모 인체자원과 해당 정보를 확보 및 관리하고 있다. 이에 따라 한국인체자원은행 정보관리시스템에 누적된 대량의 데이터에 대한 신뢰성 확보를 위한 품질관리가 필수적인 요소로 부각되고 있으며, 인체자원 정보의 특성을 반영한 데이터 품질관리 체계모델을 수립하고 품질관리활동을 수행할 수 있는 가이드라인을 필요로 한다. 이번 글의 목표는 인체자원 데이터의 품질관리 기반 마련을 위하여 현행 데이터에 대한 품질 현황 분석 결과를 바탕으로 품질관리 전략 및 로드맵을 제시하고자 한다.


몸 말

데이터 품질 현황 검토

인체자원 데이터 품질 현황 분석을 위해 한국데이터베이스 진흥원에서 제시한 데이터 품질관리 프레임워크 기반의 방법론을 사용하여 국립중앙인체자원은행 및 17개 단위은행을 대상으로 현황 분석을 실시하였다. 총 품질지표별 오류 추정률은 3.0%로 그렇게 높게 나타나지는 않았으나 조건완전성 40.9%, 날짜유효성 45.4% 및 계산/집계 정확성 44.3%로 일부 품질지표에서 높은 오류가 있는 것으로 추정되었다. 이에 대한 집중적인 검토와 관리가 필요할 것으로 보인다(Table 1).
품질지표 오류 추정률을 바탕으로 데이터 품질향상을 위해서는 다음과 같은 노력이 필요하다. 첫째, 현 데이터베이스 모델을 정제하여야 한다. 데이터의 오류사항을 확인한 결과 데이터들의 표준이 지켜지지 않고 있으며 이로 인해 발생하는 오류가 상당 부분을 차지하고 있다. 표준 데이터는 정보시스템의 데이터 품질 확보를 위한 필수 요소로 표준 데이터를 정의· 관리함으로써 데이터 간의 불일치와 데이터 오류를 방지하고 데이터에 대한 이해도를 높일 수 있다. 둘째, 메타데이터 관리를 통해 추후에 잘못된 데이터가 발생되지 않도록 하여야 한다. 데이터 모델에 대한 메타데이터를 관리함으로써 데이터 구조에 대한 최신 정보를 유지하고 전사 차원의 데이터 모델 공유 및 재사용을 극대화하며, 체계적인 데이터 모델의 변경 관리를 가능하게 한다. 현재까지 나온 결과를 모두 반영하는 것을 시작으로 데이터 표준을 설정하고 메타데이터를 관리해야 한다.


데이터 모델 현황 분석

데이터베이스는 시간이 경과함에 따라 데이터 처리 성능은 저하되며, 품질 문제를 발생시킨다. 이러한 문제를 해결하기 위해서는 데이터베이스에 최적의 데이터가 저장되고 관리될 수 있는 구조를 유지하여 잘못된 데이터가 초기 단계부터 저장되지 않도록 해야 한다. 이를 위해서는 데이터베이스의 구조를 정확하게 분석하여 데이터의 정합성과 신뢰성이 보장되는 최적의 데이터베이스 구조를 유지해야 한다. 위의 내용에 따라 국립중앙인체자원은행에서 운영하고 있는 인체자원정보관리시스템의 105개 데이터 모델 개체를 선정하고, 4개의 주제 영역(제공자 및 인체자원정보, 시스템관리, 자원품질정보, 기타정보)으로 분류하여 최적의 데이터 구조 모델 분석을 진행하였다. 분석 항목으로는 데이터베이스 관리 표준화 규칙, 명명 규칙, 데이터베이스 관리 프로세스 규칙, 개체/테이블 구조, 개체/테이블 관계, 기본키(Primary key) 구조, 인덱스(Index) 및 제약 조건, 속성/컬럼 명칭 및 데이터 유형, 정규화(Normalization)로 총 9가지 항목을 정의하였다. 데이터 모델 현황 검토 중 5가지 항목이 개선이 필요한 것으로 분석되었다(Table 2).
첫 번째로 데이터 관리 표준화의 문제점은 체계적인 데이터 관리를 위한 표준화 정책의 부재에 따른 데이터 관리의 어려움으로 데이터 관리지침 및 관리 방법의 정립이 필요하다. 두 번째로 개체/테이블 구조 및 관계 설정의 문제점은 현재 활용하고 있는 많은 개체들이 정규화를 고려하지 않아 데이터의 중복 및 관리의 한계를 내포하고 있어 정규화 과정을 통한 누락 개체의 도출 및 불필요한 개체들을 제거하는 작업을 수행해야 한다. 또한 개체들 간의 관계 정의가 명확하지 않아 정합성을 유지하는데 많은 영향을 미치므로 정확한 관계 표현 표기법을 사용하여 개체들 간의 정확한 관계 설정을 해야 한다. 세 번째로 속성/칼럼 설정의 문제점은 데이터베이스 속성들의 특성을 고려하지 않은 데이터 테이블 배치에 의한 것으로, 참조 대상 속성들과 변경 대상 속성들이 같은 테이블에 산재되어 있어 성능 저하의 원인이 되고 있다. 따라서 데이터베이스 연결 시에 성능 향상에 기여하는 코드성격의 개체를 도출하여 정리(데이터 그룹화)해야 한다. 네 번째로 식별자/인덱스 설정의 문제점은 데이터베이스에 기본키를 제외하면 성능을 고려한 대체키(Alternate key)들이 설정되어있지 않다는 것이다. 따라서 식별자/인덱스 활용도를 파악하여 대체키 혹은 개체들 간의 외래키(Foreign key)를 설정하여 적절한 식별자/인덱스를 활용해야 한다. 다섯 번째로 데이터베이스를 관리하기 위해 database management system(DBMS)이 제공하는 편리한 기능들을 활용하는 것이 바람직하다. 그러나 현 시스템의 응용 프로그램들은 이러한 DBMS의 기능들을 활용하기 보다는 사용자 프로그램에서 이러한 내용을 반영하고 있다. 따라서 트리거(Trigger), 내장형 프로시저(Stored procedure), 적절한 뷰(View) 등과 같은 DBMS가 제공하는 기타 유용한 기능을 파악하고 활용해야 한다. 마지막으로 인체자원은행의 업무 프로세스를 정확한 업무프로세스 및 개체 매트릭스를 정의해야 한다. 실제 업무 영역을 크루드 매트릭스 분석(CRUD matrix)을 활용하여 데이터와 연관된 업무프로세스 재설계가 필요하다. 최적의 업무 프로세스를 재정립한 이후에 데이터 관리 영역에 적용함으로써 데이터들의 활용가치를 높일 수 있도록 해야 한다.


데이터 품질관리 체계 및 전략 수립

인체자원 데이터의 품질향상을 위하여 품질인증을 받는다. 데이터베이스 품질 인증제도(Database quality certification, DQC)는 조직에서 개발하여 활용 중인 정보시스템의 데이터 품질을 확보하기 위해 데이터 자체 품질과 데이터 관리 체계의 품질을 심사, 인증하여 데이터 품질 제고 및 고도화를 목적으로 한다. 한국데이터베이스진흥원에서 제시하는 데이터 품질관리 성숙도(Data quality management maturity)는 5단계로 구분하고 있으며, 이는 데이터 품질관리 성숙수준을 도입, 정형화, 통합화, 정량화, 최적화로 구분한다. 인체자원 데이터 품질관리 체계의 수준 향상을 위하여 데이터베이스 품질 인증을 받는 것은 중요한 과정 중 하나로 위의 데이터 품질 및 모델 현황을 파악한 결과를 가지고 인체자원 데이터 품질관리 성숙수준을 높여 데이터 인증(Database quality certification value) 및 데이터 관리 인증(Database quality certification management)을 단계적으로 진행하여 더욱 체계적인 데이터 품질관리 체계를 구축할 수 있다.


데이터 품질관리 추진 단계별 이행 로드맵

인체자원 데이터에 대한 품질관리 추진 목표의 단계적 달성을 위해서는 이행단계 및 추진 방향을 명확히 정의하고, 앞으로의 품질관리 활동을 위한 이행 로드맵을 수립할 필요가 있다. 인체자원 데이터 품질관리 추진 단계 계획은 도입기, 확산기, 성숙기로 구분할 수 있다.
인체자원 데이터 품질 관리 체계의 높은 수준 유지를 위해서 첫 번째 도입기에서는 데이터 표준화 및 데이터 품질관리 체계 수립을 통한 데이터 품질관리 기반을 확립하여야 한다. 다음으로 확산기에는 품질관리 범위 확대를 위한 활동을 하여야 한다. 이는 데이터 품질관리 체계/조직/절차 수립 및 데이터 품질 진단 개선 체계를 구축하는 것을 말한다. 끝으로 성숙기에는 데이터 품질 성과관리를 통한 전사적 품질관리 체계의 운영을 정착시키는 것을 목표로 한다.
데이터 품질관리 체계 추진 방향의 목표는 업무의 효율화를 위한 선진화된 데이터 관리와 활용체계의 구축이다. 먼저 데이터 관리의 기반을 확립하고 관리 범위를 확대하는 단계를 거쳐 정착되어 체계적으로 운영될 수 있도록 해야 한다. 이와 같은 일련의 과정에서 자원의 효율성과 데이터의 신뢰성 그리고 상호운용성이 확보된다. 이를 위한 추진 과제로는 첫째 선진 데이터 관리체계 전략계획의 수립, 둘째 데이터 품질관리 자동화 시스템을 구축, 셋째 데이터 품질관리 공인인증을 획득, 마지막으로 품질관리 전담 운영 인력을 확보하는 것이다.
인체자원 데이터 품질관리체계를 마련하기 위한 단계별 이행 로드맵으로 5개년에 걸쳐 “도입 및 기반 확립”, “품질관리 범위 확대”, “품질관리 체계 정착 운영” 으로 단계를 나누고 각 단계별 목표와 주요 활동 내역을 다음과 같이 정의하였다(Table 3).


맺는 말

인체자원은행의 데이터 품질은 정보시스템 운영 기간 및 수집된 데이터를 고려할 때, 품질수준을 높이기 위한 노력을 하고 있다. 그러나 데이터 품질현황 파악 내역 중에서 오류 데이터들을 파악하여 빠른 시일 내에 수정사항 및 개선사항을 현 데이터베이스에 적용함으로써 데이터 품질 향상을 해야 한다. 또한 데이터베이스 스키마(Schema)를 완전하게 수정하지 않은 상태에서의 오류 데이터의 수정은 현 시점에서는 좋은 데이터 품질을 유지하겠지만 일정 기간이 경과하면 반복적으로 새로운 오류가 발생할 가능성이 높기 때문에 현재의 데이터베이스 구조를 데이터 모델링 규칙을 적용하여 완전하게 수정하고, 수정된 데이터베이스에 현 데이터를 적용함으로써 지속적으로 발생할 수 있는 오류를 제거할 수 있다.
현재 인체자원정보관리시스템의 데이터베이스 구조를 변경한다는 것은 쉽게 접근할 수 있는 문제가 아니지만, 단기적으로 데이터베이스 구조를 조금만 변경해서 높은 성능을 보장받을 수 있거나 데이터의 정확성을 높일 수 있는 부분들은 먼저 반영하여 진행하는 것이 바람직하다고 판단된다. 장기적으로는 정보시스템 품질관리 담당자가 데이터 품질관리 이행 로드맵에 포함된 구분별 주요 활동을 성실히 이행함으로써 단계별 데이터 품질관리 성과를 이룰 수 있도록 해야 하며, 데이터 품질 인증기관을 통한 높은 데이터 품질 인증 수준을 획득할 수 있도록 노력해야 한다. 이를 통해 인체자원 데이터 품질이 향상될 수 있으며 연구자들에게 양질의 데이터를 제공할 수 있다.
또한 질병관리본부 인체자원은행의 현행 업무 프로세스를 대상으로 Process-Entity Matrix(CRUD Matrix)를 작성하여 업무와 데이터의 연관 관계를 정확하게 파악할 수 있는 업무 프로세스 재설계(Business Process Re-Engineering, BPR)를 수행해야 한다. 이를 통해 인체자원은행에서 수행하는 업무와 데이터 간의 연관관계의 파악 뿐 아니라 데이터 관리 수준 향상 및 응용 프로그램 개발에도 도움을 줄 수 있다. 이러한 내용들을 정보시스템의 구축 측면에서 살펴보면, 업무 프로세스 재설계가 먼저 수행되어야 하며 다음으로 데이터 구조 변환 및 데이터 이관의 작업이 수행되어야 한다. 그리고 이를 바탕으로 응용 프로그램 변환을 수행해야 한다.
마지막으로, 데이터의 생성으로부터 폐기에 이르는 데이터 생명주기와 중요성 데이터를 관리하는 관련자는 물론 데이터 생성 및 활용의 주체인 사용자들에게도 교육을 함으로써 데이터의 품질 저하 가능성을 줄이고 올바른 사용을 할 수 있도록 해야 한다.

※이 글은 2017년 질병관리본부 정책용역사업 과제인 “인체자원 데이터 품질관리체계 마련 연구” 보고서를 일부 요약 정리한 내용입니다.


참고문헌

1. 한국데이터베이스진흥원. 데이터 품질 가이드라인. 2011.
2. 한국데이터베이스진흥원. 데이터 품질관리 성숙모형(ver 1.0). 2006.
3. 한국데이터베이스진흥원. 데이터 품질관리 지침(ver 2.1). 2006.
4. 한국데이터베이스진흥원. 데이터베이스 품질 인증 안내서. 2011.
5. 한국데이터베이스진흥원. 데이터베이스 품질 인증 도입 전략과 방안. 2010.
6. 김창재, 최용락, 류성열. 소프트웨어공학 : 정보 품질 성숙도 모델에 관한 연구. 정보처리학회 논문지. 2004;13(4): 557-64.
7. 문성은. 메타데이터와 연계한 데이터품질관리의 경제적 효과 분석 및 사례 연구. 숭실대학교. 2012.
8. 최용락. 데이터 품질 관리. 숭실대학교. 2014.
본 공공저작물은 공공누리  출처표시+상업적이용금지+변경금지 조건에 따라 이용할 수 있습니다 본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.
TOP