본문으로 바로가기 주메뉴 바로가기

사용자별 맞춤메뉴

자주찾는 메뉴

추가하기
닫기

간행물·통계

contents area

detail content area

한국인 참조 유전체 데이터베이스(KRGDB) 소개
  • 작성일2017-12-14
  • 최종수정일2021-04-15
  • 담당부서생명정보연구과
  • 연락처043-719-8853
한국인 참조 유전체 데이터베이스(KRGDB) 소개

질병관리본부 국립보건연구원 유전체센터 생명정보연구과
정광수, 조성범*
* 교신저자: sbcho@korea.kr, 043-719-8850
Abstract

Introduction to the Korean Reference Genome Database (KRGDB
)

Jung Kwangsu, Cho Seongbeom
Division of Biomedical Informatics, Center for Genome Science, KNIH, KCDC

Background: Since 2012, the Center for Genome Science of Korea of the National Institute of Health has conducted the whole genome sequencing project for 1,722 Korean individuals. The project investigated and analyzed 622 samples until 2014 (the first phase), and 1,100 samples until 2016 (the second phase). The main aim of the Korean Reference Genome (KRG) project is to provide a comprehensive map of Korean genomic variants for future studies regarding disease association and population genetics.
Current status: Approximately genomic variant loci of 32 million in the first phases and 36 million in the second phase have been identified using SAM tools’ variant calling with 30X depth coverage. A large proportion of the variant loci were newly detected through those projects. The database does not only contain information on single nucleotide variants (SNVs) and insertion/deletion (INDELs) but also Reference gene and Ensenble gene information panels, genome diversity, selection tendency, variant density, functional annotations for exotic variants, and the encyclopedia of DNA elements (ENCODE) region variants. The results can be found in our web-based genome variant database (KRGDB: http://152.99.75.168/KRGDB/). The KRGDB uses MySQL database and Apache-Tomcat web-server adopted with Java Server Page (JSP).
Future perspective: Serving as a quick reference understanding genomic variants in Korean, the KRG database is expected to provide a pool of East Asian reference genome variants to promote the understanding of the genomic diversities in the human species.

Keywords: Korean Genomic Variant Database, Korean Reference Genome, Single Nucleotide Variant, INDEL, Next Generation Sequencing



  들어가는 말


한국인 참조유전체(Korean Reference Genome, KRG) 연구는 1,722명의 한국인 유전체에 존재하는 유전변이 정보들을 수집하고, 데이터베이스화시킴으로써, 국내 유전체 맞춤의학 연구를 위한 기반을 마련하기 위해 시작되었다. 이 연구를 위하여 질병관리본부 국립보건연구원 유전체센터 내 생명정보연구과(구 바이오과학정보과)와 유전체연구과(구 형질연구과)가 협력하였으며, 2014년(1차)까지 622명의 한국인으로부터 DNA 샘플을 채취하고 시퀀싱을 수행하였고, 2016년(2차)까지 추가로 1,100명의 서열 분석을 완료하고 데이터베이스를 구축하였다. 서열 추출에 사용된 장비는 일루미나사의 장비인 HiSeq2000(1차)과 Hiseq X ten(2차)이다. 본 참조유전체사업 결과물은 단일 인종 집단에서 전 세계적으로도 큰 규모이며, 세계적인 수준의 정확도를 확보하기 위하여, 샘플 당 최고 30X 배율의 서열 커버리지를 사용하였다. 현재, 공개되어 있는 유전변이는 단일염기 치환변이(Single nucleotide variant, SNV)와 insertion/deletion (INDEL)이며, 각 유전변이에 대한 집단 내 빈도와 다른 인구집단과의 빈도 차이에 대한 정보를 포함한 어노테이션 정보를 포함하고 있다. 이 원고에서는 국내 연구자들이 쉽게 KRG 데이터베이스(http://152.99.75.168/KRGDB/)를 탐색하고 활용할 수 있도록 주요 기능과 사용법을 설명하고자 한다.



  몸 말

기본 검색 인터페이스

한국인 참조유전체 연구단에서는 사업을 통해 생산된 전유전체 서열정보를 저장하기 위해 데이터베이스를 구축하고 이를 검색할 수 있는 웹 브라우저를 개발하였다. 인간 유전체 상에서 한국인의 변이 위치와 대립인자의 빈도 정보를 데이터베이스에 저장하고, 웹 브라우저를 이용하여 유전변이들의 빈도를 그래프 상에 표시하였으며, 유전변이에 관련된 정보들을 확인할 수 있게 설계하였다. 브라우저 사용자는 염색체 번호, 염색체상의 위치(범위)를 직접 입력한다. 이 때, 유전자 이름과 dbSNP[1]의 rsName을 이용해 검색하는 경우 시스템은 자동으로 염색체 번호와 위치(영역)를 입력하여 검색을 실행한다(Figure 1).
검색 결과 창의 제일 위 쪽에는 검색한 위치에 대한 기본적인 염색체 위치정보와 해당 영역에 있는 유전자 정보를 제공한다. 유전자 정보는 연구자들의 연구 목적과 필요 등에 따라 Reference gene[2], Ensembl gene[3]을 보여주고, 유전자의 엑손은 박스로 표시하고, 인트론은 점선으로 표시하며, 유전자의 방향성은 각 유전자의 앞쪽에 +와 - 기호로 표시한다. 검색된 해당 유전자를 클릭하면 유전자의 정보를 더욱 자세히 보여준다. 계속하여 단일염기 치환변이(SNV) 및 INDEL, 각 유전변이에 대해서 인종들 간의 차이, 대표적인 만성질환들(당뇨병, 고혈압, 대사증후군)과의 상관성, ENCODE 영역의 코딩 유전변이[4], 기존에 보고된 질병관련 유전변이[5-7] 들을 보여주는 패널이 위치해 있다.

검색된 유전변이(SNV, INDEL) 가시화 및 세부 검색

유전자 그림 아래에는 한국인 참조유전체사업을 통해 발굴된 모든 유전변이 빈도를 그래프로 표기하고 있다(Figure 2). 유전변이들은 크게 1% 이상의 빈도를 가지는 Common SNVs (Single nucleotide variants)와 1% 이하의 빈도를 가지는 Rare SNVs로 나누어서 표시한다. 즉, Common SNV는 변이형 대립인자의 빈도가 1~100% 범위를 가지며, 각 변이들은 염기서열(nucleotide)에 따라서 색깔로 구분된다[녹색: A(adenine), 빨강: T(thymine), 노랑: G(guanine), 파랑: C(cytosine)].
세로막대는 하나의 유전변이(SNV)를 나타내며 위쪽은 기존의 참조유전체 서열과 동일한 야생형(Wild type)의 염기이고, 아래쪽은 변이형(Variant type)의 염기를 나타낸다. 유전변이의 빈도 그래프를 통해서 한국인의 변이 빈도가 높은 영역과 적은 영역을 한 번에 확인할 수 있다. 각 변이를 클릭 시, 세부 정보로 SNV에 대한 대립유전자 빈도와 연관불균형(linkage disequilibrium, LD)정보를 알 수 있다. INDEL 영역은 회색 막대 형태로 표현되고, 클릭하면 세부 정보(위치, 대립인자 수와 빈도)를 알 수 있다(Figure 3).

검색한 유전변이 다운로드 및 전체 데이터베이스 다운로드

KRGDB에서 지원하는 다운로드 형식은 크게 두 가지가 있다. 첫 번째는 바로 이전 절에서 설명한 SNV 검색을 통하여 다운로드를 하는 것이며, 이 경우 다운로드를 원하는 해당 그래프 영역 위의 'Download' 링크 버튼을 이용하면 손쉽게 다운로드 할 수 있다(Figure 4).
두 번째, 전체 데이터베이스를 다운로드 하고자 할 때는 검색 인터페이스를 이용하지 않고, 메인 화면의 최상단에 위치한 'Download' 메뉴를 이용한다. 다운로드 페이지(Figure 5)는 2014년까지의 1차 세 항목, 2016년까지의 2차 세 항목, 총 여섯 가지의 다운로드 항목을 지원하며 각 항목을 클릭하면 다운로드 페이지가 나타난다. 다운로드 페이지에서는 데이터베이스에 기록된 전체 변이 정보를 플랫파일의 형태로 압축하여 다운로드한다. Table 1은 여섯 가지 항목의 데이터베이스 엔트리 개수를 나타내고 있다.

한국인과 다양한 인종 간 유전변이 빈도 차이 비교


KRGDB에서 지원하는 유용한 기능 중 하나는 한국인과 다양한 인종 간의 대립인자 빈도수 차이(Allele Frequency Difference, AFD)를 그래프로 표현하는 것이다. 보통 인종간 거리가 멀수록 AFD의 절대값은 크게 나타난다. KRGDB는 11개의 HapMap III[8] 인종(Table 2) 대립인자 빈도수를 AFD계산에 이용한다. Figure 6은 HapMap의 대표적인 네 개 인종들(중국인: CHB, 일본인: JPT, 유럽인: CEU, 아프리카인: YRI)의 유전변이 빈도와 한국인의 유전변이 빈도의 차이를 나타낸 것이다. 녹색 막대는 한국인이 다른 인종보다 빈도가 높은 유전변이이고, 붉은색 막대는 반대로 다른 인종이 한국인보다 빈도가 높은 유전변이를 나타낸다. 대체로 한국인과 가까운 인종일수록 그래프의 길이는 작게 표현되고 멀수록 길게 표현된다.
유전변이 빈도 차이를 그래프로 보여줌으로써 유전변이 빈도 차이가 큰 영역과 적은 영역을 한눈에 볼 수 있고, Figure 6의 경우 다른 인종에 비해 아시아 인종만 빈도 차이가 낮은 것으로 보아 아시아인의 특정 빈도를 나타내는 영역으로 볼 수 있다. AFD값을 이용하여 다양한 해석이 가능하지만, 예를 들어 모든 인종에서 AFD가 높게 나타난다면, 이는 한국인의 특이적인 대립인자 빈도수로 해석해 볼 수도 있다. 물론 분석 상의 오류일 가능성도 존재한다. AFD를 나타내는 막대를 클릭하면 해당 변이에 대한 모든 인종의 자세한 빈도 차이를 볼 수 있다.

질병 연관 유전변이 가시화

한국인 참조유전체 연구단은 1차 샘플 622명 중 230명에 대하여 역학정보와 의료 기록을 분석하고, 한국인이 빈번히 가지고 있는 세 가지 질병에 대하여 전장유전체연관분석연구(Genome-wide association study, GWAS)를 진행하였다. 분석에 사용된 샘플은 30X의 시퀀싱 depth coverage를 가지고 있고, 대상 질병은 제2형 당뇨(Type II Diabetes Mellitus, DM), 고혈압(Hypertension, HTN) 및 대사증후군(Metabolic Syndrome, MS)이다. GWAS의 결과로 생산된 SNV의 P-value와 odd ratio를 데이터베이스화 하였고 KRGDB 웹 브라우저는 이를 그래프 형태로 나타낸다(Figure 7).
직관적으로 P-value를 표현하기 위해 로그 값을 취하였고, 이 –log(P) 값을 이용하여 도트(점)로 대변되는 해당 검색 영역의 GWAS 결과가 표시된다. 이 때 –log(P)의 범위에 따라 genome-wide significance level (-log(P) 값이 8이상)과 suggestive level (-log(P)의 값이 5에서 8사이)로 구분한다. 즉, Figure 7의 각 도트는 SNV의 GWAS 결과를 나타내며, 도트의 색깔은 odd ratio를 나타낸다(1 이상 빨강, 1 미만 파랑). 관심 있는 도트(SNV)에 마우스 커서를 갖다 대면 P-value와 odd ratio가 변이의 위치와 함께 팝업 텍스트 박스로 표시된다. 예를 들어, Figure 7에서는 당뇨(DM)에 대하여 chr1:12,043,469 위치의 변이가 genome-wide significance level의 P-value를 가지고 있고 25 이상의 odd ratio 값을 가지고 있는 것이 한 눈에 확인 가능하다. 즉, 이 SNV는 당뇨에 유의한 변이로 의심 할 수 있으며, 정확한 결과는 생물학적 실험을 통하여 검증한다.

어노테이션 정보 가시화


KRGDB는 공개된 어노테이션 정보를 보여주는 패널을 보유하고 있다(Figure 8). 이 패널은 ENCODE 영역의 코딩 유전변이[4], 기존에 보고된 질병 관련 유전변이(GWAS Catalog[5], NCBI Clinvar[6], GRASP[7])로 구성되어있고, 각 항목의 변이 영역을 클릭하면 세부 정보를 볼 수 있다.



  맺는 말


한국인 참조유전체 사업에서 생산한 유전변이들은 일반인들이 보편적으로 가질 수 있는 유전변이로써 희귀 유전질환자들의 주요 원인 유전변이 발굴에 활용 가치가 높다. 또한, 한국인을 대상으로 유전체 서열을 활용한 PCR primer 제작이나 제한효소 절단부위 동정 등에 활용될 수 있을 것으로 기대된다. 향후, 서열을 이용한 한국인 후성유전체 연구나 DNA 구조변이 연구 등에 활용할 수 있는 각종 데이터베이스를 지속적으로 제공할 예정이다. 또한 한국인 대표 유전체 변이정보 포털로 발전시켜, 한국에서 생산되는 유전체 서열 정보를 정부차원에서 통합하고 많은 연구자들이 공유할 수 있는 사이트로 발전시키고자 한다. 질병관리본부 홈페이지(www.kdca.go.kr)에서 유전체센터 생명정보연구과의 홈페이지로 들어가면 ‘한국인참조유전체DB’ 메뉴에 데이터베이스가 연결되어 있고, 웹 주소를 이용하여 바로 접속 가능하다(http://152.99.75.168/KRGDB/).



  참고문헌

1. Sherry, S. T., Ward, M. H., Kholodov, M., Baker, J., Phan, L., Smigielski, E. M., Sirotkin, K. dbSNP: the NCBI database of genetic variation. Nucleic Acids Res. 2001;29(1):308-11.
2. Pruitt, K. D., Tatusova, T., Klimke, W. and Maglott, D. R. NCBI Reference Sequences: current status, policy and new initiatives. Nucleic Acids Res. 2009;37:D32-6.
3. Flicek, P., Amode, M. R., Barrell, D., Beal, K., Billis, K., Brent, S., Carvalho-Silva, D., Clapham, P., Coates, G., Fitzgerald, S. et al. Ensembl 2014, Nucleic Acids Res. 2014;42:D749-55.
4. Ernst, J. and Kellis, M. ChromHMM: automating chromatin-state discovery and characterization. Nat. Methods. 2012;9:215-6.
5. Welter, D., MacArthur, J., Morales, J., Burdett, T., Hall, P., Junkins, H., Klemm, A., Flicek, P., Manolio, T., Hindorff, L., et al. The NHGRI GWAS Catalog, a curated resource of SNP–trait associations. Nucleic Acids Res, 2014;42:D1001-6.
6. Landrum, M. J., Lee, J. M., Riley, G. R., Jang, W., Rubinstein, W. S., Church, D. M. and Maglott, D. R. ClinVar: public archive of relationships among sequence variation and human phenotype, Nucleic Acids Res. 2014;42:D980-5.
7. Leslie, R., O'Donnell, C. J., Johnson, A. D. GRASP: analysis of genotype-phenotype results from 1,390 genome-wide association studies and corresponding open access database. Bioinformatics. 2014;30(12):i185-94.
8. International HapMap 3 Consortium, Altshuler, D. M., Gibbs, R. A., Peltonen, L., Altshuler, D. M., Gibbs, R. A., Peltonen, L., Dermitzakis, E., Schaffner, S. F. et al. (2010). Integrating common and rare genetic variation in diverse human populations. Nature. 2010;467:52-8.
본 공공저작물은 공공누리  출처표시+상업적이용금지+변경금지 조건에 따라 이용할 수 있습니다 본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.
TOP